Open Directory Project DMOZDie manuelle Suchmaschine

von Dr. William Sen

Aktueller Hinweis: Dieser Artikel wurde am 29. Juli 2002 verfasst. Am 17. März 2017, fast 15 Jahre später, wurde das Projekt DMOZ von dem Eigentümer AOL eingestellt. Gegründet wurde DMOZ am 5. Juni 1998 unter der Domain directory.mozilla.org. Eine Kopie von DMOZ ist unter der URL dmoztools.net verfügbar. Zuletzt hatte DMOZ 91.929 freiwillige Mitarbeiter, die über eine Million Kategorien in 90 Sprachen pflegten.


Das Open Directory Project beschäftigt keine bezahlten Editoren. Die Indexierung erfolgt von freiwilligen Mitarbeitern.

Die Idee und der Name ist von “Open Source” hergeleitet, dessen Idee von der Linux-Community abstammt. Der finnische Student Linus Torvalds hatte Anfang der 90er Jahre sein Betriebssystem im Internet freigegeben, das sich sobald als Alternative zum Betriebssystem Microsoft Windows entwickelte. Der Erfolg von Linux ist der freiwilligen Mitarbeit von Tausenden von Programmierern zu verdanken, die das Betriebssystem mit Programmen, Systemroutinen, Treibern und Softwareprojekten unentgeltlich und frei zur Verfügung stellen. Die Hauptentwickler von Linux arbeiten mit wissenschaftlichem Eifer an dem Projekt und protokollieren ihre Fortschritte.

Dieser Grundidee hat auch das Open Directory Project seinen Erfolg zu bedanken, wonach auch Editoren durch freiwillige Teilnahme das ODP-Verzeichnis täglich mit mühseliger handarbeit aktualisieren und indexieren.

Auch wird jede Änderung und Aktualisierung automatisch in einem für Editoren sichtbaren Backoffice protokolliert. Die Editoren erhalten somit die Möglichkeit die Gründe ihrer Änderungen für Inhalte zu verfolgen und nachzuvollziehen. Editor kann grundsätzlich jeder werden, der sich für eine bestimmte Kategorie im Verzeichnis bewirbt und sich an die ODP-Richtlinien hält.

Datenbasis

Bei ODP handelt es sich um ein polyhierarchisches Kategorieverzeichnis. Inhalte von Webseiten werden nicht wie etwa bei Google als Volltext indexiert. Die Indexierung der Webseiten wird von freiwilligen Editoren ins Verzeichnis mit der Internetadresse (URL) und einer passenden Beschreibung zur Webseite vorgenommen. Somit bleibt gerade eine Suche nach speziellen Suchwörtern auf die im Verzeichnis dokumentierten Kurzbeschreibungen und den Namen der URLs beschränkt.
Derzeit sind 43 000 Editoren bei ODP aktiv beschäftigt, die insgesamt 2,2 Millionen Webseiten verwalten. Die Kategorien sind mit 440 000 an der Zahl sehr hoch und daher auch aufgrund der Polyhierarchie, die zudem noch in verschiedene Sprachen unterteilt ist, sehr komplex und unüberschaubar. Die Editoren haben meist in verschiedenen Bereichen freie Hand neue Klassen zu schaffen und Unterverzeichnisse mit neuen Klassen zu bereichern. Somit ist trotz vieler Regeln für Editoren ein willkürlich gestaltetes Verzeichnis unvermeidlich.

Content Management für Editoren

Die Software für die Suchfunktion namens Isearch wurde in das ODP implementiert. Das Tool Isearch (ebenfalls Open Source, also frei) wird von dem Unternehmen Etymon ® entwickelt und angeboten. Weitere Veränderungen seitens ODP im Quelltext wurden nicht vorgenommen. Somit geht die Suche lediglich über die dem ISO Standard angepassten Booleschen Operatoren nicht hinaus.

Partnerseiten

Gerade Suchmaschinen mit automatischer Indexierung bieten als Zusatz auch ein Verzeichnis an. Hier wird oft auf ODP zugegriffen, wie beispielsweise bei der bekannten Suchmaschine Google unter dem Menü “Verzeichnis”. Google nutzt hierbei eine Schnittstelle zu ODP. Inhalte werden von ODP auf eigener Google-Datenbank auf gewohnter Google-Oberfläche angeboten

Googles Verzeichnis bei Google.de

Ähnlich machen es auch Partner wie AOL Search, AltaVista, HotBot, Lycos und Netscape Search. Aktualisierungen und Inhalte durch ODP werden jedoch durch den zeitverzögerten Datentransport erst nach zwei Wochen bis mehrere Monate bei diesen Partnern wirksam. Insgesamt hat ODP über 350 Partner ansprechen können, die die ODP-Datenbank den Nutzern auf Webseiten präsentieren. Darunter sind auch französische, italienische, niederländische, polnische, schwedische und spanische Anbieter, die Inhalte in eigener Landessprache anbieten.

Ranking

Eine spezielle Ranking-Funktion besitzt ODP nicht. Hier wird nach dem Exact Match-Prinzip gesucht. Ein höheres Ranking haben jedoch Seiten, die vom Editor als cool gekennzeichnet wurden. (Editoren haben die Möglichkeit pro Webseite ihrer eigenen Kategorie eine URL als die Haupt-URL zu kennzeichnen. Diese werden bei der Result-Seite jeweils immer ganz oben gezeigt)

Metasuche

Nach der Suche bietet ODP die Ausweitung des Suchbegriffs auf andere Suchmaschinen, ohne die Anfrage erneut eingeben zu müssen. So kann die Suche auf weitere Suchmaschinen, die vor allem automatisch indexierte Datenbanken anbieten erweitert werden: AllTheWeb (Fast), AltaVista, Google, HotBot, Netscape, Northern Light und Yahoo.

“Fernsehen” search on: All the Web – AltaVista – Google – HotBot – Netscape – Northern Light – Yahoo

Filtersuche

Als Befürworter des Open Source (“Alle Informationen müssen frei sein”) bietet ODP beispielsweise auch eine große Auswahl von pornographischen Inhalten an. Hierbei werden diese Inhalte von der Handhabung wie andere Kategorien behandelt. Daher bietet die deutsche DMOZ-Seite eine Filterfunktion für alle solche Seiten an, wenn man bei der Suchfunktion auf der Hauptseite “nach Inhalten für Kinder und Jugendliche” anwählt.
Bei der Suche, wie beispielsweise dem Pharma-Hersteller “Essex Pharma GmbH” wird aber aus dem Kontext das Wort “sex” erkannt und somit auch das gefiltert.

Weitere Funktionen sind die Suche nach Inhalten nur für Webseiten mit deutschsprachigem Inhalt. Die Suchfunktion bietet auch die Möglichkeit nach Suche in beliebiger Sprache, wobei die Suche hier sich aus der internationale Suche von DMOZ.org aus nicht unterscheidet. Die internationale Seite DMOZ.org dagegen bietet die Filterfunktion, vor allem nach Inhalten für Kinder und Jugendliche nicht auf der Hauptseite an, sondern erst bei der advanced search Funktion nach einem weiteren Klick auf das Link.

Patente

Das Urheberecht für die Software Isearch, die die Suchfunktion bei ODP (s. Retrieval) nach dem Standard ISO 23950 regelt, wird von Etymon® entwickelt und angeboten. Isearch ist ebenfalls nach Open Source Richtlinien programmiert und somit auch frei.

>> etymon.com/Isearch/

Da es sich bei Isearch um kein kommerzielles Produkt handelt, ist auch kein Patent zu diesem Produkt weder in Deutschland (DPMA), noch in anderen Ländern verfügbar. Als Wortmarke ist ebenfalls weder DMOZ, noch Open Directory Project (ODP) weltweit geschützt.


Die letzten Artikel zum Thema digitale Revolution


Facebook-Skandal Der Facebook-Skandal in meiner Doktorarbeit in 2012

Der Informationswissenschaftler Dr. William Sen hatte die Datenschnittstelle von Facebook bereits in 2012 untersucht und auch einen Zusammenhang zu George Orwells Roman 1984 hergestellt.


Usenet Das Usenet

Über 10 Petabyte an Daten sind in diesem Forum vorhanden und über 100.000 Themen. Kein Forum auf der Welt hat mehr Inhalte als das Usenet.


Geschichte des Usenet Die Geschichte des Usenet

Was war eigentlich das erste Forum der Welt? Die Antwort: Das Usenet – und es ist heute noch online!


Typo3 vs WordPress Typo3 versus WordPress

Open Source CMS wie Typo3 sind kaum noch am Markt bekannt und werden nicht mehr weiterentwickelt. Doch einige Hosts wie Mittwald setzen immer noch auf konservative Open Source Systeme aus bestimmten Gründen.

Hinterlasse einen Kommentar: