Das Open Directory Project (DMOZ)

Die manuelle Suchmaschine

Open Directory Project DMOZ

von Dr. William Sen

Aktueller Hinweis: Dieser Artikel wurde am 29. Juli 2002 verfasst. Am 17. März 2017, fast 15 Jahre später, wurde das Projekt DMOZ von dem Eigentümer AOL eingestellt. Gegründet wurde DMOZ am 5. Juni 1998 unter der Domain directory.mozilla.org. Eine Kopie von DMOZ ist unter der URL dmoztools.net verfügbar. Zuletzt hatte DMOZ 91.929 freiwillige Mitarbeiter, die über eine Million Kategorien in 90 Sprachen pflegten.


Das Open Directory Project beschäftigt keine bezahlten Editoren. Die Indexierung erfolgt von freiwilligen Mitarbeitern.

Die Idee und der Name ist von “Open Source” hergeleitet, dessen Idee von der Linux-Community abstammt. Der finnische Student Linus Torvalds hatte Anfang der 90er Jahre sein Betriebssystem im Internet freigegeben, das sich sobald als Alternative zum Betriebssystem Microsoft Windows entwickelte. Der Erfolg von Linux ist der freiwilligen Mitarbeit von Tausenden von Programmierern zu verdanken, die das Betriebssystem mit Programmen, Systemroutinen, Treibern und Softwareprojekten unentgeltlich und frei zur Verfügung stellen. Die Hauptentwickler von Linux arbeiten mit wissenschaftlichem Eifer an dem Projekt und protokollieren ihre Fortschritte.

Dieser Grundidee hat auch das Open Directory Project seinen Erfolg zu bedanken, wonach auch Editoren durch freiwillige Teilnahme das ODP-Verzeichnis täglich mit mühseliger handarbeit aktualisieren und indexieren.

Auch wird jede Änderung und Aktualisierung automatisch in einem für Editoren sichtbaren Backoffice protokolliert. Die Editoren erhalten somit die Möglichkeit die Gründe ihrer Änderungen für Inhalte zu verfolgen und nachzuvollziehen. Editor kann grundsätzlich jeder werden, der sich für eine bestimmte Kategorie im Verzeichnis bewirbt und sich an die ODP-Richtlinien hält.

Datenbasis

Bei ODP handelt es sich um ein polyhierarchisches Kategorieverzeichnis. Inhalte von Webseiten werden nicht wie etwa bei Google als Volltext indexiert. Die Indexierung der Webseiten wird von freiwilligen Editoren ins Verzeichnis mit der Internetadresse (URL) und einer passenden Beschreibung zur Webseite vorgenommen. Somit bleibt gerade eine Suche nach speziellen Suchwörtern auf die im Verzeichnis dokumentierten Kurzbeschreibungen und den Namen der URLs beschränkt.
Derzeit sind 43 000 Editoren bei ODP aktiv beschäftigt, die insgesamt 2,2 Millionen Webseiten verwalten. Die Kategorien sind mit 440 000 an der Zahl sehr hoch und daher auch aufgrund der Polyhierarchie, die zudem noch in verschiedene Sprachen unterteilt ist, sehr komplex und unüberschaubar. Die Editoren haben meist in verschiedenen Bereichen freie Hand neue Klassen zu schaffen und Unterverzeichnisse mit neuen Klassen zu bereichern. Somit ist trotz vieler Regeln für Editoren ein willkürlich gestaltetes Verzeichnis unvermeidlich.

Content Management für Editoren

Die Software für die Suchfunktion namens Isearch wurde in das ODP implementiert. Das Tool Isearch (ebenfalls Open Source, also frei) wird von dem Unternehmen Etymon ® entwickelt und angeboten. Weitere Veränderungen seitens ODP im Quelltext wurden nicht vorgenommen. Somit geht die Suche lediglich über die dem ISO Standard angepassten Booleschen Operatoren nicht hinaus.

Partnerseiten

Gerade Suchmaschinen mit automatischer Indexierung bieten als Zusatz auch ein Verzeichnis an. Hier wird oft auf ODP zugegriffen, wie beispielsweise bei der bekannten Suchmaschine Google unter dem Menü “Verzeichnis”. Google nutzt hierbei eine Schnittstelle zu ODP. Inhalte werden von ODP auf eigener Google-Datenbank auf gewohnter Google-Oberfläche angeboten

Googles Verzeichnis bei Google.de

Ähnlich machen es auch Partner wie AOL Search, AltaVista, HotBot, Lycos und Netscape Search. Aktualisierungen und Inhalte durch ODP werden jedoch durch den zeitverzögerten Datentransport erst nach zwei Wochen bis mehrere Monate bei diesen Partnern wirksam. Insgesamt hat ODP über 350 Partner ansprechen können, die die ODP-Datenbank den Nutzern auf Webseiten präsentieren. Darunter sind auch französische, italienische, niederländische, polnische, schwedische und spanische Anbieter, die Inhalte in eigener Landessprache anbieten.

Ranking

Eine spezielle Ranking-Funktion besitzt ODP nicht. Hier wird nach dem Exact Match-Prinzip gesucht. Ein höheres Ranking haben jedoch Seiten, die vom Editor als cool gekennzeichnet wurden. (Editoren haben die Möglichkeit pro Webseite ihrer eigenen Kategorie eine URL als die Haupt-URL zu kennzeichnen. Diese werden bei der Result-Seite jeweils immer ganz oben gezeigt)

Metasuche

Nach der Suche bietet ODP die Ausweitung des Suchbegriffs auf andere Suchmaschinen, ohne die Anfrage erneut eingeben zu müssen. So kann die Suche auf weitere Suchmaschinen, die vor allem automatisch indexierte Datenbanken anbieten erweitert werden: AllTheWeb (Fast), AltaVista, Google, HotBot, Netscape, Northern Light und Yahoo.

“Fernsehen” search on: All the Web – AltaVista – Google – HotBot – Netscape – Northern Light – Yahoo

Filtersuche

Als Befürworter des Open Source (“Alle Informationen müssen frei sein”) bietet ODP beispielsweise auch eine große Auswahl von pornographischen Inhalten an. Hierbei werden diese Inhalte von der Handhabung wie andere Kategorien behandelt. Daher bietet die deutsche DMOZ-Seite eine Filterfunktion für alle solche Seiten an, wenn man bei der Suchfunktion auf der Hauptseite “nach Inhalten für Kinder und Jugendliche” anwählt.
Bei der Suche, wie beispielsweise dem Pharma-Hersteller “Essex Pharma GmbH” wird aber aus dem Kontext das Wort “sex” erkannt und somit auch das gefiltert.

Weitere Funktionen sind die Suche nach Inhalten nur für Webseiten mit deutschsprachigem Inhalt. Die Suchfunktion bietet auch die Möglichkeit nach Suche in beliebiger Sprache, wobei die Suche hier sich aus der internationale Suche von DMOZ.org aus nicht unterscheidet. Die internationale Seite DMOZ.org dagegen bietet die Filterfunktion, vor allem nach Inhalten für Kinder und Jugendliche nicht auf der Hauptseite an, sondern erst bei der advanced search Funktion nach einem weiteren Klick auf das Link.

Patente

Das Urheberecht für die Software Isearch, die die Suchfunktion bei ODP (s. Retrieval) nach dem Standard ISO 23950 regelt, wird von Etymon® entwickelt und angeboten. Isearch ist ebenfalls nach Open Source Richtlinien programmiert und somit auch frei.

>> etymon.com/Isearch/

Da es sich bei Isearch um kein kommerzielles Produkt handelt, ist auch kein Patent zu diesem Produkt weder in Deutschland (DPMA), noch in anderen Ländern verfügbar. Als Wortmarke ist ebenfalls weder DMOZ, noch Open Directory Project (ODP) weltweit geschützt.


Die letzten Artikel zum Thema digitale Revolution

Usenet Das Usenet

Über 10 Petabyte an Daten sind in diesem Forum vorhanden und über 100.000 Themen. Kein Forum auf der Welt hat mehr Inhalte als das Usenet.


Geschichte des Usenet Die Geschichte des Usenet

Was war eigentlich das erste Forum der Welt? Die Antwort: Das Usenet – und es ist heute noch online!


Typo3 vs WordPress Typo3 versus WordPress

Open Source CMS wie Typo3 sind kaum noch am Markt bekannt und werden nicht mehr weiterentwickelt. Doch einige Hosts wie Mittwald setzen immer noch auf konservative Open Source Systeme aus bestimmten Gründen.


Amazon oder eBayAmazon vs. eBay

Einst war eBay einer der Marktführer und galt als der innovativster Durchstarter des IT Booms. Zur gleichen Zeit galt Amazon als das Sorgenkind der IT-Branche. Doch diese Zeiten sind selbst vorbei. Das alte Segelschiff eBay kann dem modernen Amazon nicht mehr standhalten. Ist das Ende von eBay nur noch eine Frage der Zeit?


SelbstregulationSelbstregulation statt Kontrolle

Kann man ein System sich selbst überlassen und einfach darauf hoffen, dass es funktioniert? Selbstregulierende System haben ihre Funktionsweise bislang nur im menschlichen Organismus unter Beweis gestellt. Neuerdings funktioniert es allerdings auch im Internet.


Yoga Online Yoga-Online statt Yoga – Sport wird Digital

Auch Sportangebote werden werden immer mehr ins Internet transferiert. Während große Yoga-Anbieter den Massenmarkt anvisieren, haben sich aber auch kleinere Anbieter und Yoga-Trainer im Internet eine viel höhere Berühmtheit erlangen können.


Shitstorm Wieso wir shitstormen

Der Albtraum eines jeden PR-Managers – der „Shitstorm“ im Web. Wieso können wir als Nutzer manchmal rasend wütend werden, wenn wir etwas lesen. Woher kommt der Shitstorm und welche Ursachen hat das? Wir haben einige Punkte zusammengestellt.


Die Tageszeitung Legal, illegal, scheißegal!

Sieben Jahre nach dem Start der ersten Internet-Tauschbörse ist die Musikindustrie auf der verzweifelten Suche nach einem Gegenmittel zum kostenlosen Download. 2005 meldete sie zum siebten Mal in Folge einen Umsatzrückgang. Gegenüber dem Jahr 1998 sank der Absatz von Tonträgern um 45 Prozent, ein Drittel der Arbeitsplätze wurde abgebaut.


der konnektive Mensch Der konnektive Mensch

Kommunikation ist ein Grundbedürfnis des Menschen. Somit befriedigt und unterstützt die Software dieses Bedürfnis. Wir haben uns in dieser Gesellschaft somit abhängig von Software gemacht, welche letztlich unser Wesen ausmacht. Doch was passiert, wenn der Zugang zur Software versperrt wird?


Musikindustrie Anwalt Eine kleine Geschichte der Raubkopie

Wenn eine starke Industrie seine Fehler nicht einsieht, kommen Anwälte ins Spiel. Anwälte sind jedoch keine Wirtschaftsberater. Aus dem Berg voller Papier wird schließlich ein Berg voller Sorgen. Wie der Untergang der Musikindustrie begann …


eBook-Portale eBooks kostenlos

Wir haben eine Liste von Portale aufgestellt, wo ihr kostenlose Bücher bzw. Literatur downloaden könnt. Wissen kann man nicht stehlen, denn Wissen ist teilbar. Die meisten dieser Portale bieten Klassiker von Autoren an, die der Gesellschaft frei zur Verfügung stehen.


eBook-Portale Open Direcotry Project: Die manuelle Suchmaschine

DMOZ gehörte zu der größten Suchmaschine der Welt, die komplett von Hand von freiwilligen Editoren gepflegt wurde. Dadurch war sie die qualitativ hochwertigste Suchmaschine.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.