Was dürfen Suchmaschinen?

Suchmaschinen

Bad Robot

von Dr. William Sen

Suchmaschinen dürfen nur Inhalte erfassen, die von dem Website-Betreiber zugelassen sind. Hierfür sorgt ein technischer Standard, den es von allen Suchmaschinen zu beachten gilt. In Deutschland ist dies für die Suchmaschinenbetreiber Pflicht, wenn sich die Server in Deutschland befinden und damit zugleich in deutschem Rechtsgebiet. Doch welche Suchmaschine hat schon seinen Sitz in Deutschland und wann wird dieser Fakt einfach ignoriert?

Setzt man hinter einer URL den Zusatz „/robots.txt“, erscheint eine für viele nicht verständliche Art von Text (zum Beispiel unter „www.heise.de/robots.txt“, einem der größten Newsportale des Heise Verlags und dem Herausgeber des bekanntesten Computerfachmagazins namens „c’t“). Hierbei handelt es sich um den sogenannten „Robots Exclusion Standard“. Diese Datei kann ein Website-Betreiber gewöhnlich mit einem Texteditor wie Notepad bearbeiten und unter seinem Webspace einfügen bzw. uploaden. Der Website-Betreiber hat in der robots.txt die Möglichkeit, den Suchmaschinen mitzuteilen, welche Inhalte sie indexieren dürfen und welche nicht.

Daneben kennt die robots.txt eine Fülle von weiteren Geboten und Verboten, die man Suchmaschinen mitteilen kann. So kann der Website-Betreiber zu Beispiel bestimmten Suchmaschinen die Indexierung ganz verbieten, während er anderen Tür und Tor öffnet. Möglich macht diese Einschränkung die besondere Fähigkeit der Suchmaschinen, sich mit Hilfe des sogenannten „Robot Identifier“ bei der Website als Suchmaschine erkenntlich zeigen zu können, sobald sie dort indexieren. Der „Robot Identifier“ ist wie die eigene Visitenkarte oder der Fingerabdruck der Suchmaschine und wird jedes Mal an den Web-site-Betreiber übermittelt, wenn die Suchmaschine auf seine Website zugreift. Sehen kann der Administrator meist in den Webstatistiken, wann welche Suchmaschine auf seiner Website war. Außerdem hat er die Möglichkeit zu erfahren, auf welche Unterverzeichnisse bzw. Webpages die Suchmaschine zugegriffen und auch mit welchem Tempo sie Daten indexiert hat. Zeigt beispielsweise eine Suchmaschine aus einer sehr hohen Bandbreite an einer Website Interesse und indexiert dort Inhalte mit einer außergewöhnlichen Geschwindigkeit, kann das für Website-Betreiber so belastend sein, dass die Website gar nicht mehr aufgerufen werden kann. Denn je mehr Traffic eine Suchmaschine auf der eigenen Website verursacht, desto weniger Bandbreite bleibt für die echten Nutzer. Auch hier vermag ein Website-Betreiber durch die Anweisung in der robots.txt gegenzusteuern: Mit dem „delay“-Befehl kann er bestimmte Suchmaschinen anweisen, dass sie nur in vorher definiertem Rhythmus indexieren sollen. Eine Order kann zum Beispiel sein, dass der Robot eine Page nur alle 10 Sekunden indexieren darf, was die Website merklich entlastet.

Müssen allerdings Suchmaschinen der robots.txt auch Folge leisten? Nein. Beim robots.txt von heise.de beispielsweise ist deutlich zu sehen, dass sie zwar allen anderen Suchmaschinen, aber nicht Google verbietet, ihre Foreninhalten zu indexieren. Und sucht man über Forensuchmaschinen die Inhalte von heise.de, tauchen Forenbeiträge dort trotzdem auf. Die Forderung von heise.de an die Robots, die Finger von den Inhalten zu lassen, wird also ignoriert.

Möglich ist eine „illegale“ Indexierung ohne Probleme. Schließlich ist die robots.txt keine technische Sperre, sondern lediglich eine Anweisung an den Robot der Suchmaschine. Der Website-Betreiber geht zunächst davon aus, dass Suchmaschinen seriös genug sind und fairerweise diese Anweisungen beachten.

Es sind vor allem diejenigen Suchmaschinen, die nicht im Rampenlicht der Öffentlichkeit stehen, die es sich nicht erlauben können, sich der robots.txt zu widersetzen. Während die großen bekannten dem auch Folge leisten, hat sich die große Mehrzahl der Suchmaschinen jedoch dazu entschlossen, solche Inhalte trotzdem zu erfassen. Immerhin kann man zumindest auf diese Weise einen Mehrwert gegenüber Riesen wie Google erzeugen. Somit gibt es auch im Ausland eine Menge weiterer Suchmaschinen, die beträchtliche Marktanteile besitzen. In Ländern wie China beispielsweise ist die Suchmaschine Baidu führend und wird primär als Suchmaschine benutzt. Yandex ist eine russische Suchmaschine, die dort fast 50 Prozent Marktanteile besitzt. In Japan findet ebenfalls Google kaum Verwendung und in Südkorea beherrscht die Suchmaschine Naver mit acht weiteren den asiatischen Markt. Der Erfolg dieser Suchmaschinen ist darauf zurückzuführen, dass sie noch vor Google in die jeweiligen Landessprachen investiert haben. Hinzu kommt der hohe örtliche Bekanntheitsgrad der landeseigenen Suchmaschinen. Und in all diesen Ländern hat das deutsche Urheberrecht im Grunde keinerlei Bedeutung.

Baidu

Die größte Suchmaschine in Asien ist Baidu

Doch nicht nur ausländische Suchmaschinen sind weltweit im Einsatz, sondern auch eine Vielzahl spezialisierter Suchmaschinen in verschiedenen Bereichen. Knapp 20 Metasuchmaschinen gehören neben Google und Yahoo zu den weltweiten Marktführern, von weiteren hunderten Metasuchmaschinen ganz zu schweigen, die mehr oder weniger bekannt sind. Hinzu kommen geographische und medizinische Suchmaschinen, Wirtschafts-, Job-, Nachrichten-, Personen-, Preisvergleichs-, Blog-, Foren- sowie Multimediasuchmaschinen und viele mehr. Alle greifen sie auf gewöhnliche Webinhalte zu und suchen sich dort die für sie relevanten Informationen. Eine Preissuchmaschine entert dabei ausschließlich Shops, während Personensuchmaschinen explizit in einer Website nach personenbezogenen Daten Ausschau halten. Im Gegensatz zu den sogenannten allgemeinen Suchmaschinen wie Google, suchen solche speziellen Suchmaschinen also nach den gewünschten und speziellen Inhalten und erheben nicht den Anspruch, den gesamten Inhalt aufzeichnen zu müssen. Viele dieser spezialisierten Suchmaschinen sind bekannt dafür, die robots.txt zu ignorieren.

Wehren können sich Website-Betreiber gegen diesen Zugriff von Robots und dem Ignorieren ihrer Anweisungen kaum. Zwar können sie die IP der Robots der jeweiligen Suchmaschinen sperren. Die meisten Suchmaschinen, die allerdings wissentlich die robots.txt ignorieren, sind gegen solche Sperren gewappnet und vermögen derartige Hindernisse mit zahlreichen technischen Tricks problemlos zu überwinden.

Aus rechtlicher Sicht ist die Indexierung einer Website ohne die Zustimmung des Website-Betreibers jedoch kritisch. Denn der Betreiber einer Website hat auf Struktur und Inhalt seiner Site ein Urheberrecht. Dies gilt auch dann, wenn er selber nicht Urheber der einzelnen Inhalte ist, wie beispielsweise in einem Presseportal.

Laut eines Urteils aus den Anfängen des Webs haben Suchmaschinen das Recht, auch ohne die direkte Erlaubnis des Web-site-Betreibers Inhalte zu indexieren. Dabei wird von einem konkludierenden Einverständnis des Betreibers ausgegangen, da man voraussetzt, dass eine Erfassung durch Suchmaschinen in seinem Interesse liegt und er gefunden werden möchte. In diesem Urteil fand allerdings frühzeitig indirekt auch die robots.txt Erwähnung. Denn es besagt, dass die Erfassung von Websites ohne die Erlaubnis des Website-Betreibers nur dann gelte, wenn dem Betreiber die technische Möglichkeit gegeben werde, der Indexierung zu widersprechen. Dazu solle er beispielsweise einen Passwortschutz benutzen – oder eben mit der robots.txt den Suchmaschinen entsprechende Anweisungen geben.

Suchmaschinen-Bot

Dieses Urteil und das deutsche Urheberrecht sind bindend. Trotzdem hindern beide viele Suchmaschinen nicht daran, Websites trotzdem zu indexieren: Wer an Daten kommen möchte und sein Geschäftsmodell darauf aufbaut, greift auf die Inhalte einfach aus einem anderen Land zu, wo das deutsche Urheberrecht keine Geltung hat. So gibt in den USA das Urteil beispielsweise nicht und auch das Urheberrecht unterscheidet sich merklich von unserem Rechtsverständnis.

Im Grunde nehmen solche Suchmaschinen in Deutschland eine Urheberrechtsverletzung vor, da die Inhalte über das Web und somit auch aus Deutschland erreichbar sind. Deutsche Internetprovider könnten theoretisch die Sperrung und Zensierung von URLs vornehmen, die gegen das deutsche Gesetz verstoßen. In der Praxis finden beide Vorgänge jedoch sehr selten und nur bei schwerwiegenden Fällen bzw. bei verfassungswidrigem Inhalten statt. Denn Zensuren werden in Deutschland stark kritisiert. Aus Urheberrechtsgründen Inhalte zu sperren, kann innerhalb weniger Stunden zu gewaltigen Shitstorms innerhalb der Netzcommunity führen. Die Diskussion um Netzneutralität und Freiheit der Information, die in Deutschland sehr große Befürworter haben, steht im Widerspruch zu dem gleichzeitig verlangten hohen Datenschutz. Abgesehen davon wäre die Kontrolle für Suchmaschinen nahezu unmöglich, denn zu der bereits riesigen Zahl an Suchmaschinen kommen ständig neue hinzu. Es wäre dann Aufgabe des Providers zu prüfen, welche Inhalte nun aufgrund des robots.txt gegen das Urheberrecht verstoßen. Eine unmögliche Aufgabe.

Bereits die kleinste Änderung an der robots.txt kann eine gesamte Suchmaschine legal bzw. illegal werden lassen. Daran lässt sich auch die Schwäche erkennen, die sowohl Recht als auch Urteil an dieser Stelle heute noch haben. Ferner wäre es gar nicht möglich, nur einzelne Inhalte zu sperren, es müssten dann ganze Suchmaschinen mit Milliarden von Inhalten der deutschen Bevölkerung vorenthalten werden, weil beispielsweise gegen das deutsche Urheberrecht eines einzigen Betreibers verstoßen wird, während dieses Recht in der übrigen Welt keine Bedeutung hat. Derartige Diskussionen sind dann für Juristen eine rechtliche Spielwiese, während sich philosophische Grundgedanken der Informationsfreiheit und gesellschaftliche Grundsatzdiskussionen um das öffentliche Interesse in die Debatte mit einbeziehen.

Der Fall „robots.txt“ gilt als ein ganz besonderer im deutschen Recht und ist einer der vielen Punkte, dem sich der Gesetzgeber in Zukunft noch wird widmen müssen. Immerhin gehört das deutsche Urheberrecht auch heute noch zu den am häufigsten geänderten Gesetzen, weil es nun einmal den Veränderungen in der Internettechnologie weit hinterherhängt. Die Innovationen, der Wachstum und die Veränderungen der Technologie sind schneller, als der Gesetzgeber in der Lage ist, sich ad hoc anzupassen. Aber das ist eine andere Geschichte …


Facebook SEO Facebook SEO

Wie kann man eigentlich seine eigene Facebook Page besser ranken?


Foren SEO Foren SEO

Die größte SEO-Power geht oft von aktiven Foren aus, weil sie ein ständiges Content Freshness bieten. Wenn ein Unternehmen es schafft ein erfolgreiches Forum aufzubauen, ist eine der erfolgreichsten Etappen im SEO erreicht.


Wikipedia SEO Wikipedia SEO (Teil 1)

Kann man eigentlich mit Online Marketing mit Wikipedia betreiben, vor allem SEO? Das Problem liegt darin, dass Wikipedia im Grunde die Informationsfreiheit und den Gedanken des WWW versucht auszuhebeln. Nicht ohne Grund haben sich im Netz eine Schar von Menschen gegen Wikipedia ausgesprochen.


Wikipedia SEO Wikipedia SEO (Teil 2)

Wer versucht seine eigene Website oder Produkte durch Wikipedia-Maßnahmen hochzuranken, sollte aufpassen. Das Spiel kann auch nach hinten losgehen. Das Prinzip ist eigentlich klar: Wer Artikel bei Wikipedia veröffentlicht, gibt die Kontrolle über die Artikel ab.


Was dürfen Suchmaschinen Was dürfen Suchmaschinen?

Wenn Suchmaschinen Inhalte von Websites indexieren, ist das denn eigentlich nicht Urheberrechtsverletzung? Immerhin kopiert doch dabei die Suchmaschine Werke von verschiedenen Autoren, obwohl das gem. des Gesetzes doch die Einwilligung des Autors bedarf. Dieser Frage sind wir nachgegangen und stellen etwas sehr interessantes fest.


Twitter SEO und Marketing Twitter SEO

Beim Twitter Marketing mit SEO handelt es sich um die sogenannte Königsdisziplin. Hierbei geht es darum den eigenen Twitter-Kanal bei Suchmaschinen wie Google so hoch wie möglich zu ranken. Doch Twitter tut derzeit alles dafür, um bei Google nicht gerankt zu werden. Und Google hat bereits darauf negativ reagiert.


Review-SEO SEO mit Bewertungsportalen (Review SEO)

Wir alle kennen das klassische SEO. Doch die meisten Unternehmen vernachlässigen ihr Ranking in Bewertungsportalen. Wer heutzutage in diesen Reviewportalen einen Beitrag verfasst und dazu noch den richtigen Titel setzt, katapultiert seinen Beitrag von heute auf morgen auf die höchsten Treffer bei Google.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.