+49 221 96 88 95 45 etracker ® Login

Google & Bing nehmen robots.txt im Index als Seite auf

Suchmaschinen sind immer wieder für Überraschungen gut. Das zeigen die aktuellen Suchergebnisse in Bezug auf die „robots.txt“.

Diese Datei enthält lediglich Steuerungsanweisungen für die Suchmaschinen-Spider (Robots), welche Dateien und Ordner vom Robot erfasst werden dürfen bzw. welche eben nicht. 

Sinnvoll ist es auch, gezielt bestimmte Robots von vorneherein auszuschließen, da einige Robots lediglich die Inhalte für ihre eigenen Seiten und Portale abgreifen wollen. Letzteres ist für das Ranking der eigenen Webseite mit den ursprünglichen Inhalten schädlich.

Eigentlich gehören diese Seiten nicht in das Suchergebnis, da diese Dateien keine relevanten Informationen für den Benutzer der Suchmaschinen bereitstellen.

Scheinbar werden diese Dateien bereits seit längerer Zeit in den Suchergebnissen gelistet.

Beispielsweise bei spiegel.de bei Google:


Link zum Suchergebnis

oder auch bei de.wikipedia.org bei Google:


Link zum Suchergebnis

Und cnn.com bei Bing:


Link zum Suchergebnis

Kurioserweise werden für diese Einträge sogar ein Titel sowie eine Beschreibung angegeben, deren Inhalt allerdings nichts weiter als der eigentliche Inhalt der Textdatei ist. Im Prinzip ist dieses Vorgehen nichts Unübliches, würde es sich bei diesen Einträgen nicht um eine robots.txt handeln.

Warum Google & Bing allerdings für einige Domains diese robots.txt Dateien in den Suchergebnissen ausgeben, können wir uns aktuell nicht erklären. Habt Ihr hierzu vielleicht eine Idee oder bereits eigene Erfahrungen gemacht?

FAIRRANK Blog-Team

  • Lach

    dann sollten die Suchmaschinenoptimierer ihre Suchmaschinen aber mal optimieren...

    remember, 31.08.2011, 14:08

  • Externe Links

    Wahrscheinlich sind die Dateien extern verlinkt. Auf diese Art kommen auch Seiten in den Index, die zum Beispiel via robots.txt selbst geblockt sind.

    Beispiel für den Spiegel:
    http://www.ooo.lt/svetaine/spiegel.de

    Aber sowas sollte natürlich eigentlich von den Suchmaschinen geblockt werden ;)

    Via http://www.google.de/search?hl=de&q=inurl%3Arobots.txt&oq=inurl%3Arobots.txt findet man btw noch einige weitere (unter anderem von Google selbst :D)

    Pascal, 23.08.2011, 10:08

  • Verlinkung der robots.txt als Grund?

    Könnte es sein, dass die externe Verlinkung der robots.txt durch Seiten wie "woorank.com" etc. dazu führt, dass Google sie in den Index mit aufnimmt?

    Daniel, 22.08.2011, 17:08

  • Vielleicht...

    erscheint irgendwo ein Link zur robots.txt und der Spider denkt sich nichts dabei, weil es ja ein Link ist, d.h. er überprüft gar nicht ob es eine robots.txt ist da er ja bereits am Anfang dies überprüft hat. Es jedesmal zu überprüfen, ob die entsprechende Datei eine robots.txt wäre, wäre zu aufwendig.

    ajuganetz, 22.08.2011, 17:08

  • Disallow

    Wenn man die robots.txt in der robots.txt ausschließt, kann Google die robots.txt dann überhaupt noch crawlen? :)

    Wüstenigel, 22.08.2011, 16:08