Suchmaschinen sind immer wieder für Überraschungen gut. Das zeigen die aktuellen Suchergebnisse in Bezug auf die „robots.txt“.
Diese Datei enthält lediglich Steuerungsanweisungen für die Suchmaschinen-Spider (Robots), welche Dateien und Ordner vom Robot erfasst werden dürfen bzw. welche eben nicht.
Sinnvoll ist es auch, gezielt bestimmte Robots von vorneherein auszuschließen, da einige Robots lediglich die Inhalte für ihre eigenen Seiten und Portale abgreifen wollen. Letzteres ist für das Ranking der eigenen Webseite mit den ursprünglichen Inhalten schädlich.
Eigentlich gehören diese Seiten nicht in das Suchergebnis, da diese Dateien keine relevanten Informationen für den Benutzer der Suchmaschinen bereitstellen.
Scheinbar werden diese Dateien bereits seit längerer Zeit in den Suchergebnissen gelistet.





Lach
dann sollten die Suchmaschinenoptimierer ihre Suchmaschinen aber mal optimieren...
remember, 31.08.2011, 14:08
Externe Links
Wahrscheinlich sind die Dateien extern verlinkt. Auf diese Art kommen auch Seiten in den Index, die zum Beispiel via robots.txt selbst geblockt sind.
Beispiel für den Spiegel:
http://www.ooo.lt/svetaine/spiegel.de
Aber sowas sollte natürlich eigentlich von den Suchmaschinen geblockt werden ;)
Via http://www.google.de/search?hl=de&q=inurl%3Arobots.txt&oq=inurl%3Arobots.txt findet man btw noch einige weitere (unter anderem von Google selbst :D)
Pascal, 23.08.2011, 10:08
Verlinkung der robots.txt als Grund?
Könnte es sein, dass die externe Verlinkung der robots.txt durch Seiten wie "woorank.com" etc. dazu führt, dass Google sie in den Index mit aufnimmt?
Daniel, 22.08.2011, 17:08
Vielleicht...
erscheint irgendwo ein Link zur robots.txt und der Spider denkt sich nichts dabei, weil es ja ein Link ist, d.h. er überprüft gar nicht ob es eine robots.txt ist da er ja bereits am Anfang dies überprüft hat. Es jedesmal zu überprüfen, ob die entsprechende Datei eine robots.txt wäre, wäre zu aufwendig.
ajuganetz, 22.08.2011, 17:08
Disallow
Wenn man die robots.txt in der robots.txt ausschließt, kann Google die robots.txt dann überhaupt noch crawlen? :)
Wüstenigel, 22.08.2011, 16:08