Die Google Search Console – Teil 5

Die Google Search Console – Teil 5
© PureSolution – Fotolia.com

Wie crawlt Google meine Website?

Die Google Search Console bietet dem Websitebetreiber eine Fülle von Informationen an, wie die letzten Teile unserer Reihe über dieses Werkzeug bereits gezeigt haben. Im heutigen fünften Teil der Serie über die Search Console schauen wir uns die Analyse des Crawlings durch Google etwas näher an und beantworten die Frage, wie Google eine Website eigentlich wahrnimmt.

Behalten Sie Crawling-Fehler im Auge

Die Untersuchung Ihrer Website durch Google funktioniert im Grunde wie das normale Aufrufen. Der Google-Bot, also das automatische Programm, welches regelmäßig Webseiten untersucht, ruft eine Adresse auf und versucht die Inhalte auszulesen. Wie bei jedem Aufruf einer Website wird auch hier ein sogenannter Statuscode zurückgesendet, der Auskunft darüber gibt, ob alles reibungslos funktionierte oder ob es Probleme beim Abrufen der Seite gab. Zusätzlich wird anhand dieses Statuscodes auch darauf hingewiesen, welcher Art ein eventuelles Problem war.

Ist alles in Ordnung, sendet der Webserver einen Statuscode 200, der besagt, dass die angefragte Seite gefunden und ausgeliefert wurde. Manchmal kann es vorkommen, dass es bei einem Seitenabruf zu einem Fehler kommt. Der wohl häufigste Fehler tritt auf, wenn eine Seite nicht mehr vorhanden ist. Dann meldet der Webserver einen Statuscode 404 („Not found“). Wurde eine Seite absichtlich entfernt, kann auch – bei korrekter Einstellung – der Status 410 („Gone“) gesendet werden.

Wenn jedoch der Server selbst eine Störung aufweist, spielen die Statuscodes der 5XX-Gruppe eine wichtige Rolle. So wird ein Status 500 („Internal Server Error“) erzeugt, wenn beispielsweise der Code der Webseite fehlerhaft ist und durch den Server nicht verarbeitet werden kann.

Die Search Console zeigt Ihnen an, welche Fehler beim Abruf Ihrer Website durch den Google-Bot aufgetreten sind. Zusätzlich erhalten Sie die Information, welche Unterseite diesen Fehler erzeugt hat. Behalten Sie diese Fehler unbedingt im Auge. Ein starker Anstieg deutet in jedem Fall auf ein Problem hin, dem Sie auf den Grund gehen sollten.

Wie oft untersucht der Google-Bot meine Website?

Google Search Console

Auch diese Frage beantwortet Ihnen die Google Search Console. Unter dem Menüpunkt „Crawling-Statistiken“ können Sie sehen, wie viele Unterseiten pro Tag untersucht wurden, welche Datenmengen dabei abgerufen wurden und wie lange es durchschnittlich gedauert hat, bis eine Seite vollständig geladen wurde.

Interessant ist in diesem Zusammenhang die Erwähnung des immer wieder auftauchenden Begriffes „Crawl-Budget“. Damit der Google-Bot einen Webserver nicht unnötig belastet (und vielleicht die betreffende Website ausbremst), geht er sehr sparsam mit Ressourcen um. So können Sie anhand der Diagramme sehen, dass in der Regel nur sehr wenige Seiten abgerufen werden, wenn das Laden der Seiten sehr lange dauert – und umgekehrt.

Achten Sie vor allem auf die Dauer des Ladens der Seiten (grünes Diagramm). Steigt die Kurve hier stark an, kann sich dies unter Umständen nicht nur negativ auf das Crawling Ihrer Website auswirken, sondern auch unerwünschte Folgen für die Bewertung Ihrer Website durch die Suchmaschine haben. Grundsätzlich sollte eine Seite immer so schnell wie möglich ausgeliefert werden. Wenn Sie hierzu weitere Fragen haben, stehen wir Ihnen sehr gerne zur Verfügung.

Wie „sieht“ der Google-Bot meine Seite überhaupt?

Die vielleicht interessanteste Funktion im Abschnitt „Crawling“ ist der „Abruf wie durch Google“. Mit Hilfe dieser Funktion können Sie nicht nur eine erneute Prüfung einer Unterseite (oder der ganzen Website) durch Google beantragen, sondern sich auch ein Bild davon machen, wie die Suchmaschine Ihre Website sieht. Denn zum Crawling gehört auch das Rendern einer Seite.

Rendern ist im Grunde das, was auch in Ihrem Webbrowser geschieht. Eine Seite wird abgerufen und anhand der in ihr hinterlegten Regeln und Bestandteile wird das aufgebaut, was am Ende als Seite auf Ihrem Bildschirm erscheint. Genau dies macht auch Google. Der Google-Bot jedoch sieht ihre Website lediglich als Ansammlung von Zeichen. Das Rendering übernimmt ein Programm namens „Caffeine“, welches den Indexer von Google darstellt. „Caffeine“ ist dafür verantwortlich, die Informationen einer Seite in den Google-Index einzufügen. Gegenüber einem normalen Webbrowser hat „Caffeine“ jedoch einen Nachteil: es kann sein, dass ihm nicht alle Informationen zugänglich sind.

Überprüfen können Sie selbst, wie Ihre Website von Google gesehen wird. Rufen Sie die Funktion  „Abruf wie durch Google“ auf und wählen Sie als Option „Abrufen und rendern“. Dies dauert oftmals einen Augenblick. Ist der Vorgang abgeschlossen, klicken Sie auf den entsprechenden Eintrag in der Tabelle. Nun können Sie prüfen, ob Google Ihre Website korrekt erkannt hat oder nicht. Sollte es hier Probleme gegeben haben, erhalten Sie unter der Ansicht der überprüften Seite eine Tabelle mit sogenannten blockierten Ressourcen, also Bestandteilen der Seite, die nicht abgerufen werden konnten. Aber wie ist das möglich?

Testen Sie die robots.txt-Datei

Auf den meisten Webservern liegt eine kleine Textdatei mit dem Namen „robots.txt“. In dieser Datei finden sich Regeln, welche Teile einer Website durch Suchmaschinen-Bots abgerufen werden dürfen und welche nicht. Diese Regeln sind keine Anweisungen, sondern vielmehr höfliche Aufforderungen, denn keine Suchmaschine ist verpflichtet, diese Regeln zu befolgen. Google tut dies jedoch.
Sollten durch die Regeln in dieser Datei nun bestimmte Verzeichnisse dem Zugriff durch Bots entzogen sein, finden Sie die zugehörigen Bestandteile in der Tabelle der „Abruf wie durch Google“-Funktion. Google selbst empfiehlt, dass hier nach Möglichkeit weder Javascript- noch Stylesheet-Dateien auftauchen sollten, die für die Darstellung der Website wichtig sind.

Ob der Google-Bot generell auf Ihre Website zugreifen darf, prüfen Sie unter dem Menüpunkt „robots.txt-Tester“.

Reichen Sie eine Sitemap ein

Sobald Ihre Website einmal bei Google bekannt gemacht wurde, wir der Google-Bot unermüdlich daran arbeiten die Inhalte aller Seiten zu untersuchen. Sie können die Suchmaschine jedoch bei ihrer Arbeit unterstützen und eine sogenannte Sitemap über die Search Console hinzufügen. Bei dieser Sitemap handelt es sich um eine Datei, die im Prinzip eine Beschreibung Ihrer Website in Form der Adressen aller Unterseiten enthält. Manche Content Management Systeme sind in der Lage, eine solche Datei automatisch zu erzeugen. In einigen Fällen muss dies jedoch manuell gemacht werden. Die Sitemap-Datei selbst wird auf dem Webserver hinterlegt, so dass sie im Idealfall direkt im obersten Verzeichnis liegt (z.B. https://www.meineseite.de/sitemap.xml).

Über die Search Console können Sie unter dem Punkt „Sitemaps“ nun der Suchmaschine mitteilen, dass es eine solche Datei gibt. Klicken Sie dazu auf die Schaltfläche „Sitemap hinzufügen/testen“ und geben Sie den Ort ein, wo die Datei zu finden ist. Nach dem Senden der Datei überprüft Google, ob die Sitemap-Datei einwandfrei ist. Sollten Probleme gefunden werden, teilt Google Ihnen dies durch entsprechende Fehlermeldungen mit.

Wie soll Google Parameter behandeln? (Für Experten)

Ein Problem, welches vor allem Onlineshops betrifft, sind sogenannte URL-Parameter. Diese treten vor allem dann auf, wenn ein Besucher der Seite eine Filterauswahl vornimmt. Dann entstehen Adressen wie

https://www.domain.de/produkte?sortierung=abwaerts

Da nun aber eine Sortierung auch aufwärts, nach Datum oder Preis erfolgen kann, ergeben sich ähnliche Inhalte, die jedoch im Grunde die gleichen Ergebnisse liefern. Da sich jedoch die Zeichenfolge der Adresse bei einem anderen Parameterwert ändert, erscheinen diese aus Sicht der Suchmaschine als eigene Unterseite. Über die Funktion „URL-Parameter“ können Sie Google mitteilen, wie solche Parameter behandelt werden sollen. Allgemein können Sie der Suchmaschine so mitteilen, ob sie selbst die beste Vorgehensweise für die Auswertung von Parametern finden soll, nur URLs mit einem bestimmten Parameter crawlen oder URLs mit einem definierten Parameter vollständig ignorieren soll. Ein wenig Vorsicht ist bei der Verwendung dieser Funktion angebracht, da eine falsche Einstellung dazu führen kann, dass bestimmte Inhalte Ihrer Website überhaupt nicht mehr indexiert werden.

Grundsätzlich empfiehlt es sich, URLs generell ohne Parameter indexieren zu lassen. Vor allem, wenn die Verwendung von Parametern zur einer Einschränkung angezeigter Inhalte führt oder lediglich auf eine Personalisierung von Inhalten abzielt, sollte der Canonical-Angabe auf die parameterfreie URL der Vorzug gegeben werden.


Klaus Wockenfoth

 
Klaus Wockenfoth
SEO Projektleiter
Klaus Wockenfoth leitet SEO-Projekte in der SEO Exklusiv-Abteilung der FAIRRANK GmbH.