Web-Crawler - Was ist die "Internet-Spinne" und was macht sie?

Codezeilen mit einer Spinnen-Illustration

Web Crawler - First Things First 
Was ist ein Crawler?

Ein (Web-) Crawler ist ein Suchmaschinen-Roboter, der durch das Internet wandert und Informationen über Websiten sammelt. Die Seiten werden dann in Indizes angelegt. Die Seite wird also indexiert.

Wie funktioniert ein Crawler?

Bei ihrer Wanderung (oder Crawling) durchs Internet folgen sie Links. Sie scannen Websiten und folgen den Links zu Unterseiten oder externen Websiten. Sie erstellen sozusagen eine Landkarte davon, auf welche Art, welche Seite mit anderen Seiten verbunden ist. Man spricht auch davon, dass Crawler ein Netz zwischen den Seiten spinnen, daher die Bezeichnung "Internet Spinne".

Warum ist der Crawler für Sie wichtig? 

Der Crawler ist vor allem für die Suchmaschinenoptimierung relevant. Wenn ein Person nach Ihnen oder Ihrem Unternehmen such und Ihre Seite nicht indexiert ist, wird Sie niemand in den gängigen Suchmaschinen finden. 

Und wenn Sie ihr Ranking in den Suchergebnissen verbessern wollen, sollten Sie darauf achten, Ihre Inhalte so zu gestalten, dass die Crawler Ihren Content als relevant einstufen.

WIe können Sie ihre Crawlability verbessern?

Grundregel ist hier, dass Ihr Technisches SEO durchdacht ist.
Hier die wichtigsten Punkte:

  1. Achten Sie auf Ihre do-follow / no-follow Tags - Crawler mögen es nicht, wenn sie irrelevanten Links folgen.
  2. Defekte Links - Überprüfen Sie regelmäßig, ob Sie defekte Links auf Ihrer Websiten haben. Wenn der Crawler nicht weiterkommt oder sich "verläuft", kann das wertvolle Platzierungen kosten. 
  3. Hosting - Lange Ladezeiten oder häufige Server-Probleme Ihrer Seite wirken sich negativ auf Ihre Crawlability aus und somit auf das Ranking.

Kann ich den Crawler davon abhalten meine Seite zu indexieren?

Ja, das geht! Und ergibt bei einigen Seiten tatsächlich auch Sinn.

Bsp.: Seiten mit doppelten Inhalten oder Archivseiten, die dein Ranking verschlechtern könnten. 

Um die Crawler davon abzuhalten, müssen Änderungen auf Server-Dateien vorgenommen werden oder im HTML-Meta-Tag. Ersteres sollten Sie Profis überlassen. 
Wer sich aber im Backend der Website auskennt, kann innerhalb des Head-Tags einen Meta-Tag hinzufügen: 

<meta name"robots" value="noindex"> - dieser Tag zeigt den Crawlern, dass diese Seite nicht indexiert werden soll. 

Wer ist dieser robots.txt von dem alle schreiben?

Die robots.txt - Datei ist ebenfalls ein wichtiges Tool und du solltest zumindest schonmal davon gehört haben. Wie die Endung ".txt" verrät handelt es sich dabei um eine reine Textdatei. Diese gibt den Crawlern Empfehlungen, wie sie sich auf Ihrer Website verhalten sollten. Sie wir einmal für die gesamte Website erstellt und nicht für jede Unterseite extra. Sie bezieht sich also auf den gesamten Verzeichnisbaum. 

Sie können den Crawlern damit signalisieren, dass bestimmte Inhalte ausgeschlossen werden sollten. Das kann dazu genutzt werden, dass Seiten mit großen Dateien, wie Bilder und Videos, den Server nicht mit Anfragen von Crawlern überlasten. Oder das irrelevante Seiten nicht gecrawlt werden. Die ausgeschlossenen Seiten können aber immer noch in Suchergebnissen aufscheinen, nur ohne Beschreibung. 

Wenn Sie eine Seite definitiv nicht indexiert haben wollen, nutzen Sie unbedingt den "noindex"-Tag oder schützen Sie die Seiten mit Passwörtern. Dann scheinen sie auch nicht in Suchmaschinen auf. 

Achtung: robots.txt sind für Crawler Hinweise, keine fixen Regeln. Die meisten Crawler werden sich an Ihre Vorgaben halten, müssen sie jedoch nicht.

Die wichtigsten Anweisungen für Crawler:

  • Index = Standard-Wert -> Seite wird indexiert (Kein Tag o.ä. nötig)
  • Noindex = Muss explizit vermerkt werden -> Seite wird gecrawlt aber nicht indexiert.
  • Disallow = Anweisung in der robots.txt, damit Crawler signalisiert bekommen, die Seite nicht zu crawlen.
  • Nofollow = Seite hinter dem Link wird nicht gecrawlt (Dadurch wird der Link völlig entwertet und spielt auch im Ranking keine Rolle. Ähnlich wie bei "UGC"- und "Sponsored"-Tags)

 

Crawler und Backlinks

Tragen Sie sich in unser Verzeichnis ein und Ihre Website wird garantiert von der Backlink-Optimierung sowie den Zugriffen auf diese Plattform profitieren!  Der Umgang mit Crawlern und Suchmaschinenoptimierung ist schließlich unser täglich Brot. Weitere Details dazu finden Sie unter “Hinweise für Ihren Eintrag in unseren Webkatalog”.