Eingabehilfen öffnen

Robots.txt

Bei der Robots.txt Datei handelt es sich um ein Textdokument, mit dem sich das Verhalten der Suchmaschinen-Crawler auf der Webseite steuern lässt. Die Datei wird dazu im Hauptverzeichnis der Domain hinterlegt, da sie nur dort problemlos von den Suchmaschinen gefunden werden kann.

Mithilfe der Robots.txt kann festgelegt werden, welcher Crawler auf welche Bereiche der Webseite zugreifen darf. So können beispielsweise dem Crawler von Google andere Zugriffsrechte gewährt werden als dem Crawler von Bing.

Der Aufbau der Robots.txt gestaltet sich verhältnismäßig einfach. Zunächst wird der Suchmaschinen-Bot angesprochen. Das geschieht über den Befehl „User-agent“, also beispielsweise „User-agent: Googlebot“. Im Anschluss wird dem entsprechenden Bot mitgeteilt, auf welche Bereiche er zugreifen darf („Allow: /“) und auf welche nicht („Disallow: /“). Das kann in der Robots.txt dann beispielsweise so aussehen:

User-agent: Googlebot

Allow: /ssd-webhosting.html

Allow: /hdd-webhosting.html

Disallow: /downloads/Lastschrift.pdf

Disallow: /downloads/Inhaberwechsel.pdf

In unserem Beispiel würde das bedeuten, dass der Googlebot auf die beiden Unterseiten „SSD Webhosting“ und „HDD Webhosting“ zugreifen darf, nicht aber auf die beiden PDF-Dateien um Downloadbereich.

Auf diese Weise können auch komplette Verzeichnisse oder auch verschiedene Datei-Typen für Crawler zugänglich gemacht oder gesperrt werden. Des Weiteren wird empfohlen, die XML-Sitemap ebenfalls in der Robots.txt Datei zu inkludieren. Das geht ganz einfach über den Befehl „Sitemap:“, also zum Beispiel „Sitemap: https://www.dmsolutions.de/sitemap.xml“. Dadurch ist die Wahrscheinlichkeit groß, dass die XML-Sitemap von den Crawlern gefunden wird.

Übrigens, nur weil eine Robots.txt Datei existiert, muss diese nicht zwingend von den Crawlern befolgt werden. Denn dazu besteht keine Verpflichtung. Es kann daher passieren, dass Bereiche der Webseite gecrawled werden, auch wenn diese eigentlich in der Datei für Crawler gesperrt wurden. Wenn bestimmte Bereiche einer Seite auf keinen Fall gecrawled werden sollen, dann empfiehlt sich hier zusätzlich die Einrichtung eines .htaccess-Passwortschutzes.

Suchmaschinen-optimierung
  • SEO Consulting mit festem Ansprechpartner
  • individuelle Onpage & Offpage Analysen Ihrer Projekte
  • Content Generierung, auf Ihre Brance angepasst
  • Sie haben Fragen?
    Tel.: 06181 - 502 30 10
    E-Mail: Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!

K

o

n

t

a

k

t