onlinewachsen.de

Robots.txt

Die robots.txt ist eine der ältesten Konventionen im Web – und gleichzeitig eine der gefährlichsten Dateien für die eigene SEO. Eine falsche Zeile kann eine gesamte Website aus dem Google-Index verschwinden lassen.

Definition
Die robots.txt ist eine einfache Textdatei, die im Wurzelverzeichnis einer Website liegt (erreichbar unter beispiel.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche der Website gecrawlt werden dürfen und welche nicht. Sie ist kein Sicherheitsmechanismus, sondern ein Kommunikationsmittel gegenüber regelkonformen Bots.

Aufbau und Syntax

Eine robots.txt besteht aus sogenannten Blöcken. Jeder Block richtet sich an einen bestimmten Crawler (User-agent) und enthält Regeln, was erlaubt oder verboten ist:

# Alle Crawler
User-agent: *
Disallow: /wp-admin/
Disallow: /intern/
Allow: /wp-admin/admin-ajax.php

# Nur Googlebot
User-agent: Googlebot
Disallow: /staging/

# Sitemap angeben
Sitemap: https://beispiel.de/sitemap.xml
DirektiveBedeutungBeispiel
User-agentGibt an, für welchen Crawler die Regel gilt. * = alle.User-agent: Googlebot
DisallowVerbietet dem Crawler das Besuchen des angegebenen Pfads.Disallow: /intern/
AllowErlaubt explizit einen Pfad, der sonst durch Disallow gesperrt wäre.Allow: /intern/presse/
SitemapGibt den Speicherort der XML-Sitemap an.Sitemap: /sitemap.xml
Crawl-delayWartezeit zwischen Crawl-Anfragen (von Google ignoriert).Crawl-delay: 2

Wofür wird die robots.txt eingesetzt?

Sinnvoll ist die robots.txt überall dort, wo Seiten existieren, die gecrawlt werden könnten, aber keinen SEO-Wert haben – um das Crawl Budget effizienter zu nutzen:

  • CMS-Backends blockieren: /wp-admin/, /administrator/ und ähnliche Pfade haben im Index nichts verloren
  • Interne Suche ausschließen: Suchergebnisseiten erzeugen Duplikate und verschwenden Crawl-Kapazität
  • Staging-Umgebungen schützen: Testversionen sollen nicht indexiert werden
  • Parametrisierte URLs reduzieren: Filter- und Sortierpfade in Shops gezielt ausschließen
  • Sitemap kommunizieren: Den Speicherort der Sitemap direkt in der robots.txt angeben

Häufige Fehler und Best Practices

Gefährliche Fehler
  • Disallow: / blockiert die gesamte Website
  • CSS- und JS-Dateien blockiert – Google kann Seiten nicht korrekt rendern
  • robots.txt als Sicherheitsmechanismus missbraucht
  • Seiten per robots.txt blockiert und gleichzeitig noindex gesetzt
  • Kein Test nach Änderungen – Fehler fallen oft erst Wochen später auf
Best Practices
  • Nach jeder Änderung im robots.txt-Tester der Search Console prüfen
  • CSS, JS und Bilder grundsätzlich crawlbar lassen
  • Sensible Inhalte per Passwort oder Login schützen, nicht per robots.txt
  • Sitemap-URL immer am Ende der Datei eintragen
  • Kommentare mit # nutzen, um Regeln zu dokumentieren

robots.txt vs. noindex – was ist der Unterschied?

Ein weit verbreiteter Irrtum: robots.txt und noindex erfüllen unterschiedliche Aufgaben und sollten nicht verwechselt oder kombiniert werden.

robots.txt
Crawling steuern

Verhindert, dass der Crawler eine Seite besucht. Google kann die Seite aber trotzdem indexieren, wenn andere Seiten auf sie verlinken – nur ohne den Inhalt zu kennen.

noindex-Tag
Indexierung verhindern

Die Seite wird gecrawlt, aber Google nimmt sie nicht in den Index auf. Zuverlässigere Methode, um Seiten aus den Suchergebnissen zu halten.

Kombination
Achtung: Konflikt

Eine per robots.txt geblockte Seite kann kein noindex-Tag lesen – Google sieht den Tag gar nicht. Die Seite kann so ungewollt ohne Inhaltskenntnisse indexiert bleiben.

Empfehlung
Richtig kombinieren

Seiten, die nicht indexiert werden sollen: noindex verwenden, Crawling erlauben. robots.txt nur für Seiten nutzen, die wirklich kein Crawl Budget verdienen.


Häufige Fragen

Muss jede Website eine robots.txt haben?
+

Nein. Eine fehlende robots.txt ist kein Fehler – Google crawlt die Website dann ohne Einschränkungen. Für kleine Websites ohne sensible Bereiche ist das in der Regel vollkommen in Ordnung. Relevant wird die Datei erst, wenn gezielt Bereiche vom Crawling ausgeschlossen werden sollen.

Halten sich alle Crawler an die robots.txt?
+

Regelkonforme Crawler wie Googlebot, Bingbot oder die meisten SEO-Tools respektieren die robots.txt. Bösartige Bots und Scraper ignorieren sie jedoch vollständig. Die robots.txt ist kein Sicherheitsmechanismus – sensible Inhalte müssen technisch geschützt werden.

Wie teste ich meine robots.txt auf Fehler?
+

Google stellt in der Search Console unter „Crawling" ein robots.txt-Testtool bereit. Dort lässt sich für jede beliebige URL prüfen, ob sie durch eine Regel blockiert wird. Nach jeder Änderung an der Datei sollte dieser Test durchgeführt werden.

Wo genau muss die robots.txt liegen?
+

Immer im Stammverzeichnis der Domain – also direkt unter https://beispiel.de/robots.txt. Eine robots.txt in einem Unterverzeichnis wie /blog/robots.txt wird von Google nicht als gültig erkannt und ignoriert.

Abschnitte

onlinewachsen.de