Die robots.txt ist eine der ältesten Konventionen im Web – und gleichzeitig eine der gefährlichsten Dateien für die eigene SEO. Eine falsche Zeile kann eine gesamte Website aus dem Google-Index verschwinden lassen.
beispiel.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche der Website gecrawlt werden dürfen und welche nicht. Sie ist kein Sicherheitsmechanismus, sondern ein Kommunikationsmittel gegenüber regelkonformen Bots.Eine robots.txt besteht aus sogenannten Blöcken. Jeder Block richtet sich an einen bestimmten Crawler (User-agent) und enthält Regeln, was erlaubt oder verboten ist:
# Alle Crawler User-agent: * Disallow: /wp-admin/ Disallow: /intern/ Allow: /wp-admin/admin-ajax.php # Nur Googlebot User-agent: Googlebot Disallow: /staging/ # Sitemap angeben Sitemap: https://beispiel.de/sitemap.xml
| Direktive | Bedeutung | Beispiel |
|---|---|---|
| User-agent | Gibt an, für welchen Crawler die Regel gilt. * = alle. | User-agent: Googlebot |
| Disallow | Verbietet dem Crawler das Besuchen des angegebenen Pfads. | Disallow: /intern/ |
| Allow | Erlaubt explizit einen Pfad, der sonst durch Disallow gesperrt wäre. | Allow: /intern/presse/ |
| Sitemap | Gibt den Speicherort der XML-Sitemap an. | Sitemap: /sitemap.xml |
| Crawl-delay | Wartezeit zwischen Crawl-Anfragen (von Google ignoriert). | Crawl-delay: 2 |
Sinnvoll ist die robots.txt überall dort, wo Seiten existieren, die gecrawlt werden könnten, aber keinen SEO-Wert haben – um das Crawl Budget effizienter zu nutzen:
Disallow: / blockiert die gesamte WebsiteEin weit verbreiteter Irrtum: robots.txt und noindex erfüllen unterschiedliche Aufgaben und sollten nicht verwechselt oder kombiniert werden.
Verhindert, dass der Crawler eine Seite besucht. Google kann die Seite aber trotzdem indexieren, wenn andere Seiten auf sie verlinken – nur ohne den Inhalt zu kennen.
Die Seite wird gecrawlt, aber Google nimmt sie nicht in den Index auf. Zuverlässigere Methode, um Seiten aus den Suchergebnissen zu halten.
Eine per robots.txt geblockte Seite kann kein noindex-Tag lesen – Google sieht den Tag gar nicht. Die Seite kann so ungewollt ohne Inhaltskenntnisse indexiert bleiben.
Seiten, die nicht indexiert werden sollen: noindex verwenden, Crawling erlauben. robots.txt nur für Seiten nutzen, die wirklich kein Crawl Budget verdienen.
Nein. Eine fehlende robots.txt ist kein Fehler – Google crawlt die Website dann ohne Einschränkungen. Für kleine Websites ohne sensible Bereiche ist das in der Regel vollkommen in Ordnung. Relevant wird die Datei erst, wenn gezielt Bereiche vom Crawling ausgeschlossen werden sollen.
Regelkonforme Crawler wie Googlebot, Bingbot oder die meisten SEO-Tools respektieren die robots.txt. Bösartige Bots und Scraper ignorieren sie jedoch vollständig. Die robots.txt ist kein Sicherheitsmechanismus – sensible Inhalte müssen technisch geschützt werden.
Google stellt in der Search Console unter „Crawling" ein robots.txt-Testtool bereit. Dort lässt sich für jede beliebige URL prüfen, ob sie durch eine Regel blockiert wird. Nach jeder Änderung an der Datei sollte dieser Test durchgeführt werden.
Immer im Stammverzeichnis der Domain – also direkt unter https://beispiel.de/robots.txt. Eine robots.txt in einem Unterverzeichnis wie /blog/robots.txt wird von Google nicht als gültig erkannt und ignoriert.
Wir verwenden Cookies, um Ihr Nutzungserlebnis auf unserer Website zu verbessern. Durch die Nutzung unserer Website erklären Sie sich mit der Verwendung von Cookies einverstanden.
Verwalten Sie Ihre Cookie-Einstellungen unten:
Essential cookies enable basic functions and are necessary for the proper function of the website.
Statistics cookies collect information anonymously. This information helps us understand how visitors use our website.
Google Analytics is a powerful tool that tracks and analyzes website traffic for informed marketing decisions.
Service URL: policies.google.com (opens in a new window)
Analyse-Tool von Microsoft, das aufzeichnet, wie Nutzer mit der Website interagieren (z. B. Klicks, Scroll-Bewegungen), um die Benutzerfreundlichkeit zu analysieren und zu verbessern.
Service URL: privacy.microsoft.com (opens in a new window)