onlinewachsen.de App
Scaling, Analyse & mehr

    [

    Robots.txt

    ]

    Die robots.txt ist eine der ältesten Konventionen im Web – und gleichzeitig eine der gefährlichsten Dateien für die eigene SEO. Eine falsche Zeile kann eine gesamte Website aus dem Google-Index verschwinden lassen.

    Definition
    Die robots.txt ist eine einfache Textdatei, die im Wurzelverzeichnis einer Website liegt (erreichbar unter beispiel.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Bereiche der Website gecrawlt werden dürfen und welche nicht. Sie ist kein Sicherheitsmechanismus, sondern ein Kommunikationsmittel gegenüber regelkonformen Bots.

    Aufbau und Syntax

    Eine robots.txt besteht aus sogenannten Blöcken. Jeder Block richtet sich an einen bestimmten Crawler (User-agent) und enthält Regeln, was erlaubt oder verboten ist:

    # Alle Crawler
    User-agent: *
    Disallow: /wp-admin/
    Disallow: /intern/
    Allow: /wp-admin/admin-ajax.php
    
    # Nur Googlebot
    User-agent: Googlebot
    Disallow: /staging/
    
    # Sitemap angeben
    Sitemap: https://beispiel.de/sitemap.xml
    Direktive Bedeutung Beispiel
    User-agent Gibt an, für welchen Crawler die Regel gilt. * = alle. User-agent: Googlebot
    Disallow Verbietet dem Crawler das Besuchen des angegebenen Pfads. Disallow: /intern/
    Allow Erlaubt explizit einen Pfad, der sonst durch Disallow gesperrt wäre. Allow: /intern/presse/
    Sitemap Gibt den Speicherort der XML-Sitemap an. Sitemap: /sitemap.xml
    Crawl-delay Wartezeit zwischen Crawl-Anfragen (von Google ignoriert). Crawl-delay: 2

    Wofür wird die robots.txt eingesetzt?

    Sinnvoll ist die robots.txt überall dort, wo Seiten existieren, die gecrawlt werden könnten, aber keinen SEO-Wert haben – um das Crawl Budget effizienter zu nutzen:

    • CMS-Backends blockieren: /wp-admin/, /administrator/ und ähnliche Pfade haben im Index nichts verloren
    • Interne Suche ausschließen: Suchergebnisseiten erzeugen Duplikate und verschwenden Crawl-Kapazität
    • Staging-Umgebungen schützen: Testversionen sollen nicht indexiert werden
    • Parametrisierte URLs reduzieren: Filter- und Sortierpfade in Shops gezielt ausschließen
    • Sitemap kommunizieren: Den Speicherort der Sitemap direkt in der robots.txt angeben

    Häufige Fehler und Best Practices

    Gefährliche Fehler
    • Disallow: / blockiert die gesamte Website
    • CSS- und JS-Dateien blockiert – Google kann Seiten nicht korrekt rendern
    • robots.txt als Sicherheitsmechanismus missbraucht
    • Seiten per robots.txt blockiert und gleichzeitig noindex gesetzt
    • Kein Test nach Änderungen – Fehler fallen oft erst Wochen später auf
    Best Practices
    • Nach jeder Änderung im robots.txt-Tester der Search Console prüfen
    • CSS, JS und Bilder grundsätzlich crawlbar lassen
    • Sensible Inhalte per Passwort oder Login schützen, nicht per robots.txt
    • Sitemap-URL immer am Ende der Datei eintragen
    • Kommentare mit # nutzen, um Regeln zu dokumentieren

    robots.txt vs. noindex – was ist der Unterschied?

    Ein weit verbreiteter Irrtum: robots.txt und noindex erfüllen unterschiedliche Aufgaben und sollten nicht verwechselt oder kombiniert werden.

    robots.txt
    Crawling steuern

    Verhindert, dass der Crawler eine Seite besucht. Google kann die Seite aber trotzdem indexieren, wenn andere Seiten auf sie verlinken – nur ohne den Inhalt zu kennen.

    noindex-Tag
    Indexierung verhindern

    Die Seite wird gecrawlt, aber Google nimmt sie nicht in den Index auf. Zuverlässigere Methode, um Seiten aus den Suchergebnissen zu halten.

    Kombination
    Achtung: Konflikt

    Eine per robots.txt geblockte Seite kann kein noindex-Tag lesen – Google sieht den Tag gar nicht. Die Seite kann so ungewollt ohne Inhaltskenntnisse indexiert bleiben.

    Empfehlung
    Richtig kombinieren

    Seiten, die nicht indexiert werden sollen: noindex verwenden, Crawling erlauben. robots.txt nur für Seiten nutzen, die wirklich kein Crawl Budget verdienen.


    Häufige Fragen

    Muss jede Website eine robots.txt haben?
    +

    Nein. Eine fehlende robots.txt ist kein Fehler – Google crawlt die Website dann ohne Einschränkungen. Für kleine Websites ohne sensible Bereiche ist das in der Regel vollkommen in Ordnung. Relevant wird die Datei erst, wenn gezielt Bereiche vom Crawling ausgeschlossen werden sollen.

    Halten sich alle Crawler an die robots.txt?
    +

    Regelkonforme Crawler wie Googlebot, Bingbot oder die meisten SEO-Tools respektieren die robots.txt. Bösartige Bots und Scraper ignorieren sie jedoch vollständig. Die robots.txt ist kein Sicherheitsmechanismus – sensible Inhalte müssen technisch geschützt werden.

    Wie teste ich meine robots.txt auf Fehler?
    +

    Google stellt in der Search Console unter „Crawling" ein robots.txt-Testtool bereit. Dort lässt sich für jede beliebige URL prüfen, ob sie durch eine Regel blockiert wird. Nach jeder Änderung an der Datei sollte dieser Test durchgeführt werden.

    Wo genau muss die robots.txt liegen?
    +

    Immer im Stammverzeichnis der Domain – also direkt unter https://beispiel.de/robots.txt. Eine robots.txt in einem Unterverzeichnis wie /blog/robots.txt wird von Google nicht als gültig erkannt und ignoriert.

    Kennt ChatGPT dein Unternehmen?

    KI-Sichtbarkeits check

    In 2 Minuten erfährst du, ob und wie KI-Modelle über deine Marke sprechen.

    MENU

    Kennt ChatGPT dein Unternehmen?

    KI-Sichtbarkeits check

    In 2 Minuten erfährst du, ob und wie KI-Modelle über deine Marke sprechen.

    „Absolut kompetente und kreative Jungs bei onlinewachsen.de. So eine reibungslose und gleichzeitig kreative Zusammenarbeit erlebt man wirklich selten. Man merkt sofort, dass hier Profis am Werk sind, die ihr Handwerk verstehen und mitdenken. Würde ich jederzeit wieder machen und kann ich ohne Einschränkung weiterempfehlen. 10/10 – besser geht's wirklich nicht.“

    Ricardo Böhr ricardoboehr.de
    Projekt ansehen