onlinewachsen.de App
Scaling, Analyse & mehr

    [

    Crawling

    ]

    Crawling bezeichnet den Prozess, bei dem Googles automatisierte Programme – sogenannte Crawler oder Spider – das Web durchsuchen und Seiten einlesen. Erst gecrawlte Seiten können indexiert und in den Suchergebnissen angezeigt werden.

    Damit eine Seite bei Google erscheinen kann, muss sie zwei Schritte durchlaufen: erst gecrawlt, dann indexiert werden. Wer versteht, wie dieser Prozess funktioniert, kann gezielt eingreifen – und verhindern, dass wichtige Seiten unsichtbar bleiben.

    Definition
    Crawling ist der Prozess, bei dem Googles automatisierte Programme (Googlebot) Webseiten aufrufen und deren Inhalt einlesen. Indexierung bezeichnet den anschließenden Schritt: Die gecrawlten Seiten werden in Googles Datenbank aufgenommen und können in den Suchergebnissen erscheinen.

    Wie funktioniert der Prozess?

    Crawling und Indexierung laufen in klar definierten Phasen ab. Schlägt eine Phase fehl, ist die Seite für Google unsichtbar – unabhängig davon, wie gut der Inhalt ist.

    1
    Entdeckung

    Googlebot findet neue URLs über Links von bereits bekannten Seiten, über Sitemaps oder über die Google Search Console. Seiten ohne eingehende Links werden oft gar nicht gefunden.

    2
    Crawling

    Der Googlebot ruft die Seite ab und liest HTML, Text, Bilder und Links ein. Dabei prüft er auch robots.txt und Meta-Robots-Tags – steht dort „Disallow" oder „noindex", bricht er ab.

    3
    Verarbeitung

    Google analysiert den Inhalt, erkennt Struktur, Thema und Qualität der Seite. JavaScript-Inhalte werden verzögert gerendert – das kann die Indexierung verlangsamen.

    4
    Indexierung

    Wenn die Seite die Qualitätsanforderungen erfüllt, wird sie in den Google-Index aufgenommen. Erst ab diesem Punkt kann sie bei passenden Suchanfragen erscheinen.

    5
    Ranking

    Indexierte Seiten werden gegen tausende Rankingfaktoren bewertet und für relevante Suchanfragen positioniert. Crawling und Indexierung sind die Voraussetzung – das Ranking ist das Ergebnis.

    robots.txt und Meta-Robots

    Mit zwei Mechanismen kann kontrolliert werden, was Google crawlen und indexieren darf. Das ist wichtig, um Crawl-Budget nicht auf unwichtige Seiten zu verschwenden.

    robots.txt
    # Alle Crawler erlaubt
    User-agent: *
    Allow: /
    
    # Bestimmte Verzeichnisse sperren
    Disallow: /wp-admin/
    Disallow: /danke/
    Disallow: /checkout/
    
    # Sitemap angeben
    Sitemap: https://example.de/sitemap.xml
    Meta-Robots im <head>
    <!-- Seite indexieren, Links folgen (Standard) -->
    <meta name="robots" content="index, follow">
    
    <!-- Seite NICHT indexieren -->
    <meta name="robots" content="noindex, nofollow">

    Crawl-Budget: Was steckt dahinter?

    Google crawlt nicht jede Seite täglich. Jede Website hat ein Crawl-Budget – die Anzahl der Seiten, die Googlebot in einem bestimmten Zeitraum besucht. Auf großen Websites kann ineffizienter Einsatz des Crawl-Budgets dazu führen, dass wichtige Seiten seltener aktualisiert oder neue Inhalte verzögert indexiert werden.

    Crawl-Budget verschwenden
    • Unendlich viele URL-Parameter (/shop?sort=preis&filter=rot)
    • Doppelte Inhalte ohne Canonical-Tag
    • Archivseiten, Tag-Seiten und Paginierung ohne Mehrwert
    • Weiterleitungsketten (301 → 301 → 301)
    • Kaputte interne Links (404-Seiten)
    Crawl-Budget effizient nutzen
    • Unwichtige Seiten per robots.txt sperren
    • Canonical-Tags korrekt einsetzen
    • XML-Sitemap aktuell halten
    • Schnelle Ladezeiten (Googlebot wartet nicht lange)
    • Klare interne Verlinkung zu wichtigen Seiten

    Crawling überwachen und prüfen

    Diese Tools helfen dabei zu verstehen, wie Google die eigene Website sieht – und wo Probleme beim Crawling oder der Indexierung entstehen:

    GSC
    Google Search Console – URL-Prüfung
    Zeigt für jede URL: ist sie indexiert, wann wurde sie zuletzt gecrawlt, und warum nicht indexiert – das wichtigste kostenlose Diagnose-Tool.
    SCR
    Screaming Frog SEO Spider
    Crawlt die eigene Website wie Googlebot und zeigt alle Seiten, Status-Codes, fehlende Meta-Tags, kaputte Links und Weiterleitungen in einer Übersicht.
    AHR
    Ahrefs Site Audit
    Automatisierter Crawl mit Priorisierung nach SEO-Impact. Erkennt Crawl-Budget-Probleme, dünnen Content und technische Fehler auf einen Blick.

    So wird die eigene Website schneller indexiert

    • Sitemap einreichen: In der Google Search Console eine XML-Sitemap hinterlegen und aktuell halten
    • Interne Verlinkung stärken: Neue Seiten von bestehenden, gut verlinkten Seiten aus verlinken
    • URL-Prüfung nutzen: In der Search Console neue URLs manuell zur Indexierung anfordern
    • Ladezeiten optimieren: Schnelle Seiten werden öfter und tiefer gecrawlt
    • noindex entfernen: Häufiger Fehler – Seite ist versehentlich auf noindex gesetzt
    • Robots.txt prüfen: Wichtige Verzeichnisse nicht aus Versehen blockiert?

    Häufige Fragen

    Wie lange dauert es, bis eine neue Seite indexiert wird?
    +

    Das variiert stark – von wenigen Stunden bis zu mehreren Wochen. Faktoren sind die Domain-Autorität, die Verlinkung der neuen Seite und ob eine Sitemap eingereicht wurde. Über die Search Console (URL-Prüfung → Indexierung beantragen) kann der Prozess beschleunigt werden.

    Kann eine Seite gecrawlt, aber nicht indexiert werden?
    +

    Ja – das passiert häufig. Gründe: ein noindex-Tag, dünner oder doppelter Inhalt, Qualitätsprobleme oder ein Canonical, der auf eine andere URL zeigt. Die Search Console zeigt unter „Seiten" genau an, warum eine Seite nicht indexiert wurde.

    Was passiert, wenn man eine Seite in robots.txt sperrt?
    +

    Googlebot crawlt die Seite nicht – kann sie aber trotzdem im Index behalten, wenn andere Seiten darauf verlinken. Um sicherzustellen, dass eine Seite weder gecrawlt noch indexiert wird, braucht man beides: robots.txt-Sperre UND noindex-Meta-Tag.

    Ist Crawl-Budget für kleine Websites relevant?
    +

    Bei kleinen Websites unter einigen hundert Seiten ist Crawl-Budget selten ein Problem – Google indexiert diese in der Regel vollständig. Relevant wird es ab einigen tausend Seiten, etwa bei Online-Shops mit vielen Filterkombinationen oder großen Nachrichtenportalen.

    Kennt ChatGPT dein Unternehmen?

    KI-Sichtbarkeits check

    In 2 Minuten erfährst du, ob und wie KI-Modelle über deine Marke sprechen.

    MENU

    „Absolut kompetente und kreative Jungs bei onlinewachsen.de. So eine reibungslose und gleichzeitig kreative Zusammenarbeit erlebt man wirklich selten. Man merkt sofort, dass hier Profis am Werk sind, die ihr Handwerk verstehen und mitdenken. Würde ich jederzeit wieder machen und kann ich ohne Einschränkung weiterempfehlen. 10/10 – besser geht's wirklich nicht.“

    Ricardo Böhr ricardoboehr.de
    Projekt ansehen