Crawling & Indexierung

Q: Was ist der Unterschied zwischen gecrawlt und indexiert?

Eine gecrawlte Seite wurde vom Googlebot besucht und gelesen. Eine indexierte Seite wurde zusätzlich in Googles Datenbank aufgenommen und kann in den Suchergebnissen erscheinen. Nicht jede gecrawlte Seite wird automatisch indexiert – Google entscheidet selbst, ob der Inhalt indexierungswürdig ist.

Bevor eine Website in den Suchergebnissen erscheinen kann, muss Google sie erst finden, lesen und speichern. Crawling und Indexierung sind die zwei Grundprozesse dahinter – und wer sie versteht, kann gezielt steuern, welche Seiten in Google auftauchen und welche nicht.

Definition

Crawling bezeichnet den Prozess, bei dem Googles automatisierte Programme (Crawler, auch „Googlebot" genannt) das Web nach Seiten durchsuchen, indem sie Links folgen. Indexierung ist der darauffolgende Schritt: Google analysiert den Inhalt der gecrawlten Seite und nimmt sie in seinen Suchindex auf – erst dann kann sie in den Suchergebnissen erscheinen.

Wie funktioniert der Prozess?

Google betreibt riesige Rechenzentren, die kontinuierlich das Web durchsuchen. Der Ablauf folgt dabei immer demselben Muster – von der Entdeckung einer URL bis zur Darstellung in den Suchergebnissen:

Schritt 1

Entdeckung

Google findet neue URLs über bestehende Links, eingereichte Sitemaps oder die Google Search Console.

Schritt 2

Crawling

Der Googlebot ruft die Seite ab, liest HTML, CSS und JavaScript und folgt weiteren internen und externen Links.

Schritt 3

Rendering

Google führt JavaScript aus und stellt die Seite so dar, wie sie ein Browser anzeigen würde – wichtig für moderne Frameworks.

Schritt 4

Indexierung

Inhalt, Struktur und Signale der Seite werden analysiert und in Googles Suchindex aufgenommen. Erst jetzt ist Ranking möglich.

Crawl Budget: Was steckt dahinter?

Google weist jeder Website ein sogenanntes Crawl Budget zu – eine begrenzte Anzahl an Seiten, die der Googlebot in einem bestimmten Zeitraum crawlt. Bei kleinen Websites ist das selten ein Problem. Für große Shops oder Portale mit Tausenden Seiten ist ein effizientes Crawl Budget entscheidend:

Duplicate Content vermeiden: Mehrfach vorhandene Inhalte verschwenden Crawl-Kapazität ohne Mehrwert
Unnötige URLs blockieren: Filterpfade, Session-IDs und interne Suchen per robots.txt oder noindex ausschließen
Pagespeed optimieren: Schnelle Seiten können in derselben Zeit häufiger gecrawlt werden
Interne Verlinkung stärken: Gut verlinkte Seiten werden vom Crawler zuverlässiger gefunden
Sitemap aktuell halten: Nur indexierungswürdige URLs in die Sitemap aufnehmen

Indexierung gezielt steuern

Nicht jede Seite soll in den Suchergebnissen auftauchen. Google bietet verschiedene Signale, um zu steuern, was indexiert wird – und was nicht:

Signal	Wirkung	Einsatzbeispiel
robots.txt	Crawling blockieren (Seite wird nicht besucht)	Admin-Bereiche, interne Suche
noindex	Indexierung verhindern (gecrawlt, aber nicht aufgenommen)	Danke-Seiten, Filterseiten, Duplikate
canonical	Bevorzugte URL signalisieren bei Duplikaten	Produktseiten mit URL-Parametern
Sitemap	Wichtige URLs aktiv zur Indexierung einreichen	Neue Seiten, tiefe Seitenstrukturen
nofollow	Crawler folgt Links auf dieser Seite nicht	Kommentarbereiche, User-generated Content

Häufige Crawling-Probleme und ihre Ursachen

Viele SEO-Probleme lassen sich auf fehlerhafte Crawling- oder Indexierungseinstellungen zurückführen. Diese Fehler kommen am häufigsten vor:

Typische Fehler

Wichtige Seiten versehentlich per robots.txt blockiert
noindex auf Seiten gesetzt, die ranken sollen
Seiten ohne interne Verlinkung (Orphan Pages)
JavaScript-Inhalte, die Google nicht rendert
Weiterleitungsketten, die Crawl Budget verschwenden

Best Practices

robots.txt und noindex regelmäßig auf Fehler prüfen
Coverage-Bericht in der Search Console überwachen
Alle wichtigen Seiten intern verlinken
Server-Side Rendering für kritische Inhalte nutzen
Weiterleitungen direkt zur finalen URL führen

Tools zur Analyse

Crawling und Indexierung lassen sich mit folgenden Tools direkt überwachen und analysieren:

GSC

Google Search Console

Zeigt indexierte Seiten, Crawling-Fehler und ermöglicht das manuelle Einreichen einzelner URLs zur Indexierung.

Kostenlos

SCR

Screaming Frog SEO Spider

Simuliert einen Crawler und listet alle URLs, Statuscodes, noindex-Tags und Weiterleitungen einer Website auf.

Freemium

AHR

Ahrefs Site Audit

Vollständiger technischer Audit inklusive Crawlability-Bericht, Orphan Pages und Crawl-Tiefe-Analyse.

Kostenpflichtig

URL

URL-Prüftool (Search Console)

Prüft für eine einzelne URL, ob sie indexiert ist, wann sie zuletzt gecrawlt wurde und was Google beim Rendern sieht.

Kostenlos

Häufige Fragen

Wie lange dauert es, bis Google eine neue Seite indexiert?

Das variiert stark – von wenigen Stunden bis zu mehreren Wochen. Einflussfaktoren sind die Domain-Autorität, die Crawl-Frequenz der Website und ob die URL aktiv über die Search Console eingereicht wurde. Neue Domains brauchen in der Regel länger als etablierte.

Was ist der Unterschied zwischen gecrawlt und indexiert?

Eine gecrawlte Seite wurde vom Googlebot besucht und gelesen. Eine indexierte Seite wurde zusätzlich in Googles Datenbank aufgenommen und kann in den Suchergebnissen erscheinen. Nicht jede gecrawlte Seite wird automatisch indexiert – Google entscheidet selbst, ob der Inhalt indexierungswürdig ist.

Kann ich Google zwingen, eine Seite sofort zu indexieren?

Nicht erzwingen, aber beschleunigen. Über das URL-Prüftool in der Google Search Console kann eine URL manuell zur Indexierung eingereicht werden. Das verkürzt die Wartezeit deutlich, garantiert aber keine sofortige Aufnahme.

Warum taucht meine Seite nicht in Google auf, obwohl sie indexiert ist?

Indexierung bedeutet nur, dass die Seite im Index vorhanden ist – nicht, dass sie für bestimmte Keywords gut rankt. Ursachen für fehlende Sichtbarkeit sind oft zu schwache Autorität, fehlende thematische Relevanz, dünner Inhalt oder starker Wettbewerb im Keyword-Umfeld.