onlinewachsen.de

Crawling

Crawling bezeichnet den Prozess, bei dem Googles automatisierte Programme – sogenannte Crawler oder Spider – das Web durchsuchen und Seiten einlesen. Erst gecrawlte Seiten können indexiert und in den Suchergebnissen angezeigt werden.

Damit eine Seite bei Google erscheinen kann, muss sie zwei Schritte durchlaufen: erst gecrawlt, dann indexiert werden. Wer versteht, wie dieser Prozess funktioniert, kann gezielt eingreifen – und verhindern, dass wichtige Seiten unsichtbar bleiben.

Definition
Crawling ist der Prozess, bei dem Googles automatisierte Programme (Googlebot) Webseiten aufrufen und deren Inhalt einlesen. Indexierung bezeichnet den anschließenden Schritt: Die gecrawlten Seiten werden in Googles Datenbank aufgenommen und können in den Suchergebnissen erscheinen.

Wie funktioniert der Prozess?

Crawling und Indexierung laufen in klar definierten Phasen ab. Schlägt eine Phase fehl, ist die Seite für Google unsichtbar – unabhängig davon, wie gut der Inhalt ist.

1
Entdeckung

Googlebot findet neue URLs über Links von bereits bekannten Seiten, über Sitemaps oder über die Google Search Console. Seiten ohne eingehende Links werden oft gar nicht gefunden.

2
Crawling

Der Googlebot ruft die Seite ab und liest HTML, Text, Bilder und Links ein. Dabei prüft er auch robots.txt und Meta-Robots-Tags – steht dort „Disallow" oder „noindex", bricht er ab.

3
Verarbeitung

Google analysiert den Inhalt, erkennt Struktur, Thema und Qualität der Seite. JavaScript-Inhalte werden verzögert gerendert – das kann die Indexierung verlangsamen.

4
Indexierung

Wenn die Seite die Qualitätsanforderungen erfüllt, wird sie in den Google-Index aufgenommen. Erst ab diesem Punkt kann sie bei passenden Suchanfragen erscheinen.

5
Ranking

Indexierte Seiten werden gegen tausende Rankingfaktoren bewertet und für relevante Suchanfragen positioniert. Crawling und Indexierung sind die Voraussetzung – das Ranking ist das Ergebnis.

robots.txt und Meta-Robots

Mit zwei Mechanismen kann kontrolliert werden, was Google crawlen und indexieren darf. Das ist wichtig, um Crawl-Budget nicht auf unwichtige Seiten zu verschwenden.

robots.txt
# Alle Crawler erlaubt
User-agent: *
Allow: /

# Bestimmte Verzeichnisse sperren
Disallow: /wp-admin/
Disallow: /danke/
Disallow: /checkout/

# Sitemap angeben
Sitemap: https://example.de/sitemap.xml
Meta-Robots im <head>
<!-- Seite indexieren, Links folgen (Standard) -->
<meta name="robots" content="index, follow">

<!-- Seite NICHT indexieren -->
<meta name="robots" content="noindex, nofollow">

Crawl-Budget: Was steckt dahinter?

Google crawlt nicht jede Seite täglich. Jede Website hat ein Crawl-Budget – die Anzahl der Seiten, die Googlebot in einem bestimmten Zeitraum besucht. Auf großen Websites kann ineffizienter Einsatz des Crawl-Budgets dazu führen, dass wichtige Seiten seltener aktualisiert oder neue Inhalte verzögert indexiert werden.

Crawl-Budget verschwenden
  • Unendlich viele URL-Parameter (/shop?sort=preis&filter=rot)
  • Doppelte Inhalte ohne Canonical-Tag
  • Archivseiten, Tag-Seiten und Paginierung ohne Mehrwert
  • Weiterleitungsketten (301 → 301 → 301)
  • Kaputte interne Links (404-Seiten)
Crawl-Budget effizient nutzen
  • Unwichtige Seiten per robots.txt sperren
  • Canonical-Tags korrekt einsetzen
  • XML-Sitemap aktuell halten
  • Schnelle Ladezeiten (Googlebot wartet nicht lange)
  • Klare interne Verlinkung zu wichtigen Seiten

Crawling überwachen und prüfen

Diese Tools helfen dabei zu verstehen, wie Google die eigene Website sieht – und wo Probleme beim Crawling oder der Indexierung entstehen:

GSC
Google Search Console – URL-Prüfung
Zeigt für jede URL: ist sie indexiert, wann wurde sie zuletzt gecrawlt, und warum nicht indexiert – das wichtigste kostenlose Diagnose-Tool.
SCR
Screaming Frog SEO Spider
Crawlt die eigene Website wie Googlebot und zeigt alle Seiten, Status-Codes, fehlende Meta-Tags, kaputte Links und Weiterleitungen in einer Übersicht.
AHR
Ahrefs Site Audit
Automatisierter Crawl mit Priorisierung nach SEO-Impact. Erkennt Crawl-Budget-Probleme, dünnen Content und technische Fehler auf einen Blick.

So wird die eigene Website schneller indexiert

  • Sitemap einreichen: In der Google Search Console eine XML-Sitemap hinterlegen und aktuell halten
  • Interne Verlinkung stärken: Neue Seiten von bestehenden, gut verlinkten Seiten aus verlinken
  • URL-Prüfung nutzen: In der Search Console neue URLs manuell zur Indexierung anfordern
  • Ladezeiten optimieren: Schnelle Seiten werden öfter und tiefer gecrawlt
  • noindex entfernen: Häufiger Fehler – Seite ist versehentlich auf noindex gesetzt
  • Robots.txt prüfen: Wichtige Verzeichnisse nicht aus Versehen blockiert?

Häufige Fragen

Wie lange dauert es, bis eine neue Seite indexiert wird?
+

Das variiert stark – von wenigen Stunden bis zu mehreren Wochen. Faktoren sind die Domain-Autorität, die Verlinkung der neuen Seite und ob eine Sitemap eingereicht wurde. Über die Search Console (URL-Prüfung → Indexierung beantragen) kann der Prozess beschleunigt werden.

Kann eine Seite gecrawlt, aber nicht indexiert werden?
+

Ja – das passiert häufig. Gründe: ein noindex-Tag, dünner oder doppelter Inhalt, Qualitätsprobleme oder ein Canonical, der auf eine andere URL zeigt. Die Search Console zeigt unter „Seiten" genau an, warum eine Seite nicht indexiert wurde.

Was passiert, wenn man eine Seite in robots.txt sperrt?
+

Googlebot crawlt die Seite nicht – kann sie aber trotzdem im Index behalten, wenn andere Seiten darauf verlinken. Um sicherzustellen, dass eine Seite weder gecrawlt noch indexiert wird, braucht man beides: robots.txt-Sperre UND noindex-Meta-Tag.

Ist Crawl-Budget für kleine Websites relevant?
+

Bei kleinen Websites unter einigen hundert Seiten ist Crawl-Budget selten ein Problem – Google indexiert diese in der Regel vollständig. Relevant wird es ab einigen tausend Seiten, etwa bei Online-Shops mit vielen Filterkombinationen oder großen Nachrichtenportalen.

Abschnitte

onlinewachsen.de