onlinewachsen.de

RAG

Ein LLM wie ChatGPT weiss nur, was es im Training gelernt hat. Fuer aktuelle Informationen, Firmenwebsites oder neue Studien ist es blind, es sei denn, es nutzt RAG. Dieses Verfahren ist der Grund, warum KI Suchmaschinen Ihre Website als Quelle zitieren koennen, und warum GAIO funktioniert.

Definition
RAG (Retrieval Augmented Generation) ist ein Verfahren, bei dem ein LLM vor der Antwortgenerierung gezielt externe Quellen abruft und deren Inhalte in die Antwort einbezieht. Statt sich ausschliesslich auf sein Trainingswissen zu verlassen, recherchiert das Modell in Echtzeit und stuetzt seine Antwort auf aktuelle, verifizierbare Informationen. RAG ist die technische Grundlage hinter ChatGPT Search, Google AI Overviews und Perplexity.

Wie funktioniert RAG?

RAG verbindet zwei Systeme: ein Retrieval System (Suchkomponente) und ein LLM (Sprachmodell). Zusammen bilden sie eine KI, die nicht nur formulieren, sondern auch recherchieren kann:

  • Nutzerfrage: Der Nutzer stellt eine Frage an ChatGPT, Perplexity oder eine andere KI Suchmaschine
  • Retrieval (Abruf): Das System durchsucht einen Index, eine Datenbank oder das offene Web nach relevanten Dokumenten und Webseiten
  • Ranking: Die gefundenen Quellen werden nach Relevanz, Vertrauenswuerdigkeit und Aktualitaet sortiert und gefiltert
  • Kontextanreicherung: Die relevantesten Textpassagen werden dem LLM als Kontext uebergeben, zusammen mit der urspruenglichen Frage
  • Generation (Generierung): Das LLM formuliert eine Antwort, die auf den abgerufenen Quellen basiert, nicht nur auf dem Trainingswissen
  • Quellenangabe: Je nach Plattform werden die verwendeten Quellen als Links neben oder unter der Antwort angezeigt

Wo RAG eingesetzt wird

RAG ist nicht auf KI Suchmaschinen beschraenkt. Das Verfahren wird ueberall dort eingesetzt, wo ein LLM auf aktuelle oder spezialisierte Informationen zugreifen muss:

KI Suche
ChatGPT Search

ChatGPT durchsucht das Web in Echtzeit per RAG und liefert Antworten mit Quellenlinks. Seit 2024 fuer alle Nutzer verfuegbar.

KI Suche
Perplexity AI

Perplexity basiert vollstaendig auf RAG. Jede Antwort wird mit nummerierten Quellenverweisen belegt, die der Nutzer direkt pruefen kann.

Google
AI Overviews

Googles KI generierte Zusammenfassungen nutzen den bestehenden Suchindex als Retrieval Quelle und Gemini als Sprachmodell fuer die Generierung.

Microsoft
Copilot

Microsoft Copilot kombiniert GPT Modelle mit dem Bing Index. In Microsoft 365 greift RAG zusaetzlich auf interne Unternehmensdokumente zu.

Unternehmen
Interne Chatbots

Unternehmen setzen RAG ein, damit interne KI Assistenten auf Firmenwiki, Handbuecher oder CRM Daten zugreifen, statt allgemein zu antworten.

Support
Kundensupport Bots

KI gestuetzte Helpdesks nutzen RAG, um Antworten aus der Wissensdatenbank, FAQ und Produktdokumentation des Unternehmens zu generieren.

Die RAG Pipeline im Detail

Hinter einem scheinbar einfachen KI Antwortprozess steckt eine mehrstufige technische Pipeline. Jeder Schritt beeinflusst die Qualitaet der Antwort und die Wahrscheinlichkeit, dass eine bestimmte Quelle zitiert wird:

SchrittKomponenteWas passiert
1. IndexierungCrawler / EmbeddingWebseiten und Dokumente werden gecrawlt und in numerische Vektoren (Embeddings) umgewandelt, die semantische Bedeutung abbilden
2. AnfrageQuery ProcessingDie Nutzerfrage wird analysiert, in Suchbegriffe zerlegt und ebenfalls als Vektor kodiert
3. SucheVector Search / IndexDie Vektordatenbank findet Dokumente, deren Embeddings der Anfrage am aehnlichsten sind (semantische Suche)
4. RerankingRelevanzmodellDie gefundenen Ergebnisse werden nach Relevanz, E-E-A-T Signalen und Aktualitaet neu sortiert
5. KontextfensterPrompt AssemblyDie besten Quellentexte werden zusammen mit der Nutzerfrage in den Prompt des LLM gepackt
6. GenerierungLLMDas Sprachmodell formuliert eine Antwort auf Basis des bereitgestellten Kontexts und verweist auf die verwendeten Quellen

LLM ohne RAG vs. LLM mit RAG

Der Unterschied zwischen einem LLM mit und ohne RAG erklaert, warum ChatGPT frueher haeufig Fehler machte und warum KI Antworten heute deutlich zuverlaessiger sind:

LLM ohne RAG
  • Antwortet nur aus dem Trainingswissen (Stichtag)
  • Kennt keine Ereignisse nach dem Trainingsende
  • Hoehere Wahrscheinlichkeit fuer Halluzinationen
  • Kann keine Quellen angeben oder verlinken
  • Keine Moeglichkeit, unternehmensspezifische Daten einzubeziehen
LLM mit RAG
  • Greift in Echtzeit auf aktuelle Webquellen oder Datenbanken zu
  • Kann ueber aktuelle Ereignisse, Preise und Fakten berichten
  • Deutlich weniger Halluzinationen durch Quellenverankerung
  • Verlinkt die verwendeten Quellen in der Antwort
  • Laesst sich auf interne Unternehmensdaten anpassen

Was RAG fuer die eigene Website bedeutet

  • Ihre Website ist die Quelle: Wenn ein LLM per RAG das Web durchsucht und Ihre Seite als relevant einstuft, wird sie zur Grundlage der KI Antwort. Ohne RAG waere Ihre Website fuer KI Systeme unsichtbar
  • Crawlbarkeit sicherstellen: KI Crawler muessen Ihre Inhalte lesen koennen. Blockieren Sie keine wichtigen Seiten per robots.txt oder noindex fuer KI Bots wie GPTBot oder Google Extended
  • Klare Struktur liefern: RAG Systeme bevorzugen Inhalte, die klar gegliedert, mit Ueberschriften strukturiert und semantisch eindeutig sind. Schema Markup verstaerkt diesen Effekt
  • Fragen direkt beantworten: RAG Systeme extrahieren bevorzugt Textpassagen, die eine konkrete Frage in den ersten Saetzen beantworten. Umso wichtiger ist eine frage-orientierte Inhaltsstruktur
  • E-E-A-T Signale staerken: Im Reranking Schritt bewerten RAG Systeme die Vertrauenswuerdigkeit einer Quelle. Autorenprofile, Quellenangaben und Markenautoritaet erhoehen die Chance, ausgewaehlt zu werden
  • Aktualitaet pflegen: RAG Systeme bevorzugen aktuelle Inhalte. Regelmaessig ueberarbeitete Seiten mit aktuellen Daten haben einen Vorteil gegenueber veralteten Inhalten

Haeufige Fragen

Nutzt ChatGPT immer RAG?
+

Nicht automatisch. ChatGPT nutzt RAG nur, wenn die Websuche aktiviert ist oder das Modell erkennt, dass aktuelle Informationen benoetigt werden. Bei allgemeinen Wissensfragen antwortet es haeufig aus dem Trainingswissen. Perplexity hingegen setzt RAG bei jeder Anfrage ein und belegt jede Antwort mit Quellen.

Ist RAG dasselbe wie eine Google Suche?
+

Nicht ganz. Bei einer Google Suche erhaelt der Nutzer eine Liste von Links und entscheidet selbst, welche Quelle er anklickt. Bei RAG uebernimmt das LLM diese Auswahl: Es ruft Quellen ab, bewertet sie und formuliert eine eigene Antwort daraus. Der Nutzer sieht das Endergebnis, nicht den Suchprozess. Das macht RAG maechtig, aber auch intransparenter.

Kann ich beeinflussen, ob meine Website per RAG abgerufen wird?
+

Ja, indirekt. Die Massnahmen entsprechen im Kern einer GAIO Strategie: strukturierte Inhalte, Schema Markup, starke E-E-A-T Signale, klare Antworten auf haeufige Fragen und eine technisch saubere Website, die von KI Crawlern gelesen werden kann. Je besser Ihre Inhalte diese Kriterien erfuellen, desto wahrscheinlicher werden sie im RAG Prozess als Quelle herangezogen.

Was ist der Unterschied zwischen RAG und Fine-Tuning?
+

Beim Fine-Tuning wird das LLM selbst mit neuen Daten nachtrainiert. Das veraendert das Modell dauerhaft und ist aufwendig. Bei RAG bleibt das Modell unveraendert. Stattdessen werden externe Informationen zur Laufzeit bereitgestellt. RAG ist flexibler, kostenguenstiger und laesst sich ohne technisches Know-how nutzen, indem man einfach gut strukturierte Inhalte auf der eigenen Website bereitstellt.

Abschnitte

onlinewachsen.de