RAG

Ein LLM wie ChatGPT weiss nur, was es im Training gelernt hat. Fuer aktuelle Informationen, Firmenwebsites oder neue Studien ist es blind, es sei denn, es nutzt RAG. Dieses Verfahren ist der Grund, warum KI Suchmaschinen Ihre Website als Quelle zitieren koennen, und warum GAIO funktioniert.

Definition

RAG (Retrieval Augmented Generation) ist ein Verfahren, bei dem ein LLM vor der Antwortgenerierung gezielt externe Quellen abruft und deren Inhalte in die Antwort einbezieht. Statt sich ausschliesslich auf sein Trainingswissen zu verlassen, recherchiert das Modell in Echtzeit und stuetzt seine Antwort auf aktuelle, verifizierbare Informationen. RAG ist die technische Grundlage hinter ChatGPT Search, Google AI Overviews und Perplexity.

Wie funktioniert RAG?

RAG verbindet zwei Systeme: ein Retrieval System (Suchkomponente) und ein LLM (Sprachmodell). Zusammen bilden sie eine KI, die nicht nur formulieren, sondern auch recherchieren kann:

Nutzerfrage: Der Nutzer stellt eine Frage an ChatGPT, Perplexity oder eine andere KI Suchmaschine
Retrieval (Abruf): Das System durchsucht einen Index, eine Datenbank oder das offene Web nach relevanten Dokumenten und Webseiten
Ranking: Die gefundenen Quellen werden nach Relevanz, Vertrauenswuerdigkeit und Aktualitaet sortiert und gefiltert
Kontextanreicherung: Die relevantesten Textpassagen werden dem LLM als Kontext uebergeben, zusammen mit der urspruenglichen Frage
Generation (Generierung): Das LLM formuliert eine Antwort, die auf den abgerufenen Quellen basiert, nicht nur auf dem Trainingswissen
Quellenangabe: Je nach Plattform werden die verwendeten Quellen als Links neben oder unter der Antwort angezeigt

Wo RAG eingesetzt wird

RAG ist nicht auf KI Suchmaschinen beschraenkt. Das Verfahren wird ueberall dort eingesetzt, wo ein LLM auf aktuelle oder spezialisierte Informationen zugreifen muss:

KI Suche

ChatGPT Search

ChatGPT durchsucht das Web in Echtzeit per RAG und liefert Antworten mit Quellenlinks. Seit 2024 fuer alle Nutzer verfuegbar.

KI Suche

Perplexity AI

Perplexity basiert vollstaendig auf RAG. Jede Antwort wird mit nummerierten Quellenverweisen belegt, die der Nutzer direkt pruefen kann.

Google

AI Overviews

Googles KI generierte Zusammenfassungen nutzen den bestehenden Suchindex als Retrieval Quelle und Gemini als Sprachmodell fuer die Generierung.

Microsoft

Copilot

Microsoft Copilot kombiniert GPT Modelle mit dem Bing Index. In Microsoft 365 greift RAG zusaetzlich auf interne Unternehmensdokumente zu.

Unternehmen

Interne Chatbots

Unternehmen setzen RAG ein, damit interne KI Assistenten auf Firmenwiki, Handbuecher oder CRM Daten zugreifen, statt allgemein zu antworten.

Support

Kundensupport Bots

KI gestuetzte Helpdesks nutzen RAG, um Antworten aus der Wissensdatenbank, FAQ und Produktdokumentation des Unternehmens zu generieren.

Die RAG Pipeline im Detail

Hinter einem scheinbar einfachen KI Antwortprozess steckt eine mehrstufige technische Pipeline. Jeder Schritt beeinflusst die Qualitaet der Antwort und die Wahrscheinlichkeit, dass eine bestimmte Quelle zitiert wird:

Schritt	Komponente	Was passiert
1. Indexierung	Crawler / Embedding	Webseiten und Dokumente werden gecrawlt und in numerische Vektoren (Embeddings) umgewandelt, die semantische Bedeutung abbilden
2. Anfrage	Query Processing	Die Nutzerfrage wird analysiert, in Suchbegriffe zerlegt und ebenfalls als Vektor kodiert
3. Suche	Vector Search / Index	Die Vektordatenbank findet Dokumente, deren Embeddings der Anfrage am aehnlichsten sind (semantische Suche)
4. Reranking	Relevanzmodell	Die gefundenen Ergebnisse werden nach Relevanz, E-E-A-T Signalen und Aktualitaet neu sortiert
5. Kontextfenster	Prompt Assembly	Die besten Quellentexte werden zusammen mit der Nutzerfrage in den Prompt des LLM gepackt
6. Generierung	LLM	Das Sprachmodell formuliert eine Antwort auf Basis des bereitgestellten Kontexts und verweist auf die verwendeten Quellen

LLM ohne RAG vs. LLM mit RAG

Der Unterschied zwischen einem LLM mit und ohne RAG erklaert, warum ChatGPT frueher haeufig Fehler machte und warum KI Antworten heute deutlich zuverlaessiger sind:

LLM ohne RAG

Antwortet nur aus dem Trainingswissen (Stichtag)
Kennt keine Ereignisse nach dem Trainingsende
Hoehere Wahrscheinlichkeit fuer Halluzinationen
Kann keine Quellen angeben oder verlinken
Keine Moeglichkeit, unternehmensspezifische Daten einzubeziehen

LLM mit RAG

Greift in Echtzeit auf aktuelle Webquellen oder Datenbanken zu
Kann ueber aktuelle Ereignisse, Preise und Fakten berichten
Deutlich weniger Halluzinationen durch Quellenverankerung
Verlinkt die verwendeten Quellen in der Antwort
Laesst sich auf interne Unternehmensdaten anpassen

Was RAG fuer die eigene Website bedeutet

Ihre Website ist die Quelle: Wenn ein LLM per RAG das Web durchsucht und Ihre Seite als relevant einstuft, wird sie zur Grundlage der KI Antwort. Ohne RAG waere Ihre Website fuer KI Systeme unsichtbar
Crawlbarkeit sicherstellen: KI Crawler muessen Ihre Inhalte lesen koennen. Blockieren Sie keine wichtigen Seiten per robots.txt oder noindex fuer KI Bots wie GPTBot oder Google Extended
Klare Struktur liefern: RAG Systeme bevorzugen Inhalte, die klar gegliedert, mit Ueberschriften strukturiert und semantisch eindeutig sind. Schema Markup verstaerkt diesen Effekt
Fragen direkt beantworten: RAG Systeme extrahieren bevorzugt Textpassagen, die eine konkrete Frage in den ersten Saetzen beantworten. Umso wichtiger ist eine frage-orientierte Inhaltsstruktur
E-E-A-T Signale staerken: Im Reranking Schritt bewerten RAG Systeme die Vertrauenswuerdigkeit einer Quelle. Autorenprofile, Quellenangaben und Markenautoritaet erhoehen die Chance, ausgewaehlt zu werden
Aktualitaet pflegen: RAG Systeme bevorzugen aktuelle Inhalte. Regelmaessig ueberarbeitete Seiten mit aktuellen Daten haben einen Vorteil gegenueber veralteten Inhalten

Haeufige Fragen

Nutzt ChatGPT immer RAG?

Nicht automatisch. ChatGPT nutzt RAG nur, wenn die Websuche aktiviert ist oder das Modell erkennt, dass aktuelle Informationen benoetigt werden. Bei allgemeinen Wissensfragen antwortet es haeufig aus dem Trainingswissen. Perplexity hingegen setzt RAG bei jeder Anfrage ein und belegt jede Antwort mit Quellen.

Ist RAG dasselbe wie eine Google Suche?

Nicht ganz. Bei einer Google Suche erhaelt der Nutzer eine Liste von Links und entscheidet selbst, welche Quelle er anklickt. Bei RAG uebernimmt das LLM diese Auswahl: Es ruft Quellen ab, bewertet sie und formuliert eine eigene Antwort daraus. Der Nutzer sieht das Endergebnis, nicht den Suchprozess. Das macht RAG maechtig, aber auch intransparenter.

Kann ich beeinflussen, ob meine Website per RAG abgerufen wird?

Ja, indirekt. Die Massnahmen entsprechen im Kern einer GAIO Strategie: strukturierte Inhalte, Schema Markup, starke E-E-A-T Signale, klare Antworten auf haeufige Fragen und eine technisch saubere Website, die von KI Crawlern gelesen werden kann. Je besser Ihre Inhalte diese Kriterien erfuellen, desto wahrscheinlicher werden sie im RAG Prozess als Quelle herangezogen.

Was ist der Unterschied zwischen RAG und Fine-Tuning?

Beim Fine-Tuning wird das LLM selbst mit neuen Daten nachtrainiert. Das veraendert das Modell dauerhaft und ist aufwendig. Bei RAG bleibt das Modell unveraendert. Stattdessen werden externe Informationen zur Laufzeit bereitgestellt. RAG ist flexibler, kostenguenstiger und laesst sich ohne technisches Know-how nutzen, indem man einfach gut strukturierte Inhalte auf der eigenen Website bereitstellt.

onlinewachsen.de

RAG