Zum Inhalt springen
KI KI für UN
Menü
Anwendung

Embeddings und RAG erklärt — eigene Daten suchbar machen

Was sind Embeddings und Retrieval Augmented Generation (RAG)? Wie machst du eigene Wissensbestände für KI suchbar — pragmatisch, mit konkreten Stack-Empfehlungen.

Was sind Embeddings — kurz und pragmatisch

Ein Embedding ist eine numerische Repräsentation von Text — typischerweise ein Vektor mit 768 bis 3.072 Dimensionen. Texte mit ähnlicher Bedeutung haben ähnliche Vektoren. Das klingt abstrakt, ist aber praktisch nützlich: Du kannst zwei Texte vergleichen, ohne dass sie dieselben Wörter enthalten müssen.

Konkretes Beispiel: “Reisekostenabrechnung” und “Spesenabrechnung” sind unterschiedliche Wörter, haben aber sehr ähnliche Embeddings. Eine Embedding-basierte Suche findet beide, eine reine Keyword-Suche nur eines davon.

Embeddings werden von speziellen Embedding-Modellen erstellt. 2026 sind die wichtigsten:

Was ist RAG (Retrieval Augmented Generation)

RAG ist ein Pattern, das Embedding-Suche mit LLM-Generierung kombiniert. Der Ablauf:

  1. Vorverarbeitung (einmalig): Du chunkst deine Dokumente in 400–800-Token-Stücke und erstellst für jedes Stück ein Embedding. Speicherst alle Embeddings in einer Vector-Datenbank.
  2. Anfrage (pro Nutzeranfrage): Du erstellst ein Embedding der Frage. Suchst die 5–10 ähnlichsten Chunks in der Vector-DB.
  3. Generierung: Du gibst die gefundenen Chunks plus die ursprüngliche Frage an ein LLM. Das LLM antwortet auf Basis der bereitgestellten Chunks — nicht auf Basis seines Trainings-Wissens.

Resultat: Antworten beruhen auf eurem Wissen, nicht auf dem Internet-Wissen vom letzten Trainingstand. Halluzinationen werden deutlich reduziert. Antworten enthalten Quellenverweise (welcher Chunk wurde verwendet).

Wo es lohnt — Use-Cases im Mittelstand

Interne Wissenssuche (“Wo finde ich die Reisekosten-Richtlinie?”): RAG auf Confluence, SharePoint, internen PDFs. Spart Mitarbeitenden viel Sucherei. Klassischer Sweet Spot mit hohem ROI.

Kundensupport mit eigenem Wissen: Erstantwort per RAG aus FAQ, Tickets-Historie und Produktdokumentation. Bei klar abgegrenzten Themen 60–80 % Auto-Reply-Rate erreichbar. Wichtig: Eskalations-Pfad und Quality-Monitoring.

Vertrags- und Legal-Recherche: “Welche Klauseln zu Haftungsbegrenzung haben wir bei Großkunden vereinbart?” RAG auf Vertragsdatenbank. Spart Volljuristen Stunden — ersetzt sie aber nicht.

Onboarding-Assistent für neue Mitarbeitende: RAG auf Wiki, Prozess-Doku, Mitarbeiter-Handbuch. “Wie buche ich Urlaub?” wird in Sekunden beantwortet, statt im Wiki herumzusuchen.

Technische Dokumentation für Service-Techniker: Mobile App mit RAG auf Service-Manuals und Wartungs-Historie. Techniker am Kundengerät hat Antworten in Sekunden.

Wo es nicht lohnt — Limitationen

Sehr kleine Wissensbasen (unter 50 Dokumente): Kann man auch direkt im LLM-Kontext mitgeben. Vollständiger RAG-Stack ist überdimensioniert.

Strukturierte Daten: Wenn deine Information primär in Datenbanken liegt (Kunden, Bestellungen, Lagerbestand), ist Text-to-SQL und klassisches Function-Calling besser als RAG.

Aufgaben, die echtes Reasoning brauchen: RAG holt relevante Textstellen und übergibt sie an das LLM. Wenn die Antwort komplexes Schlussfolgern aus mehreren Quellen erfordert, kommt RAG an Grenzen. Hier hilft Multi-Step-Reasoning oder Agent-Frameworks (OpenClaw, Hermes).

Live-Daten: RAG ist auf statische oder periodisch aktualisierte Dokumente ausgelegt. Echtzeit-Daten holst du besser per Function-Call.

Häufige Fallstricke und wie du sie vermeidest

Falsches Chunking: Der häufigste Fehler. Wenn du naiv pro 1.000 Zeichen chunkst, zerschneidest du Sätze und Kontexte. Sauber ist: Chunking pro Sektion (bei strukturierten Docs), oder semantisch (LLM-basiert für komplexe Verträge).

Embedding-Modell ohne Deutsch-Test: Manche Modelle (vor allem ältere) sind in Deutsch deutlich schwächer als in Englisch. Wir testen immer 2–3 Modelle auf echtem deutschen Material, bevor wir entscheiden.

Reine Vektor-Suche ohne Hybrid: Eigennamen, Produktnummern, exakte Code-Snippets findet eine Vektor-Suche schlecht. Hybrid-Suche (BM25 + Vektor + Reranking) ist Standard für ernsthafte Production-Setups.

Zu wenig Kontext im Prompt: Wenn du nur die Top-3-Chunks an das LLM gibst, fehlt oft Kontext. Top-10 mit Reranking ist ein robuster Default.

Kein Reranking: Re-Ranker-Modelle (Cohere Rerank v3, BGE-Reranker) verbessern die Trefferqualität deutlich. Sind günstig und sollten Standard sein.

Keine Quality-Loops: RAG-Systeme degradieren still. Du brauchst Monitoring (welche Anfragen werden beantwortet, welche nicht?), Feedback-Mechanismen und periodische Eval-Läufe.

Datenschutz und Compliance

Bei RAG-Systemen geht es um eure eigenen Daten — das ist potenziell sensibel:

Wie wir helfen

RAG-Systeme sind eines unserer Kerngebiete. Wir bauen vom kleinen Pilot bis zum großen Multi-Tenant-Setup:

Verwandte Themen

Häufige Fragen

Was ist der Unterschied zwischen Volltextsuche und RAG?

Volltextsuche findet exakte Wörter (Keywords). RAG findet Bedeutung — auch wenn andere Worte verwendet werden. Frage 'Wie buche ich Reisekosten?' findet im RAG-System auch Dokumente, die 'Spesenabrechnung' oder 'Aufwandsrückerstattung' verwenden. In der Praxis kombiniert man beide (Hybrid-Suche) — das ist meist deutlich besser als jede Einzeltechnik.

Welche Vector-Datenbank sollten wir nutzen?

Für die meisten Mittelstands-Use-Cases reicht pgvector (PostgreSQL-Extension). Du brauchst keine separate Datenbank — wenn du eh PostgreSQL hast, geht das mit minimalem Mehraufwand. Bei sehr großen Datenmengen (>10 Millionen Dokumente) oder speziellen Anforderungen (Filter-Performance, Multi-Tenant) lohnt Qdrant oder Weaviate. Bei Cloud-Setups Azure AI Search oder Pinecone.

Welches Embedding-Modell ist 2026 das beste?

Für Deutsch: E5-Mistral-Multilingual, BGE-M3 oder OpenAI text-embedding-3-large. Cohere Embed v4 ist auch stark. Wer DSGVO-getrieben self-hosted: BGE-M3 oder Multilingual-E5 lokal auf einem CPU-Server reicht. Cloud: OpenAI bei Azure-Setups, Cohere bei Bedrock. Wir testen meist 2–3 Modelle auf eurem echten Material und entscheiden datengetrieben.

Wie groß sollten Chunks sein?

Faustregel 400–800 Tokens pro Chunk, mit 50–100 Tokens Overlap. Bei strukturierten Dokumenten (Wiki-Seiten, FAQ) chunk pro Abschnitt. Bei langen Verträgen oder Reports semantisches Chunking (LLM-basiert). Falsches Chunking ist die häufigste Ursache für schlechte RAG-Qualität — wichtiger als die Modell-Wahl.

Was kostet ein RAG-System im Aufbau und Betrieb?

Aufbau: 8–12 Wochen für ein Mittelstands-RAG, 25.000–45.000 € Implementierung. Betrieb: Embedding-Kosten meist unter 50 €/Monat (einmalig pro Dokument), LLM-Kosten je nach Volumen 80–500 €/Monat, Vector-DB ab 30 €/Monat. Insgesamt typischerweise 200–800 €/Monat Betriebskosten.

Was sind die häufigsten Fallstricke?

Drei Klassiker: 1) Falsche Chunk-Größe → Antworten haben keinen Kontext. 2) Schlechtes Embedding-Modell für deutsche Texte → Ähnlichkeit findet falsche Dokumente. 3) Keine Hybrid-Suche → reine Vektor-Suche verfehlt Eigennamen, Produktnummern, exakte Begriffe. Wer das vermeidet, hat 80 % der RAG-Probleme im Griff.

Patrick — Senior Social Media & GEO Manager
Master of Contact

Patrick — Senior Social Media & GEO Manager

Patrick ist dein erster Ansprechpartner für KI-Beratung, Workshops und Implementierung. Er hört zu, fragt nach — und sortiert für dich, was wirklich Hebel hat.

30 Min · kostenfrei · unverbindlich

30 Min buchen