Was sind Embeddings — kurz und pragmatisch
Ein Embedding ist eine numerische Repräsentation von Text — typischerweise ein Vektor mit 768 bis 3.072 Dimensionen. Texte mit ähnlicher Bedeutung haben ähnliche Vektoren. Das klingt abstrakt, ist aber praktisch nützlich: Du kannst zwei Texte vergleichen, ohne dass sie dieselben Wörter enthalten müssen.
Konkretes Beispiel: “Reisekostenabrechnung” und “Spesenabrechnung” sind unterschiedliche Wörter, haben aber sehr ähnliche Embeddings. Eine Embedding-basierte Suche findet beide, eine reine Keyword-Suche nur eines davon.
Embeddings werden von speziellen Embedding-Modellen erstellt. 2026 sind die wichtigsten:
- OpenAI text-embedding-3-large (3.072 Dimensionen) — Cloud, sehr stark in Englisch und Deutsch
- Cohere Embed v4 — Cloud, gutes Multilingual-Verhalten, in EU-Region verfügbar
- BGE-M3 — Open Source, stark in Multilingual, self-hostable auf CPU
- E5-Mistral-Multilingual — Open Source, gut in Deutsch, sparsam im Speicher
- Voyage Code 3 — spezialisiert auf Code-Suche, Cloud
Was ist RAG (Retrieval Augmented Generation)
RAG ist ein Pattern, das Embedding-Suche mit LLM-Generierung kombiniert. Der Ablauf:
- Vorverarbeitung (einmalig): Du chunkst deine Dokumente in 400–800-Token-Stücke und erstellst für jedes Stück ein Embedding. Speicherst alle Embeddings in einer Vector-Datenbank.
- Anfrage (pro Nutzeranfrage): Du erstellst ein Embedding der Frage. Suchst die 5–10 ähnlichsten Chunks in der Vector-DB.
- Generierung: Du gibst die gefundenen Chunks plus die ursprüngliche Frage an ein LLM. Das LLM antwortet auf Basis der bereitgestellten Chunks — nicht auf Basis seines Trainings-Wissens.
Resultat: Antworten beruhen auf eurem Wissen, nicht auf dem Internet-Wissen vom letzten Trainingstand. Halluzinationen werden deutlich reduziert. Antworten enthalten Quellenverweise (welcher Chunk wurde verwendet).
Wo es lohnt — Use-Cases im Mittelstand
Interne Wissenssuche (“Wo finde ich die Reisekosten-Richtlinie?”): RAG auf Confluence, SharePoint, internen PDFs. Spart Mitarbeitenden viel Sucherei. Klassischer Sweet Spot mit hohem ROI.
Kundensupport mit eigenem Wissen: Erstantwort per RAG aus FAQ, Tickets-Historie und Produktdokumentation. Bei klar abgegrenzten Themen 60–80 % Auto-Reply-Rate erreichbar. Wichtig: Eskalations-Pfad und Quality-Monitoring.
Vertrags- und Legal-Recherche: “Welche Klauseln zu Haftungsbegrenzung haben wir bei Großkunden vereinbart?” RAG auf Vertragsdatenbank. Spart Volljuristen Stunden — ersetzt sie aber nicht.
Onboarding-Assistent für neue Mitarbeitende: RAG auf Wiki, Prozess-Doku, Mitarbeiter-Handbuch. “Wie buche ich Urlaub?” wird in Sekunden beantwortet, statt im Wiki herumzusuchen.
Technische Dokumentation für Service-Techniker: Mobile App mit RAG auf Service-Manuals und Wartungs-Historie. Techniker am Kundengerät hat Antworten in Sekunden.
Wo es nicht lohnt — Limitationen
Sehr kleine Wissensbasen (unter 50 Dokumente): Kann man auch direkt im LLM-Kontext mitgeben. Vollständiger RAG-Stack ist überdimensioniert.
Strukturierte Daten: Wenn deine Information primär in Datenbanken liegt (Kunden, Bestellungen, Lagerbestand), ist Text-to-SQL und klassisches Function-Calling besser als RAG.
Aufgaben, die echtes Reasoning brauchen: RAG holt relevante Textstellen und übergibt sie an das LLM. Wenn die Antwort komplexes Schlussfolgern aus mehreren Quellen erfordert, kommt RAG an Grenzen. Hier hilft Multi-Step-Reasoning oder Agent-Frameworks (OpenClaw, Hermes).
Live-Daten: RAG ist auf statische oder periodisch aktualisierte Dokumente ausgelegt. Echtzeit-Daten holst du besser per Function-Call.
Häufige Fallstricke und wie du sie vermeidest
Falsches Chunking: Der häufigste Fehler. Wenn du naiv pro 1.000 Zeichen chunkst, zerschneidest du Sätze und Kontexte. Sauber ist: Chunking pro Sektion (bei strukturierten Docs), oder semantisch (LLM-basiert für komplexe Verträge).
Embedding-Modell ohne Deutsch-Test: Manche Modelle (vor allem ältere) sind in Deutsch deutlich schwächer als in Englisch. Wir testen immer 2–3 Modelle auf echtem deutschen Material, bevor wir entscheiden.
Reine Vektor-Suche ohne Hybrid: Eigennamen, Produktnummern, exakte Code-Snippets findet eine Vektor-Suche schlecht. Hybrid-Suche (BM25 + Vektor + Reranking) ist Standard für ernsthafte Production-Setups.
Zu wenig Kontext im Prompt: Wenn du nur die Top-3-Chunks an das LLM gibst, fehlt oft Kontext. Top-10 mit Reranking ist ein robuster Default.
Kein Reranking: Re-Ranker-Modelle (Cohere Rerank v3, BGE-Reranker) verbessern die Trefferqualität deutlich. Sind günstig und sollten Standard sein.
Keine Quality-Loops: RAG-Systeme degradieren still. Du brauchst Monitoring (welche Anfragen werden beantwortet, welche nicht?), Feedback-Mechanismen und periodische Eval-Läufe.
Datenschutz und Compliance
Bei RAG-Systemen geht es um eure eigenen Daten — das ist potenziell sensibel:
- Embedding-Modell wählen: Cloud-Embeddings (OpenAI, Cohere) sind schnell, aber deine Texte gehen in die Cloud. Self-Hosted-Embeddings (BGE-M3, E5) brauchen mehr Setup, halten Daten aber lokal.
- Vector-Datenbank: Bei Cloud-Setups (Azure AI Search, Pinecone) gelten normale Cloud-KI-Regeln (AVV, EU-Region). Bei Self-Hosting (pgvector, Qdrant lokal) hast du Vollkontrolle.
- LLM-Wahl: RAG-Antworten generieren ein LLM. Sensible Chunks im Prompt? Dann LLM ebenfalls self-hosted oder in EU-Region.
- Berechtigungs-Modell: Wer darf welche Dokumente sehen? Sauberes RAG implementiert Pre-Filter auf Dokument-Ebene, sonst gibt das System Inhalte preis, die Nutzer offiziell nicht sehen dürfen. Mehr unter /recht-ethik/datenschutz.
Wie wir helfen
RAG-Systeme sind eines unserer Kerngebiete. Wir bauen vom kleinen Pilot bis zum großen Multi-Tenant-Setup:
- KI-Implementierung für den vollständigen RAG-Aufbau (Discovery, Chunking-Strategie, Modell-Auswahl, Vector-DB, Frontend)
- KI-Workshops mit RAG-Hands-On für Entwickler-Teams
- KI-Beratung zur Architektur-Entscheidung und Tool-Auswahl
Verwandte Themen
- Large Language Models — welches LLM für die Generierung
- Cloud-KI · Azure & Co — RAG-Stacks in der Cloud
- Lokale KI — RAG self-hosted
- OpenClaw, Hermes — Agent-Frameworks mit RAG-Integration
- Voice Agents — RAG-getriebene Voice-Antworten
