Was ist der Unterschied zwischen Volltextsuche und RAG?

Volltextsuche findet exakte Wörter (Keywords). RAG findet Bedeutung — auch wenn andere Worte verwendet werden. Frage 'Wie buche ich Reisekosten?' findet im RAG-System auch Dokumente, die 'Spesenabrechnung' oder 'Aufwandsrückerstattung' verwenden. In der Praxis kombiniert man beide (Hybrid-Suche) — das ist meist deutlich besser als jede Einzeltechnik.

Welche Vector-Datenbank sollten wir nutzen?

Für die meisten Mittelstands-Use-Cases reicht pgvector (PostgreSQL-Extension). Du brauchst keine separate Datenbank — wenn du eh PostgreSQL hast, geht das mit minimalem Mehraufwand. Bei sehr großen Datenmengen (>10 Millionen Dokumente) oder speziellen Anforderungen (Filter-Performance, Multi-Tenant) lohnt Qdrant oder Weaviate. Bei Cloud-Setups Azure AI Search oder Pinecone.

Welches Embedding-Modell ist 2026 das beste?

Für Deutsch: E5-Mistral-Multilingual, BGE-M3 oder OpenAI text-embedding-3-large. Cohere Embed v4 ist auch stark. Wer DSGVO-getrieben self-hosted: BGE-M3 oder Multilingual-E5 lokal auf einem CPU-Server reicht. Cloud: OpenAI bei Azure-Setups, Cohere bei Bedrock. Wir testen meist 2–3 Modelle auf eurem echten Material und entscheiden datengetrieben.

Wie groß sollten Chunks sein?

Faustregel 400–800 Tokens pro Chunk, mit 50–100 Tokens Overlap. Bei strukturierten Dokumenten (Wiki-Seiten, FAQ) chunk pro Abschnitt. Bei langen Verträgen oder Reports semantisches Chunking (LLM-basiert). Falsches Chunking ist die häufigste Ursache für schlechte RAG-Qualität — wichtiger als die Modell-Wahl.

Was kostet ein RAG-System im Aufbau und Betrieb?

Aufbau: 8–12 Wochen für ein Mittelstands-RAG, 25.000–45.000 € Implementierung. Betrieb: Embedding-Kosten meist unter 50 €/Monat (einmalig pro Dokument), LLM-Kosten je nach Volumen 80–500 €/Monat, Vector-DB ab 30 €/Monat. Insgesamt typischerweise 200–800 €/Monat Betriebskosten.

Was sind die häufigsten Fallstricke?

Drei Klassiker: 1) Falsche Chunk-Größe → Antworten haben keinen Kontext. 2) Schlechtes Embedding-Modell für deutsche Texte → Ähnlichkeit findet falsche Dokumente. 3) Keine Hybrid-Suche → reine Vektor-Suche verfehlt Eigennamen, Produktnummern, exakte Begriffe. Wer das vermeidet, hat 80 % der RAG-Probleme im Griff.

Embeddings und RAG erklärt — eigene Daten suchbar machen

Was sind Embeddings — kurz und pragmatisch

Ein Embedding ist eine numerische Repräsentation von Text — typischerweise ein Vektor mit 768 bis 3.072 Dimensionen. Texte mit ähnlicher Bedeutung haben ähnliche Vektoren. Das klingt abstrakt, ist aber praktisch nützlich: Du kannst zwei Texte vergleichen, ohne dass sie dieselben Wörter enthalten müssen.

Konkretes Beispiel: “Reisekostenabrechnung” und “Spesenabrechnung” sind unterschiedliche Wörter, haben aber sehr ähnliche Embeddings. Eine Embedding-basierte Suche findet beide, eine reine Keyword-Suche nur eines davon.

Embeddings werden von speziellen Embedding-Modellen erstellt. 2026 sind die wichtigsten:

OpenAI text-embedding-3-large (3.072 Dimensionen) — Cloud, sehr stark in Englisch und Deutsch
Cohere Embed v4 — Cloud, gutes Multilingual-Verhalten, in EU-Region verfügbar
BGE-M3 — Open Source, stark in Multilingual, self-hostable auf CPU
E5-Mistral-Multilingual — Open Source, gut in Deutsch, sparsam im Speicher
Voyage Code 3 — spezialisiert auf Code-Suche, Cloud

Was ist RAG (Retrieval Augmented Generation)

RAG ist ein Pattern, das Embedding-Suche mit LLM-Generierung kombiniert. Der Ablauf:

Vorverarbeitung (einmalig): Du chunkst deine Dokumente in 400–800-Token-Stücke und erstellst für jedes Stück ein Embedding. Speicherst alle Embeddings in einer Vector-Datenbank.
Anfrage (pro Nutzeranfrage): Du erstellst ein Embedding der Frage. Suchst die 5–10 ähnlichsten Chunks in der Vector-DB.
Generierung: Du gibst die gefundenen Chunks plus die ursprüngliche Frage an ein LLM. Das LLM antwortet auf Basis der bereitgestellten Chunks — nicht auf Basis seines Trainings-Wissens.

Resultat: Antworten beruhen auf eurem Wissen, nicht auf dem Internet-Wissen vom letzten Trainingstand. Halluzinationen werden deutlich reduziert. Antworten enthalten Quellenverweise (welcher Chunk wurde verwendet).

Wo es lohnt — Use-Cases im Mittelstand

Interne Wissenssuche (“Wo finde ich die Reisekosten-Richtlinie?”): RAG auf Confluence, SharePoint, internen PDFs. Spart Mitarbeitenden viel Sucherei. Klassischer Sweet Spot mit hohem ROI.

Kundensupport mit eigenem Wissen: Erstantwort per RAG aus FAQ, Tickets-Historie und Produktdokumentation. Bei klar abgegrenzten Themen 60–80 % Auto-Reply-Rate erreichbar. Wichtig: Eskalations-Pfad und Quality-Monitoring.

Vertrags- und Legal-Recherche: “Welche Klauseln zu Haftungsbegrenzung haben wir bei Großkunden vereinbart?” RAG auf Vertragsdatenbank. Spart Volljuristen Stunden — ersetzt sie aber nicht.

Onboarding-Assistent für neue Mitarbeitende: RAG auf Wiki, Prozess-Doku, Mitarbeiter-Handbuch. “Wie buche ich Urlaub?” wird in Sekunden beantwortet, statt im Wiki herumzusuchen.

Technische Dokumentation für Service-Techniker: Mobile App mit RAG auf Service-Manuals und Wartungs-Historie. Techniker am Kundengerät hat Antworten in Sekunden.

Wo es nicht lohnt — Limitationen

Sehr kleine Wissensbasen (unter 50 Dokumente): Kann man auch direkt im LLM-Kontext mitgeben. Vollständiger RAG-Stack ist überdimensioniert.

Strukturierte Daten: Wenn deine Information primär in Datenbanken liegt (Kunden, Bestellungen, Lagerbestand), ist Text-to-SQL und klassisches Function-Calling besser als RAG.

Aufgaben, die echtes Reasoning brauchen: RAG holt relevante Textstellen und übergibt sie an das LLM. Wenn die Antwort komplexes Schlussfolgern aus mehreren Quellen erfordert, kommt RAG an Grenzen. Hier hilft Multi-Step-Reasoning oder Agent-Frameworks (OpenClaw, Hermes).

Live-Daten: RAG ist auf statische oder periodisch aktualisierte Dokumente ausgelegt. Echtzeit-Daten holst du besser per Function-Call.

Häufige Fallstricke und wie du sie vermeidest

Falsches Chunking: Der häufigste Fehler. Wenn du naiv pro 1.000 Zeichen chunkst, zerschneidest du Sätze und Kontexte. Sauber ist: Chunking pro Sektion (bei strukturierten Docs), oder semantisch (LLM-basiert für komplexe Verträge).

Embedding-Modell ohne Deutsch-Test: Manche Modelle (vor allem ältere) sind in Deutsch deutlich schwächer als in Englisch. Wir testen immer 2–3 Modelle auf echtem deutschen Material, bevor wir entscheiden.

Reine Vektor-Suche ohne Hybrid: Eigennamen, Produktnummern, exakte Code-Snippets findet eine Vektor-Suche schlecht. Hybrid-Suche (BM25 + Vektor + Reranking) ist Standard für ernsthafte Production-Setups.

Zu wenig Kontext im Prompt: Wenn du nur die Top-3-Chunks an das LLM gibst, fehlt oft Kontext. Top-10 mit Reranking ist ein robuster Default.

Kein Reranking: Re-Ranker-Modelle (Cohere Rerank v3, BGE-Reranker) verbessern die Trefferqualität deutlich. Sind günstig und sollten Standard sein.

Keine Quality-Loops: RAG-Systeme degradieren still. Du brauchst Monitoring (welche Anfragen werden beantwortet, welche nicht?), Feedback-Mechanismen und periodische Eval-Läufe.

Datenschutz und Compliance

Bei RAG-Systemen geht es um eure eigenen Daten — das ist potenziell sensibel:

Embedding-Modell wählen: Cloud-Embeddings (OpenAI, Cohere) sind schnell, aber deine Texte gehen in die Cloud. Self-Hosted-Embeddings (BGE-M3, E5) brauchen mehr Setup, halten Daten aber lokal.
Vector-Datenbank: Bei Cloud-Setups (Azure AI Search, Pinecone) gelten normale Cloud-KI-Regeln (AVV, EU-Region). Bei Self-Hosting (pgvector, Qdrant lokal) hast du Vollkontrolle.
LLM-Wahl: RAG-Antworten generieren ein LLM. Sensible Chunks im Prompt? Dann LLM ebenfalls self-hosted oder in EU-Region.
Berechtigungs-Modell: Wer darf welche Dokumente sehen? Sauberes RAG implementiert Pre-Filter auf Dokument-Ebene, sonst gibt das System Inhalte preis, die Nutzer offiziell nicht sehen dürfen. Mehr unter /recht-ethik/datenschutz.

Wie wir helfen

RAG-Systeme sind eines unserer Kerngebiete. Wir bauen vom kleinen Pilot bis zum großen Multi-Tenant-Setup:

KI-Implementierung für den vollständigen RAG-Aufbau (Discovery, Chunking-Strategie, Modell-Auswahl, Vector-DB, Frontend)
KI-Workshops mit RAG-Hands-On für Entwickler-Teams
KI-Beratung zur Architektur-Entscheidung und Tool-Auswahl