Was sind Large Language Models — kurz erklärt
Ein Large Language Model (LLM) ist ein neuronales Netzwerk, das auf riesigen Mengen Text trainiert wurde, um die Wahrscheinlichkeit für das nächste Wort zu berechnen. Das klingt simpel, ist es aber nicht: Aus diesem Mechanismus heraus entstehen Modelle, die zusammenfassen, übersetzen, programmieren, Tabellen extrahieren, juristische Texte vorprüfen und Voice-Agents steuern können.
Wichtig zu verstehen: LLMs sind keine “Datenbanken mit Wissen”. Sie sind statistische Sprachmodelle, die plausible Antworten generieren. Das macht sie mächtig — und gleichzeitig anfällig für Halluzinationen, also falsch klingende, aber inhaltlich erfundene Aussagen. Wer LLMs in den Mittelstand bringt, muss diese Schwäche kennen und kompensieren — typischerweise durch Embeddings & RAG auf eigenem Datenmaterial.
State-of-the-Art-Modelle (Stand 2026)
Stand Mai 2026 sieht die Modell-Landschaft so aus:
| Modell | Anbieter | Kontext | Stärken | Datenschutz-Optionen |
|---|---|---|---|---|
| Claude 4 Opus | Anthropic | 1M Tokens | Reasoning, lange Dokumente, sauberes Deutsch | EU-Region (Frankfurt) |
| Claude 4 Sonnet | Anthropic | 1M Tokens | Allround, gutes Preis-Leistungs-Verhältnis | EU-Region |
| Claude 4 Haiku | Anthropic | 200k Tokens | Schnell, günstig, für Klassifikation | EU-Region |
| GPT-4o | OpenAI | 256k Tokens | Multimodal (Bild, Audio), Reasoning | Azure OpenAI EU |
| GPT-4o mini | OpenAI | 128k Tokens | Günstig, schnell | Azure OpenAI EU |
| Llama 4 405B | Meta (Open) | 256k Tokens | Self-Hosting, kein Vendor-Lock-In | Vollkontrolle |
| Llama 4 70B | Meta (Open) | 256k Tokens | Mittlere VPS, gute Qualität | Vollkontrolle |
| Mistral Large 3 | Mistral (Open/Closed) | 128k Tokens | EU-Anbieter, sauberes Französisch & Deutsch | EU-Hosting möglich |
| DeepSeek-V3 | DeepSeek (Open) | 128k Tokens | Reasoning, sehr günstig | Self-Hosting |
| Qwen 3 235B | Alibaba (Open) | 128k Tokens | Stark in asiatischen Sprachen, gut in Tech | Self-Hosting |
Die Liste ändert sich quartalsweise. Wir aktualisieren diese Seite, wenn neue Top-Modelle erscheinen.
Wann welches Modell — Use-Case-Mapping
Mail-Triage und Klassifikation (z.B. eingehende Service-Tickets sortieren): Claude 4 Haiku oder GPT-4o mini reichen völlig. Kosten unter 10 € pro 100k Tickets. Hohe Geschwindigkeit ist wichtiger als Reasoning-Tiefe.
Generierung von Geschäftstexten (Angebote, Reports, Mails auf Deutsch): Claude 4 Sonnet ist im DACH-Raum sehr stark. GPT-4o ist eine gute Alternative. Mistral Large für Häuser, die explizit europäische Anbieter wollen.
Reasoning und komplexe Analyse (z.B. juristische Vorprüfung, technische Dokumentation analysieren): Claude 4 Opus oder GPT-4o. Kosten höher, dafür weniger Halluzinationen.
Code generieren und Code-Review: Claude Code (Anthropic) und OpenAI Codex sind die Spitzenmodelle. Mehr dazu auf Claude Code & Codex.
Self-Hosting für Datenschutz-kritische Anwendungen: Llama 4 70B oder DeepSeek-V3. Detail-Beratung auf Lokale KI.
Multimodale Aufgaben (Bild verstehen, Diagramme analysieren): GPT-4o ist Marktführer. Claude 4 Opus mit Vision-Modul fast gleichauf. Open-Source-Modelle holen auf, sind aber noch hinter.
Wo LLMs nicht helfen — ehrliche Limitationen
LLMs sind nicht für alles geeignet. Konkrete Schwächen:
- Mathematik und exakte Berechnungen: Selbst GPT-4o macht bei Multi-Step-Mathematik Fehler. Tool-Use (LLM ruft Python auf) ist die saubere Lösung.
- Echtes Wissen: LLMs können sich an Trainingsstand vom letzten Quartal “erinnern”. Für aktuelle Daten brauchst du RAG oder Function Calling.
- Konsistenz: Zwei identische Aufrufe können unterschiedliche Antworten geben. Für reproducible Workflows musst du Temperature auf 0 setzen — und selbst dann gibt es Varianz.
- Zahlen aus Tabellen extrahieren: Funktioniert in 90 % der Fälle gut, in 10 % gibt es subtile Fehler. Validation ist Pflicht.
- Hochsensible juristische oder medizinische Endaussagen: LLMs als Erstprüfung okay, aber niemals als Letztaussage ohne menschliche Validierung.
Datenschutz und Compliance
Closed-Source-Modelle (GPT-4o, Claude 4) gehen über die Anbieter-Cloud. Für DSGVO-konforme Nutzung brauchst du:
- Auftragsverarbeitungsvertrag (AVV) mit dem Anbieter — Microsoft (Azure OpenAI), Anthropic, OpenAI bieten standardisierte AVV.
- EU-Region — Azure OpenAI in Frankfurt, Anthropic Claude in EU-Region (seit Anfang 2026 verfügbar). Bei OpenAI direkt ist das schwieriger; lieber über Azure routen.
- Standardvertragsklauseln (SCC) für Drittland-Transfers, falls noch relevant.
Bei besonders sensiblen Daten (Gesundheit, Personal, Finanzen mit Drittbezug) ist Self-Hosting der saubere Weg. Llama 4 oder Mistral auf einem deutschen VPS — Hetzner, IONOS oder ein anderer EU-Anbieter — gibt dir Vollkontrolle. Mehr dazu bei Lokale KI.
Was den AI Act angeht: Reine LLM-Nutzung als Werkzeug fällt aktuell in die Kategorie “Niedrigrisiko” und ist weitgehend frei einsetzbar. Wenn du LLMs in Hochrisiko-Anwendungen einbaust (Personalentscheidungen, Kreditvergabe, kritische Infrastruktur), gelten ab August 2026 Dokumentations- und Transparenz-Pflichten. Mehr auf /recht-ethik/ai-act.
Wie wir helfen
Bei der LLM-Auswahl gehen wir methodisch vor: Use-Case definieren, Eval-Benchmark auf echtem Datenmaterial laufen, Kosten und Datenschutz-Kompatibilität gegenrechnen. Drei Wege sind typisch:
- KI-Beratung für die strategische Modell-Entscheidung (welches Modell für welche Bereiche)
- KI-Workshops für die praktische Auseinandersetzung deines Teams mit verschiedenen Modellen
- KI-Implementierung für den Aufbau einer Multi-Model-Routing-Architektur
Verwandte Themen
- Cloud-KI · Azure & Co — wo LLMs gehostet werden
- Lokale KI — Self-Hosting auf eigener Hardware
- Embeddings & RAG — eigene Daten suchbar machen
- Claude Code & Codex — Coding-Agents im Detail
- OpenClaw, Hermes, Nanoclaw — Agent-Frameworks auf LLM-Basis
