Wenn du heute KI im Mittelstand einsetzen willst, hast du mehr Auswahl als noch vor zwei Jahren. Die Top-Modelle von Anthropic, OpenAI, Meta, Mistral, DeepSeek und Alibaba liegen qualitativ erstaunlich nah beieinander — die richtige Wahl hängt am Use-Case, am Budget, am Datenschutz-Setup. Wir machen alle paar Monate ein internes Update, weil sich die Modellelandschaft so schnell verändert. Hier unser Stand Mai 2026.
Das ist keine Liste aller Modelle, die es gibt. Das ist die Liste der Modelle, die wir bei unseren Kunden tatsächlich einsetzen oder ernsthaft evaluieren. Mehr Hintergrund findest du auf unserer Themenseite Large Language Models.
Die wichtigsten Modelle im Überblick
| Modell | Kontext | Input ($/1M) | Output ($/1M) | Stärke | Schwäche |
|---|---|---|---|---|---|
| Claude Opus 4.7 | 1M | 15 | 75 | Reasoning, Long Context, Agents | Preis bei großen Volumina |
| Claude Sonnet 4.6 | 1M | 3 | 15 | Sweet Spot Preis/Leistung | Etwas weniger tief im Reasoning |
| GPT-5 | 400k | 10 | 40 | Multimodal, Tool Use | Geschlossener Stack |
| GPT-5-mini | 400k | 0.25 | 1 | Sehr günstig für Volumen | Bei komplexen Aufgaben schwächer |
| Llama 4 Maverick | 1M | self-host | self-host | Open-Weight, lokal lauffähig | Hardware nötig |
| Mistral Large 2 | 256k | 2 | 6 | EU-Anbieter, gute Mehrsprachigkeit | Schwächer bei Code |
| Codestral 2 | 256k | 0.4 | 1.2 | Spezialisierung Code | Eingeschränkt für andere Aufgaben |
| DeepSeek-V3.2 | 128k | 0.27 | 1.10 | Stark im Preis-Leistungs-Verhältnis | Datenschutz heikel (China) |
| Qwen 3 235B | 128k | 0.5 | 1.5 | Open-Weight, sehr gute Mehrsprachigkeit | Hardware nötig für lokal |
| Gemini 2.5 Pro | 2M | 2.5 | 10 | Längster Kontext, Video-Verständnis | Google-Bindung |
(Preise sind Cloud-API-Preise, Stand Mai 2026, gerundet. Self-hosted heißt: Modellgewichte gratis, du zahlst Hardware und Betrieb.)
Empfehlungen pro Use-Case
Komplexe Beratungs- und Analyse-Aufgaben
Empfehlung: Claude Opus 4.7 oder Sonnet 4.6.
Bei langen Dokumenten, mehrstufigem Reasoning und Aufgaben, die echte Tiefe brauchen — Claude liegt hier bei den meisten unserer Tests vorn. Opus 4.7 ist der Premium-Pick für die wirklich kniffligen Sachen (etwa Analyse von komplexen Verträgen, mehrstufige Strategie-Beratung). Sonnet 4.6 ist der Sweet Spot, mit dem wir die meisten Kunden-Use-Cases abdecken.
Datenschutz: Anthropic hat europäische Datenresidenz, AVV verfügbar, EU-US-Datenschutzrahmen aktiv.
Hohes Volumen mit moderater Komplexität
Empfehlung: GPT-5-mini oder DeepSeek-V3.2 (mit Vorbehalt).
Klassifikationen, Zusammenfassungen, Standardantworten in großem Volumen — hier zählen Kosten. GPT-5-mini liegt bei 0,25 Dollar pro Million Input-Tokens und liefert für die meisten Routineaufgaben gute Qualität. DeepSeek-V3.2 ist noch günstiger und qualitativ überraschend stark.
Aber: Bei DeepSeek werden Daten in China verarbeitet, und China steht nicht unter dem EU-US-Datenschutzrahmen. Für Kundendaten oder personenbezogene Informationen scheidet DeepSeek im DACH-Mittelstand de facto aus, solange ihr keine EU-gehostete Variante einsetzt. Für Code-Reviews ohne sensible Daten oder synthetische Datenanalysen kann es spannend sein.
Code-Generierung und Entwicklung
Empfehlung: Claude Sonnet 4.6 (Generalist), Codestral 2 (spezialisiert).
Claude ist bei den meisten Code-Aufgaben stark — wir nutzen es selbst täglich für unsere Implementierungsarbeit. Codestral 2 von Mistral ist auf Code spezialisiert, kostet einen Bruchteil und liefert für Routine-Refactoring oder Boilerplate sehr gute Ergebnisse.
DSGVO-strenge Use-Cases
Empfehlung: Mistral Large 2 oder selbst gehostete Modelle.
Wenn die Daten die EU nicht verlassen sollen, kommt Mistral als europäischer Anbieter ins Spiel. Mistral Large 2 ist solide für die meisten Aufgaben, schwächer als Claude oder GPT bei harten Reasoning-Aufgaben, aber vollständig in der EU verarbeitend.
Noch strenger: lokale KI auf eigener Infrastruktur. Llama 4 Maverick (109B-MoE) oder Qwen 3 235B sind Open-Weight-Modelle, die du auf eigener Hardware oder einer EU-VPS betreiben kannst. Für viele Mittelstandsanwendungen reicht ein Modell wie Llama 3.1 8B oder Mistral 7B sogar auf einer Hostinger-VPS — siehe unsere Tools-Seite zum Hosting.
Lange Dokumente und Multimedia
Empfehlung: Gemini 2.5 Pro oder Claude mit langem Kontext.
Gemini 2.5 Pro hat 2 Millionen Tokens Kontext — damit kannst du mehrere Bücher oder Stunden Video gleichzeitig analysieren. Claude bietet 1 Million Tokens, was für die meisten Dokumenten-Use-Cases reicht. Beide sind stark bei multimodalen Aufgaben (Text + Bild + Tabelle).
Achtung: Sehr lange Kontexte werden auch bei den besten Modellen unscharf — wir sehen ab etwa 300k Tokens deutliche Qualitätsverluste, je nach Aufgabe. Für hochwertige Antworten lieber RAG mit gezielter Vorauswahl als einen Megakontext.
Lokale, datenschutzkritische KI im Mittelstand
Empfehlung: Llama 3.1 8B (für VPS), Llama 4 Maverick oder Qwen 3 14B (für stärkere Hardware).
Wer lokale KI braucht — etwa für Mandanten- oder Patientendaten — fährt mit Llama-Modellen sehr gut. 7B/8B-Modelle laufen auf einer 16-GB-RAM-VPS in akzeptabler Geschwindigkeit, 13B/14B-Modelle brauchen 32 GB RAM oder mehr. Für gehobene Anforderungen (komplexes Reasoning auf eigener Hardware) sind GPU-Server nötig — etwa bei OVHcloud oder dedizierten GPU-Anbietern.
Für viele Mittelstands-Use-Cases ist eine Hostinger-VPS mit 16–32 GB RAM und einem quantisierten 7B/13B-Modell der pragmatische Einstieg. Mehr dazu auf unserer Tools-Hosting-Seite.
Was wir nicht mehr empfehlen
- GPT-3.5/GPT-4 (alte Versionen). Veraltet, von OpenAI weitgehend abgekündigt.
- Claude Haiku 3.x. Ersetzt durch Haiku 4.5, der deutlich besser ist.
- Llama 3.0 / Llama 2. Für lokale Setups gibt es bessere Open-Weight-Optionen.
Praktische Hinweise zur Modellauswahl
Bei unseren Kunden gehen wir nach folgender Reihenfolge vor:
- Use-Case definieren. Was soll das Modell tun? Welche Inputs, welche Outputs, welches Volumen?
- Datenschutz-Anforderungen klären. Personenbezogen? Mandantengeheimnis? Geschäftsgeheimnis?
- Budget-Rahmen. Cloud-API, Pauschal-Lizenzen, Self-Hosted?
- Drei Kandidaten testen. Wir empfehlen, immer mit zwei bis drei Modellen einen Mini-Eval zu fahren — gleiche Prompts, gleiche Inputs, Output-Qualität bewerten.
- Eskalationspfad einbauen. Bei unsicheren Antworten ein stärkeres Modell oder menschliche Prüfung.
Diese Reihenfolge schützt vor zwei Fehlern: dem Premium-Pick aus Bequemlichkeit (Claude Opus für alles) und dem Spar-Pick aus Sparsamkeit (GPT-5-mini für komplexe Aufgaben). Beides geht oft schief.
Unsere ehrliche Einschätzung Mai 2026
Wenn ich heute aus dem Stand wählen müsste — Claude Sonnet 4.6 als Default für Mittelstands-Use-Cases. Solide bei fast allem, fairer Preis, gute Compliance-Story. Wo es eng wird (höchste Reasoning-Qualität, längster Kontext, sensitive Daten lokal), entsprechend ein anderes Modell.
Wer Open-Weight-Modelle lokal betreibt, ist mit Llama 4 oder Qwen 3 in der Spitze und mit Llama 3.1 8B im Mittel sehr gut bedient. Self-hosted ist bei DSGVO-Sensibilität und größeren Volumina oft günstiger als Cloud — Hostinger-VPS sind hier ein guter Einstieg.
Falls du unsicher bist, welches Modell für deinen Use-Case passt: Wir machen für unsere Kunden Modell-Evals als Teil der Implementierung. Drei Stunden, ehrliches Ergebnis, klare Empfehlung.
