Brauche ich teure GPUs für lokale KI?

Hängt vom Modell und Anwendungsfall ab. Ein 7B-Modell (Llama 3.1 8B, Mistral Nemo) läuft auf einer RTX 4090 (24 GB VRAM) flott — die kostet einmalig etwa 1.800 Euro. Für 70B-Modelle brauchst du mehrere High-End-GPUs oder eine A100/H100 — das ist mietbare Cloud-Hardware. Für viele Mittelstands-Use-Cases reichen 7B–13B-Modelle mit Retrieval Augmented Generation aus.

Wie nahe kommt lokales LLM an GPT-4 oder Claude?

Bei breitem Wissen und Reasoning: nicht ran. Bei spezifischen, dokumentierten Aufgaben (Mailantworten zu Standardthemen, interne Dokumenten-Suche, strukturierte Extraktion): überraschend nah. Llama 3.3 70B oder Qwen 2.5 72B sind in Benchmarks bei vielen Aufgaben auf GPT-4-Niveau von vor 18 Monaten — was für die meisten Mittelstand-Anwendungen reicht.

Was kostet ein lokales KI-Setup realistisch?

Drei Größenordnungen. (1) VPS für 7B-Modelle: 30–80 Euro pro Monat, einmalig 4.000–8.000 Euro Setup für RAG-Pipeline und UI. (2) Eigene Workstation/Server mit RTX 4090 oder zwei: 5.000–12.000 Euro Hardware, einmalig 10.000–25.000 Euro Implementierung. (3) Datacenter-GPU (A100/H100) für 70B-Modelle: ab 25.000 Euro Hardware oder ab 1.500 Euro pro Monat Cloud.

Welche Modelle empfehlt ihr aktuell?

Für deutschsprachige Aufgaben: Llama 3.3 70B (wenn Hardware reicht), Qwen 2.5 14B oder 32B als Sweet Spot, Mistral Nemo 12B als kleines Modell. Für Coding: Qwen2.5-Coder. Wir testen alle drei Monate neu — die Open-Source-Landschaft entwickelt sich schnell. Stand Mai 2026 sind die Genannten unsere Defaults.

Kann ich ChatGPT komplett ersetzen?

Wenn deine Use-Cases klar sind: ja. Wenn du 'irgendwie KI für alle Mitarbeiter' willst: schwerer, weil GPT-5 in Allgemeinwissen und Bildverständnis lokal nicht erreichbar ist. Wir empfehlen Hybrid: Lokale KI für sensible Daten und feste Workflows, Cloud-KI (mit Auftragsverarbeitung) für offene Recherche-Aufgaben.

Wer wartet das System?

Du oder wir. Self-hosted heißt: Updates fahren, Logs prüfen, bei Modell-Wechsel migrieren. Faustregel: 2–4 Stunden pro Monat für ein etabliertes Setup. Wir bieten Wartungsverträge ab 290 Euro pro Monat — inkludiert Updates, Monitoring und Quartals-Reviews zur Modellqualität.

Lokale KI: On-Premise und Self-hosted LLMs für den Mittelstand

Was ist lokale KI?

Lokale KI bedeutet: Das Sprachmodell läuft auf Hardware, die du kontrollierst — eigener Server, On-Premise-Workstation oder ein gemieteter VPS bei einem Anbieter wie Hostinger, Hetzner oder OVH. Im Gegensatz zu OpenAI, Anthropic oder Google verlassen deine Daten nicht das eigene System. Das ist für viele DACH-Unternehmen aus Compliance- oder Vertrauensgründen entscheidend.

Open-Source-Modelle haben in den letzten zwei Jahren stark aufgeholt. Llama 3.3 70B, Qwen 2.5 72B oder Mistral Large sind in vielen Benchmarks auf einem Niveau, das für die meisten Mittelstand-Anwendungen ausreicht. Nicht jedes Modell ist ein GPT-5 — und das ist meistens auch nicht nötig.

Wann lohnt sich lokale KI?

Pflichtfälle:

Streng vertrauliche Daten (Patient, Mandant, Finanzdaten, geistiges Eigentum)
Branchenregulierung (KRITIS, BAFIN, Medizinprodukteverordnung)
Hochsensible interne Dokumente, die nicht durch Standardvertragsklauseln abgedeckt werden sollen

Wirtschaftliche Fälle:

Hohe Volumen — bei mehr als ungefähr 100 Millionen Tokens pro Monat wird lokales Hosting günstiger als API-Nutzung
Wiederkehrende Standard-Aufgaben (Klassifikation, Extraktion), bei denen ein 7B-Modell reicht und API-Kosten unnötig wären

Nicht lohnenswert:

Wenn dein Use-Case echtes State-of-the-Art-Reasoning braucht (komplexe Recherche, kreatives Schreiben auf hohem Niveau)
Wenn dein IT-Team nicht bereit ist, ein paar Stunden pro Monat Wartung zu übernehmen
Wenn du nur sporadisch KI nutzt — dann ist API-Nutzung günstiger

Typische Use-Cases im Mittelstand

Interne Dokumenten-Suche (RAG): Mitarbeiter fragt in natürlicher Sprache, Modell antwortet mit Verweis auf interne PDFs, Wikis oder SharePoint.
Mail- und Ticket-Klassifikation: Eingehende E-Mails werden kategorisiert und vorqualifiziert — sensible Daten bleiben im Haus.
Strukturierte Extraktion: Aus Verträgen, Rechnungen oder Lieferscheinen Felder ziehen — vollautomatisch, lokal.
Anonymisierung sensibler Texte: Patientenakten, Bewerbungsunterlagen vorab anonymisieren, bevor sie in Cloud-Tools landen.
Code-Assistenz: Eigener Code-Assistent auf Qwen2.5-Coder, ohne dass interner Code an GitHub Copilot geht.

Modelle und Hardware: Was läuft worauf

Kleines Setup (RTX 4060/4070, 12–16 GB VRAM): Llama 3.1 8B, Mistral Nemo 12B (quantisiert), Qwen 2.5 7B. Geeignet für RAG, Klassifikation, einfache Mail-Antworten.

Mittleres Setup (RTX 4090 oder 2× RTX 3090, 24–48 GB VRAM): Llama 3.3 70B (4-bit quantisiert), Qwen 2.5 32B in höherer Präzision. Sweet Spot für die meisten Mittelstands-Anwendungen.

Großes Setup (A100, H100 oder Cluster): Llama 3.3 70B in voller Präzision, Mixtral 8x22B, eigene Fine-Tunes. Datacenter-Niveau, meist gemietet.

VPS-Setup (CPU only oder kleine GPU): Whisper für Audio, kleine 3B-Modelle für strukturierte Aufgaben, Embedding-Modelle für Vektor-Suche. Reicht für viele Backend-Aufgaben.

Empfehlung Hosting: Für eigene LLM-Workloads nutzen wir bei kleineren Setups gern Hostinger VPS (Affiliate-Link · du zahlst nichts extra). Günstig, deutsches Rechenzentrum, ausreichend für 7B–13B-Modelle in CPU-Inferenz oder als Backend für Embedding-Pipelines. Für GPU-Workloads (Llama 70B in akzeptabler Geschwindigkeit) brauchst du andere Anbieter — Hetzner GPU Cloud oder eigene Hardware sind dann typischerweise die nächste Stufe.

Worauf achten

Quantisierung verstehen. 4-bit quantisierte Modelle laufen auf weniger Hardware, sind aber spürbar schwächer als die Vollversion. Für viele Aufgaben okay — für sensibles Reasoning eher nicht. Wir benchmarken beide Varianten gegen deinen echten Use-Case.

RAG ist meist wichtiger als Modellgröße. Ein 7B-Modell mit gutem Retrieval-Setup übertrifft ein 70B-Modell ohne Kontext bei domänenspezifischen Aufgaben. Investiere in die Daten-Pipeline, nicht nur in die GPU.

Latenz testen. Lokal heißt nicht automatisch schnell. Ein 70B-Modell auf einer einzelnen GPU braucht ohne Optimierung mehrere Sekunden pro Antwort — für Echtzeit-Chat zu langsam. vLLM, llama.cpp und Ollama sind unterschiedlich schnell.

Stromkosten nicht vergessen. Ein dauerhaft laufender Server mit RTX 4090 zieht bei voller Last 450 Watt — bei 35 Cent pro kWh sind das im Jahr ungefähr 1.350 Euro Stromkosten. In die Wirtschaftlichkeitsrechnung gehört das.

DSGVO und AI Act

Lokale KI ist datenschutzrechtlich klar einfacher: Keine Datenübermittlung in Drittstaaten, kein Auftragsverarbeitungsvertrag mit US-Anbietern nötig. Für viele KRITIS- und Gesundheits-Anwendungen ist es überhaupt erst die Voraussetzung für einen produktiven Einsatz.

Beim AI Act bleibt die Klassifizierung gleich: Ein lokal gehostetes Modell, das Hochrisiko-Anwendungen treibt (HR-Entscheidungen, kritische Infrastruktur), unterliegt denselben Pflichten wie ein Cloud-Modell. Lokale Verarbeitung allein macht eine Anwendung nicht risikofrei.

Wie wir helfen

Wir bauen lokale KI-Setups end-to-end: Hardware-Beratung (eigene oder gemietete), Modell-Auswahl, RAG-Pipeline, UI für deine Mitarbeiter, Wartungsvertrag. Vor jedem Projekt machen wir einen Realitäts-Check: Welche Aufgaben sollen lokal laufen, welche besser in der Cloud, wo ist der ROI? Wir verkaufen niemandem ein 25.000-Euro-Setup, der mit zwei API-Calls pro Tag besser bedient ist.