Was ist lokale KI?
Lokale KI bedeutet: Das Sprachmodell läuft auf Hardware, die du kontrollierst — eigener Server, On-Premise-Workstation oder ein gemieteter VPS bei einem Anbieter wie Hostinger, Hetzner oder OVH. Im Gegensatz zu OpenAI, Anthropic oder Google verlassen deine Daten nicht das eigene System. Das ist für viele DACH-Unternehmen aus Compliance- oder Vertrauensgründen entscheidend.
Open-Source-Modelle haben in den letzten zwei Jahren stark aufgeholt. Llama 3.3 70B, Qwen 2.5 72B oder Mistral Large sind in vielen Benchmarks auf einem Niveau, das für die meisten Mittelstand-Anwendungen ausreicht. Nicht jedes Modell ist ein GPT-5 — und das ist meistens auch nicht nötig.
Wann lohnt sich lokale KI?
Pflichtfälle:
- Streng vertrauliche Daten (Patient, Mandant, Finanzdaten, geistiges Eigentum)
- Branchenregulierung (KRITIS, BAFIN, Medizinprodukteverordnung)
- Hochsensible interne Dokumente, die nicht durch Standardvertragsklauseln abgedeckt werden sollen
Wirtschaftliche Fälle:
- Hohe Volumen — bei mehr als ungefähr 100 Millionen Tokens pro Monat wird lokales Hosting günstiger als API-Nutzung
- Wiederkehrende Standard-Aufgaben (Klassifikation, Extraktion), bei denen ein 7B-Modell reicht und API-Kosten unnötig wären
Nicht lohnenswert:
- Wenn dein Use-Case echtes State-of-the-Art-Reasoning braucht (komplexe Recherche, kreatives Schreiben auf hohem Niveau)
- Wenn dein IT-Team nicht bereit ist, ein paar Stunden pro Monat Wartung zu übernehmen
- Wenn du nur sporadisch KI nutzt — dann ist API-Nutzung günstiger
Typische Use-Cases im Mittelstand
- Interne Dokumenten-Suche (RAG): Mitarbeiter fragt in natürlicher Sprache, Modell antwortet mit Verweis auf interne PDFs, Wikis oder SharePoint.
- Mail- und Ticket-Klassifikation: Eingehende E-Mails werden kategorisiert und vorqualifiziert — sensible Daten bleiben im Haus.
- Strukturierte Extraktion: Aus Verträgen, Rechnungen oder Lieferscheinen Felder ziehen — vollautomatisch, lokal.
- Anonymisierung sensibler Texte: Patientenakten, Bewerbungsunterlagen vorab anonymisieren, bevor sie in Cloud-Tools landen.
- Code-Assistenz: Eigener Code-Assistent auf Qwen2.5-Coder, ohne dass interner Code an GitHub Copilot geht.
Modelle und Hardware: Was läuft worauf
Kleines Setup (RTX 4060/4070, 12–16 GB VRAM): Llama 3.1 8B, Mistral Nemo 12B (quantisiert), Qwen 2.5 7B. Geeignet für RAG, Klassifikation, einfache Mail-Antworten.
Mittleres Setup (RTX 4090 oder 2× RTX 3090, 24–48 GB VRAM): Llama 3.3 70B (4-bit quantisiert), Qwen 2.5 32B in höherer Präzision. Sweet Spot für die meisten Mittelstands-Anwendungen.
Großes Setup (A100, H100 oder Cluster): Llama 3.3 70B in voller Präzision, Mixtral 8x22B, eigene Fine-Tunes. Datacenter-Niveau, meist gemietet.
VPS-Setup (CPU only oder kleine GPU): Whisper für Audio, kleine 3B-Modelle für strukturierte Aufgaben, Embedding-Modelle für Vektor-Suche. Reicht für viele Backend-Aufgaben.
Empfehlung Hosting: Für eigene LLM-Workloads nutzen wir bei kleineren Setups gern Hostinger VPS (Affiliate-Link · du zahlst nichts extra). Günstig, deutsches Rechenzentrum, ausreichend für 7B–13B-Modelle in CPU-Inferenz oder als Backend für Embedding-Pipelines. Für GPU-Workloads (Llama 70B in akzeptabler Geschwindigkeit) brauchst du andere Anbieter — Hetzner GPU Cloud oder eigene Hardware sind dann typischerweise die nächste Stufe.
Worauf achten
Quantisierung verstehen. 4-bit quantisierte Modelle laufen auf weniger Hardware, sind aber spürbar schwächer als die Vollversion. Für viele Aufgaben okay — für sensibles Reasoning eher nicht. Wir benchmarken beide Varianten gegen deinen echten Use-Case.
RAG ist meist wichtiger als Modellgröße. Ein 7B-Modell mit gutem Retrieval-Setup übertrifft ein 70B-Modell ohne Kontext bei domänenspezifischen Aufgaben. Investiere in die Daten-Pipeline, nicht nur in die GPU.
Latenz testen. Lokal heißt nicht automatisch schnell. Ein 70B-Modell auf einer einzelnen GPU braucht ohne Optimierung mehrere Sekunden pro Antwort — für Echtzeit-Chat zu langsam. vLLM, llama.cpp und Ollama sind unterschiedlich schnell.
Stromkosten nicht vergessen. Ein dauerhaft laufender Server mit RTX 4090 zieht bei voller Last 450 Watt — bei 35 Cent pro kWh sind das im Jahr ungefähr 1.350 Euro Stromkosten. In die Wirtschaftlichkeitsrechnung gehört das.
DSGVO und AI Act
Lokale KI ist datenschutzrechtlich klar einfacher: Keine Datenübermittlung in Drittstaaten, kein Auftragsverarbeitungsvertrag mit US-Anbietern nötig. Für viele KRITIS- und Gesundheits-Anwendungen ist es überhaupt erst die Voraussetzung für einen produktiven Einsatz.
Beim AI Act bleibt die Klassifizierung gleich: Ein lokal gehostetes Modell, das Hochrisiko-Anwendungen treibt (HR-Entscheidungen, kritische Infrastruktur), unterliegt denselben Pflichten wie ein Cloud-Modell. Lokale Verarbeitung allein macht eine Anwendung nicht risikofrei.
Wie wir helfen
Wir bauen lokale KI-Setups end-to-end: Hardware-Beratung (eigene oder gemietete), Modell-Auswahl, RAG-Pipeline, UI für deine Mitarbeiter, Wartungsvertrag. Vor jedem Projekt machen wir einen Realitäts-Check: Welche Aufgaben sollen lokal laufen, welche besser in der Cloud, wo ist der ROI? Wir verkaufen niemandem ein 25.000-Euro-Setup, der mit zwei API-Calls pro Tag besser bedient ist.
