Zum Inhalt springen
KI KI für UN
Menü
Transkription

Audio-Transkription für Meetings, Termine und Telefonate

Whisper, Whisper.cpp und kommerzielle Alternativen für deutsche Audio-Transkription — was lohnt sich, wo sind die Grenzen, und wann self-hosted statt Cloud.

Was ist Audio-Transkription?

Audio-Transkription wandelt gesprochene Sprache in geschriebenen Text um. Im Mittelstand wird das vor allem für Meeting-Protokolle, Kundengespräche, Interviews und Diktate eingesetzt. Die Technik ist seit OpenAIs Whisper-Modell (2022) auf einem Niveau, auf dem sie für viele Anwendungen produktiv nutzbar ist — vorher war “Spracherkennung” eher mühselig.

Wir unterscheiden zwei Hauptpfade:

Wann lohnt sich der Einsatz?

Wenn dein Team mehr als zehn Stunden pro Woche manuell Protokolle schreibt oder Diktate abhört, lohnt es sich. Beispiel Steuerkanzlei: Vier Mandatsgespräche pro Tag à 30 Minuten, manuell zusammenfassen kostet rund 90 Minuten Mitarbeiterzeit. Mit Transkription plus LLM-Zusammenfassung sinkt das auf 15–20 Minuten Review. Das sind ungefähr 25 Stunden pro Monat, bei 35 Euro Stundensatz also 875 Euro — gegen Cloud-Kosten von etwa 30–60 Euro.

Bei sehr geringem Volumen (eine Stunde Audio pro Woche) ist ein bestehendes Tool wie tl;dv oder Otter sinnvoller als ein eigenes Setup.

Typische Use-Cases

Worauf achten

Audioqualität schlägt Modell. Ein gutes Lavalier-Mikrofon für 80 Euro pro Sprecher bringt mehr als jedes Premium-Modell. Whisper kann Hintergrundlärm filtern, aber kein verzerrtes Konferenz-Audio retten.

Fachvokabular vorbereiten. Whisper unterstützt einen “Initial Prompt” — eine Liste mit Eigennamen, Produkten und Fachbegriffen, die der Erkennung als Hinweis dient. Das verbessert die Quote bei firmenspezifischem Vokabular spürbar.

Korrektur einplanen. Auch bei 95 Prozent Genauigkeit fehlen pro Stunde mehrere hundert Wörter. Für rechtsverbindliche Dokumente ist menschliche Nachkorrektur Pflicht. Wir setzen auf “Vier-Augen-Prinzip” — Transkript wird einmal vom Tool, einmal vom Menschen gegengelesen.

DSGVO und Mitarbeiter-Rechte

Die zwei häufigsten Fallstricke: heimliche Aufnahmen und unklare Aufbewahrung. Heimliche Aufnahmen sind in Deutschland strafbar (§ 201 StGB). Bei Mitarbeitergesprächen oder Bewerbungsgesprächen muss vorab informiert werden. Eine Betriebsvereinbarung schafft Klarheit und schützt beide Seiten.

Aufbewahrungsfristen: Audio-Originale sollten nach Erstellung des Transkripts gelöscht werden, wenn keine rechtliche Pflicht zur Aufbewahrung besteht. Transkripte selbst unterliegen den normalen Fristen für Geschäftsdokumente.

Self-hosted auf eigener Hardware oder VPS

Für sensible Inhalte raten wir zu lokaler Verarbeitung. Whisper.cpp läuft auf normaler Server-Hardware. Für gelegentliche Batch-Verarbeitung — sagen wir 20 Stunden Audio pro Monat — reicht ein kleiner VPS. Wir testen das regelmäßig auf Hostinger-VPS-Maschinen mit 8 vCPUs und 16 GB RAM.

Empfehlung Hosting: Für eigene Whisper-Setups nutzen wir bei kleineren Volumen gern Hostinger VPS (Affiliate-Link · du zahlst nichts extra). Günstig, deutsches Rechenzentrum, ausreichend für Whisper Large-v3 als Batch-Worker. Für Echtzeit-Transkription oder hohe Volumen brauchst du eine GPU-Instanz — die gibt es bei Hostinger nicht, da empfehlen wir Hetzner GPU Cloud oder eigene Hardware.

Wie wir helfen

Wir starten mit einer kleinen Pilot-Pipeline: Eine typische Aufnahme (Meeting, Mandat, Diktat) wird durch beide Wege geschickt — Cloud und lokal. Du siehst Qualität, Geschwindigkeit, Kosten direkt nebeneinander. Dann bauen wir die Variante, die für deinen Fall passt — inklusive Anbindung an Slack, Notion, Confluence, dein CRM oder dein Praxis-/Kanzlei-System.

Häufige Fragen

Wie genau ist die Transkription auf Deutsch?

Whisper Large-v3 erreicht bei klar gesprochenem Hochdeutsch eine Wortfehlerrate von etwa 4–6 Prozent. Bei Dialekt, schlechter Audioqualität oder Fachvokabular steigt das schnell auf 10–15 Prozent. Spezialisierte Modelle (medizinisch, juristisch) sind teurer, aber bei Fachterminologie deutlich besser. 'Höchste Präzision' ist ein Marketingbegriff — Stichproben sind immer Pflicht.

Cloud oder lokal — was empfiehlt ihr?

Hängt vom Inhalt ab. Für interne Meetings ohne sensible Daten: OpenAI Whisper API ist günstig (etwa 0,36 Cent pro Minute) und schnell. Für Patientengespräche, Mandantenakten oder vertrauliche Vorstandssitzungen: lokal auf eigener Hardware oder Hostinger-VPS. Whisper.cpp läuft auf einem MacBook Pro genauso schnell wie in der Cloud.

Brauche ich eine GPU für lokale Transkription?

Nein. Whisper.cpp läuft mit sinnvoller Geschwindigkeit auf einer modernen CPU — eine Stunde Audio braucht etwa 5–15 Minuten Verarbeitungszeit. Mit einer GPU (auch einer günstigen RTX 3060) wird es deutlich schneller (real-time oder besser), nötig ist sie für Batch-Verarbeitung aber nicht.

Erkennt das System verschiedene Sprecher?

Whisper allein nicht. Mit pyannote.audio oder ähnlichen Diarisation-Tools kombiniert: ja, mit Einschränkungen. Bei zwei Sprechern in guter Aufnahmequalität funktioniert es gut, bei sechs Personen im Konferenzraum mit einem Mikrofon eher schlecht. Wir setzen für saubere Mehrsprecher-Erkennung auf separate Mikrofone oder Multi-Track-Aufnahmen.

Können auch fertige Zusammenfassungen erstellt werden?

Ja — wir hängen ein LLM (Claude, GPT-4o oder lokales Modell) hinter die Transkription. Das extrahiert Entscheidungen, Action-Items mit Verantwortlichen und Stichworte. Wichtig: Das LLM kann halluzinieren. Action-Items sollten immer von einem Menschen final bestätigt werden, bevor sie ins Projektmanagement-Tool wandern.

Was ist mit DSGVO, wenn Mitarbeiter aufgenommen werden?

Mitarbeiter müssen vor der Aufnahme informiert werden und idealerweise zustimmen — sowohl arbeitsrechtlich als auch datenschutzrechtlich. Eine Betriebsvereinbarung ist sinnvoll. Bei externen Gesprächen (Kunden, Bewerber): Hinweis zu Beginn, Recht auf Widerspruch. Heimliche Aufnahmen sind in Deutschland strafbar — nicht riskieren.

Patrick — Senior Social Media & GEO Manager
Master of Contact

Patrick — Senior Social Media & GEO Manager

Patrick ist dein erster Ansprechpartner für KI-Beratung, Workshops und Implementierung. Er hört zu, fragt nach — und sortiert für dich, was wirklich Hebel hat.

30 Min · kostenfrei · unverbindlich

30 Min buchen