Was ist Audio-Transkription?
Audio-Transkription wandelt gesprochene Sprache in geschriebenen Text um. Im Mittelstand wird das vor allem für Meeting-Protokolle, Kundengespräche, Interviews und Diktate eingesetzt. Die Technik ist seit OpenAIs Whisper-Modell (2022) auf einem Niveau, auf dem sie für viele Anwendungen produktiv nutzbar ist — vorher war “Spracherkennung” eher mühselig.
Wir unterscheiden zwei Hauptpfade:
- Cloud-APIs — OpenAI Whisper, Deepgram, AssemblyAI. Schnell aufgesetzt, günstig pro Minute, aber Daten verlassen das Haus.
- Self-hosted — Whisper.cpp, faster-whisper auf eigener Hardware oder einem VPS. Mehr Setup-Aufwand, dafür volle Datenkontrolle.
Wann lohnt sich der Einsatz?
Wenn dein Team mehr als zehn Stunden pro Woche manuell Protokolle schreibt oder Diktate abhört, lohnt es sich. Beispiel Steuerkanzlei: Vier Mandatsgespräche pro Tag à 30 Minuten, manuell zusammenfassen kostet rund 90 Minuten Mitarbeiterzeit. Mit Transkription plus LLM-Zusammenfassung sinkt das auf 15–20 Minuten Review. Das sind ungefähr 25 Stunden pro Monat, bei 35 Euro Stundensatz also 875 Euro — gegen Cloud-Kosten von etwa 30–60 Euro.
Bei sehr geringem Volumen (eine Stunde Audio pro Woche) ist ein bestehendes Tool wie tl;dv oder Otter sinnvoller als ein eigenes Setup.
Typische Use-Cases
- Meeting-Protokolle: Aufnahme via Teams, Zoom oder lokal — Transkript plus strukturierte Zusammenfassung mit Action-Items.
- Kundeninterviews: Saubere Verschriftlichung für CRM-Notizen oder qualitative Auswertungen.
- Arzt- und Anwaltsdiktate: Statt langem Tippen direkt sprechen, Whisper transkribiert, Mitarbeiter prüft.
- Podcast- und Webinar-Verschriftung: Für SEO-relevante Textversionen oder Untertitel.
- Verkaufsgespräche-Auswertung: Kombiniert mit LLM lassen sich Einwände, häufige Fragen und Trainingspotenziale identifizieren.
Worauf achten
Audioqualität schlägt Modell. Ein gutes Lavalier-Mikrofon für 80 Euro pro Sprecher bringt mehr als jedes Premium-Modell. Whisper kann Hintergrundlärm filtern, aber kein verzerrtes Konferenz-Audio retten.
Fachvokabular vorbereiten. Whisper unterstützt einen “Initial Prompt” — eine Liste mit Eigennamen, Produkten und Fachbegriffen, die der Erkennung als Hinweis dient. Das verbessert die Quote bei firmenspezifischem Vokabular spürbar.
Korrektur einplanen. Auch bei 95 Prozent Genauigkeit fehlen pro Stunde mehrere hundert Wörter. Für rechtsverbindliche Dokumente ist menschliche Nachkorrektur Pflicht. Wir setzen auf “Vier-Augen-Prinzip” — Transkript wird einmal vom Tool, einmal vom Menschen gegengelesen.
DSGVO und Mitarbeiter-Rechte
Die zwei häufigsten Fallstricke: heimliche Aufnahmen und unklare Aufbewahrung. Heimliche Aufnahmen sind in Deutschland strafbar (§ 201 StGB). Bei Mitarbeitergesprächen oder Bewerbungsgesprächen muss vorab informiert werden. Eine Betriebsvereinbarung schafft Klarheit und schützt beide Seiten.
Aufbewahrungsfristen: Audio-Originale sollten nach Erstellung des Transkripts gelöscht werden, wenn keine rechtliche Pflicht zur Aufbewahrung besteht. Transkripte selbst unterliegen den normalen Fristen für Geschäftsdokumente.
Self-hosted auf eigener Hardware oder VPS
Für sensible Inhalte raten wir zu lokaler Verarbeitung. Whisper.cpp läuft auf normaler Server-Hardware. Für gelegentliche Batch-Verarbeitung — sagen wir 20 Stunden Audio pro Monat — reicht ein kleiner VPS. Wir testen das regelmäßig auf Hostinger-VPS-Maschinen mit 8 vCPUs und 16 GB RAM.
Empfehlung Hosting: Für eigene Whisper-Setups nutzen wir bei kleineren Volumen gern Hostinger VPS (Affiliate-Link · du zahlst nichts extra). Günstig, deutsches Rechenzentrum, ausreichend für Whisper Large-v3 als Batch-Worker. Für Echtzeit-Transkription oder hohe Volumen brauchst du eine GPU-Instanz — die gibt es bei Hostinger nicht, da empfehlen wir Hetzner GPU Cloud oder eigene Hardware.
Wie wir helfen
Wir starten mit einer kleinen Pilot-Pipeline: Eine typische Aufnahme (Meeting, Mandat, Diktat) wird durch beide Wege geschickt — Cloud und lokal. Du siehst Qualität, Geschwindigkeit, Kosten direkt nebeneinander. Dann bauen wir die Variante, die für deinen Fall passt — inklusive Anbindung an Slack, Notion, Confluence, dein CRM oder dein Praxis-/Kanzlei-System.
