Was sind Voice Agents?
Voice Agents sind KI-Systeme, die Telefongespräche eigenständig führen. Sie hören zu (Speech-to-Text), verstehen Anliegen (Large Language Model), reagieren mit synthetischer Stimme (Text-to-Speech) — alles in nahezu Echtzeit, typischerweise unter zwei Sekunden Latenz. Im Mittelstand werden sie für Terminbuchungen, Erstauskunft, FAQ-Beantwortung und Lead-Qualifizierung eingesetzt.
Wichtig zur Abgrenzung: Wir reden nicht von den klassischen IVR-Menüs (“Drücken Sie die 1 für …”), sondern von freier Konversation. Der Anrufer kann sagen, was er möchte, der Agent versteht den Kontext und antwortet gezielt.
Wann lohnt sich ein Voice Agent?
Die Faustregel: Wenn du mehr als 30 wiederkehrende Anrufe pro Tag hast, die nach einem ähnlichen Muster ablaufen, lohnt sich der Aufwand wirtschaftlich. Bei einer Steuerkanzlei mit 80 Anrufen am Tag — davon 50 Standardfragen (“Ist mein Bescheid da?”, “Termin verschieben”) — ersetzt ein Voice Agent ungefähr eine halbe Vollzeitstelle am Telefon. Bei einem Stundensatz von 35 Euro brutto sind das pro Monat rund 2.800 Euro Personalkosten gegen ungefähr 600–900 Euro Plattformkosten plus Wartung. Die Amortisation der Setup-Kosten liegt bei 4–8 Monaten.
Nicht lohnen tut es sich, wenn deine Anrufe stark individuell sind (Beratungsgespräche, komplexe Beschwerden) oder wenn du nur 5–10 Anrufe pro Tag bekommst — der Pflegeaufwand frisst dann den Gewinn.
Typische Use-Cases im Mittelstand
- Terminbuchung in Praxen, Werkstätten, Kanzleien: Anrufer nennt Anliegen, Agent prüft Kalender, schlägt Termin vor, bucht ein.
- First-Level-Support: Häufige Fragen zu Öffnungszeiten, Lieferstatus, Rechnungen — Agent antwortet, eskaliert nur Komplexes.
- Lead-Qualifizierung im B2B: Inbound-Anrufe werden vorqualifiziert, Discovery-Termin gebucht, Kontaktdaten ins CRM geschrieben.
- Notfallrouting außerhalb der Bürozeiten: Agent unterscheidet zwischen “kann warten” und “echter Notfall”, leitet entsprechend weiter.
- Outbound-Reminder: Erinnerung an Termine, Rückfrage zur Zufriedenheit nach Service-Einsatz — kürzer und nicht aufdringlich.
Worauf achten — und was wir gelernt haben
Drei Dinge gehen oft schief:
Zu breite Wissensbasis. Wer dem Agent die ganze Website plus 200 PDFs reinkippt, bekommt einen Plapper-Agent, der bei jeder Frage irgendeine Antwort findet — auch wenn sie falsch ist. Besser: kleine, kuratierte Wissensbasis mit eindeutigen Antworten, klare Out-of-Scope-Markierung.
Keine klare Eskalation. Wenn der Agent jede Frage beantworten soll, frustriert er Anrufer mit komplexen Anliegen. Definiere früh, welche Themen er nicht anfasst — und übergibt die sofort an einen Menschen oder ein Rückruf-Ticket.
Stimme und Persönlichkeit unterschätzt. Eine zu freundlich-amerikanische Stimme wirkt im DACH-Kontext oft aufgesetzt. Wir testen Stimmen mit echten Kunden, bevor wir live gehen.
DSGVO und AI Act
Seit dem EU AI Act (geltend seit 2026) ist die Information des Anrufers über die KI-Nutzung Pflicht. Praktisch heißt das: Der Agent stellt sich zu Beginn als KI vor — das ist okay, wenn der Ton stimmt, und es schützt dich rechtlich.
Datenschutzseitig: Cloud-Anbieter wie OpenAI oder ElevenLabs verarbeiten in den USA. Standardvertragsklauseln müssen vorliegen, ein Auftragsverarbeitungsvertrag ebenfalls. Aufnahmen sollten nur erfolgen, wo nötig — und mit klarer Einwilligung. In sensiblen Branchen (Arzt, Anwalt) raten wir zu europäischen Stacks oder lokaler Verarbeitung.
Wie wir helfen
Wir starten mit einer Discovery-Sitzung: Welche Anrufe hast du, welche eignen sich, welche nicht. Dann bauen wir einen Pilot — meist auf Vapi oder Retell als Plattform, manchmal auch self-hosted. Drei bis fünf Wochen, dann läuft der Agent für einen klar abgegrenzten Use-Case parallel zum Team. Erst wenn die Quote stimmt (Auflösungsrate, NPS, Eskalationen), wird ausgebaut.
Wir bauen keine fertigen Voice-Agent-Pakete von der Stange. Was bei einer Tierarztpraxis funktioniert, ist für eine Steuerkanzlei verkehrt. Deswegen: Erstgespräch, Use-Case-Bewertung, dann Angebot.
