Klingt der Voice Agent wirklich wie ein Mensch?

Mittlerweile ja — moderne Modelle (ElevenLabs, OpenAI Realtime, Cartesia) erreichen bei deutschen Stimmen ein Niveau, das in den ersten zwei, drei Sätzen schwer zu unterscheiden ist. Bei längeren Gesprächen, Rückfragen oder ungewöhnlichen Anliegen fällt der Unterschied trotzdem auf. Wir empfehlen, gleich zu Beginn transparent zu machen, dass eine KI dran ist — das ist seit dem AI Act ohnehin Pflicht für Voice Agents.

Was kostet ein Voice Agent realistisch?

Die Software-Kosten liegen typisch bei 0,15 bis 0,40 Euro pro Gesprächsminute (TTS + STT + LLM + Telefonie). Bei 500 Anrufen à 3 Minuten sind das ungefähr 225–600 Euro pro Monat reine Plattformkosten. Hinzu kommen einmalige Setup-Kosten — bei uns 4.000–12.000 Euro je nach Komplexität (CRM-Anbindung, Eskalationspfade, Tests).

Was passiert, wenn der Agent eine Frage nicht versteht?

Sauber gebaut: Eskalation an einen Menschen — entweder direkte Weiterleitung in der Telefonanlage oder Rückrufticket. Wir definieren mit dir Confidence-Schwellen, ab wann der Agent nicht mehr selbst antwortet, sondern übergibt. Das ist wichtig: Ein Voice Agent, der mit halbem Wissen antwortet, schadet mehr als er nützt.

Ist das DSGVO-konform?

Bedingt. Cloud-Lösungen (OpenAI, ElevenLabs) verarbeiten in den USA — du brauchst Standardvertragsklauseln und musst die Anrufer transparent informieren. Für sensible Branchen (Arzt, Anwalt, Behörde) bauen wir auf europäische Anbieter (z.B. Mistral + Cartesia EU) oder rein lokale Stacks. Aufgenommen werden sollte nur, was wirklich nötig ist — kein pauschales Mitschneiden.

Wie lang dauert die Implementierung?

Ein Standard-Setup mit Terminbuchung und FAQ-Beantwortung: 3–5 Wochen. Mit CRM-Anbindung und custom Eskalationsregeln: 6–10 Wochen. Wir empfehlen einen Pilot mit einem klar abgegrenzten Use-Case, statt gleich den ganzen Telefonservice zu ersetzen.

Was, wenn der Agent etwas Falsches sagt?

Halluzinationen sind bei Voice Agents ein reales Risiko. Wir begrenzen das Risiko durch (1) Retrieval Augmented Generation — der Agent darf nur antworten, was in deiner Wissensbasis steht, (2) klare Out-of-Scope-Phrasen für alles andere, (3) regelmäßige Stichproben der Gespräche. Hundert Prozent Sicherheit gibt es nicht — deswegen niemals Agenten in Bereiche schicken, wo Falschauskünfte rechtlich oder finanziell teuer werden.

Voice Agents & KI-Telefonie — KI für Unternehmen

Was sind Voice Agents?

Voice Agents sind KI-Systeme, die Telefongespräche eigenständig führen. Sie hören zu (Speech-to-Text), verstehen Anliegen (Large Language Model), reagieren mit synthetischer Stimme (Text-to-Speech) — alles in nahezu Echtzeit, typischerweise unter zwei Sekunden Latenz. Im Mittelstand werden sie für Terminbuchungen, Erstauskunft, FAQ-Beantwortung und Lead-Qualifizierung eingesetzt.

Wichtig zur Abgrenzung: Wir reden nicht von den klassischen IVR-Menüs (“Drücken Sie die 1 für …”), sondern von freier Konversation. Der Anrufer kann sagen, was er möchte, der Agent versteht den Kontext und antwortet gezielt.

Wann lohnt sich ein Voice Agent?

Die Faustregel: Wenn du mehr als 30 wiederkehrende Anrufe pro Tag hast, die nach einem ähnlichen Muster ablaufen, lohnt sich der Aufwand wirtschaftlich. Bei einer Steuerkanzlei mit 80 Anrufen am Tag — davon 50 Standardfragen (“Ist mein Bescheid da?”, “Termin verschieben”) — ersetzt ein Voice Agent ungefähr eine halbe Vollzeitstelle am Telefon. Bei einem Stundensatz von 35 Euro brutto sind das pro Monat rund 2.800 Euro Personalkosten gegen ungefähr 600–900 Euro Plattformkosten plus Wartung. Die Amortisation der Setup-Kosten liegt bei 4–8 Monaten.

Nicht lohnen tut es sich, wenn deine Anrufe stark individuell sind (Beratungsgespräche, komplexe Beschwerden) oder wenn du nur 5–10 Anrufe pro Tag bekommst — der Pflegeaufwand frisst dann den Gewinn.

Typische Use-Cases im Mittelstand

Terminbuchung in Praxen, Werkstätten, Kanzleien: Anrufer nennt Anliegen, Agent prüft Kalender, schlägt Termin vor, bucht ein.
First-Level-Support: Häufige Fragen zu Öffnungszeiten, Lieferstatus, Rechnungen — Agent antwortet, eskaliert nur Komplexes.
Lead-Qualifizierung im B2B: Inbound-Anrufe werden vorqualifiziert, Discovery-Termin gebucht, Kontaktdaten ins CRM geschrieben.
Notfallrouting außerhalb der Bürozeiten: Agent unterscheidet zwischen “kann warten” und “echter Notfall”, leitet entsprechend weiter.
Outbound-Reminder: Erinnerung an Termine, Rückfrage zur Zufriedenheit nach Service-Einsatz — kürzer und nicht aufdringlich.

Worauf achten — und was wir gelernt haben

Drei Dinge gehen oft schief:

Zu breite Wissensbasis. Wer dem Agent die ganze Website plus 200 PDFs reinkippt, bekommt einen Plapper-Agent, der bei jeder Frage irgendeine Antwort findet — auch wenn sie falsch ist. Besser: kleine, kuratierte Wissensbasis mit eindeutigen Antworten, klare Out-of-Scope-Markierung.

Keine klare Eskalation. Wenn der Agent jede Frage beantworten soll, frustriert er Anrufer mit komplexen Anliegen. Definiere früh, welche Themen er nicht anfasst — und übergibt die sofort an einen Menschen oder ein Rückruf-Ticket.

Stimme und Persönlichkeit unterschätzt. Eine zu freundlich-amerikanische Stimme wirkt im DACH-Kontext oft aufgesetzt. Wir testen Stimmen mit echten Kunden, bevor wir live gehen.

DSGVO und AI Act

Seit dem EU AI Act (geltend seit 2026) ist die Information des Anrufers über die KI-Nutzung Pflicht. Praktisch heißt das: Der Agent stellt sich zu Beginn als KI vor — das ist okay, wenn der Ton stimmt, und es schützt dich rechtlich.

Datenschutzseitig: Cloud-Anbieter wie OpenAI oder ElevenLabs verarbeiten in den USA. Standardvertragsklauseln müssen vorliegen, ein Auftragsverarbeitungsvertrag ebenfalls. Aufnahmen sollten nur erfolgen, wo nötig — und mit klarer Einwilligung. In sensiblen Branchen (Arzt, Anwalt) raten wir zu europäischen Stacks oder lokaler Verarbeitung.

Wie wir helfen

Wir starten mit einer Discovery-Sitzung: Welche Anrufe hast du, welche eignen sich, welche nicht. Dann bauen wir einen Pilot — meist auf Vapi oder Retell als Plattform, manchmal auch self-hosted. Drei bis fünf Wochen, dann läuft der Agent für einen klar abgegrenzten Use-Case parallel zum Team. Erst wenn die Quote stimmt (Auflösungsrate, NPS, Eskalationen), wird ausgebaut.

Wir bauen keine fertigen Voice-Agent-Pakete von der Stange. Was bei einer Tierarztpraxis funktioniert, ist für eine Steuerkanzlei verkehrt. Deswegen: Erstgespräch, Use-Case-Bewertung, dann Angebot.

Voice Agents & KI-Telefonie