Google hat Gemini 3.1 Flash Live vorgestellt — ein KI-Modell, das speziell für Echtzeit-Sprach- und Videointeraktionen mit minimaler Latenz optimiert ist. Die Ankündigung markiert einen spürbaren Fortschritt bei der Frage, wie flüssig und natürlich sich KI-Gespräche anfühlen können, wie Google im offiziellen Blog erklärt.

Was Flash Live anders macht

Das Modell versteht nicht nur, was gesagt wird, sondern auch wie: Tonhöhe, Sprechtempo und emotionale Zustände wie Frustration oder Verwirrung werden erkannt und bei der Antwort berücksichtigt. Das Ergebnis sollen natürlichere Dialoge sein — weit entfernt vom monotonen Frage-Antwort-Schema bisheriger Sprachassistenten.

Die Benchmark-Ergebnisse untermauern den Anspruch: Bei ComplexFuncBench Audio erreicht das Modell 90,8 Prozent, beim Big Bench Audio-Test sogar 95,9 Prozent im sogenannten Thinking-Modus. Beim Audio MultiChallenge übertrifft es Konkurrenzmodelle wie GPT-Realtime mit 36,1 Prozent.

Preise und Verfügbarkeit

Gemini 3.1 Flash Live ist ab sofort als Preview über die Gemini Live API in Google AI Studio sowie über Gemini Enterprise und Consumer Search Live verfügbar. Die Preise im Preview-Tier: Audio-Input kostet rund 0,5 Cent pro Minute, Audio-Output etwa 1,25 Cent pro Minute — Größenordnungen, die den Einsatz in Geschäftsanwendungen realistisch machen.

Auswirkungen auf den Arbeitsmarkt

In der Branche sorgt vor allem die Kombination aus niedriger Latenz und Sprachvielfalt für Aufmerksamkeit. Das Modell unterstützt über 90 Sprachen, wie auf X diskutiert wird. Analysten sehen besonders telefonbasierte Tätigkeiten unter Druck — Rezeptionen, Tier-1-Support und einfache Beratungsgespräche könnten zu den ersten Bereichen gehören, in denen KI-Sprachagenten menschliche Mitarbeiter in der Breite ersetzen.

🎯 Was das für die Praxis bedeutet

1. Sprachagenten werden produktionstauglich: Sub-Sekunden-Latenz und emotionales Verständnis heben KI-Telefonate auf ein neues Qualitätsniveau — erste Pilotprojekte im Kundenservice lohnen sich jetzt.

2. Preismodell macht Experimente günstig: Bei rund 0,5 Cent pro Minute Audio-Input können Unternehmen Sprachagenten ohne großes Risiko testen.

3. Multilinguale Skalierung: 90+ Sprachen ab Werk bedeuten, dass ein einziger Agent internationale Support-Teams ergänzen oder ersetzen kann.

4. Video-Verständnis in Echtzeit: Flash Live verarbeitet auch Videostreams — das öffnet Anwendungen von Qualitätskontrolle in der Fertigung bis zur Telemedizin.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
Google Blog ↗ Gemini Live API Docs ↗ @the_smart_ape auf X ↗ @GoogleAIStudio auf X ↗
Teilen: