Modelle & Agenten

Gemini 3.1 Flash Live: Googles Echtzeit-KI versteht Emotionen beim Sprechen

Sub-Sekunden-Latenz und über 90 Sprachen — das neue Modell hört nicht nur zu sondern erkennt Frustration und Tonfall. Ab 0,5 Cent pro Minute im Developer-Preview.

Kai · 27. März 2026 · 2 Min. Lesezeit

Google hat Gemini 3.1 Flash Live vorgestellt - ein KI-Modell, das speziell für Echtzeit-Sprach- und Videointeraktionen mit minimaler Latenz optimiert ist. Die Ankündigung markiert einen spürbaren Fortschritt bei der Frage, wie flüssig und natürlich sich KI-Gespräche anfühlen können, wie Google im offiziellen Blog erklärt.

Was Flash Live anders macht

Das Modell versteht nicht nur, was gesagt wird, sondern auch wie: Tonhöhe, Sprechtempo und emotionale Zustände wie Frustration oder Verwirrung werden erkannt und bei der Antwort berücksichtigt. Das Ergebnis sollen natürlichere Dialoge sein - weit entfernt vom monotonen Frage-Antwort-Schema bisheriger Sprachassistenten.

Die Benchmark-Ergebnisse untermauern den Anspruch: Bei ComplexFuncBench Audio erreicht das Modell 90,8 Prozent, beim Big Bench Audio-Test sogar 95,9 Prozent im sogenannten Thinking-Modus. Beim Audio MultiChallenge übertrifft es Konkurrenzmodelle wie GPT-Realtime mit 36,1 Prozent.

Preise und Verfügbarkeit

Gemini 3.1 Flash Live ist ab sofort als Preview über die Gemini Live API in Google AI Studio sowie über Gemini Enterprise und Consumer Search Live verfügbar. Die Preise im Preview-Tier: Audio-Input kostet rund 0,5 Cent pro Minute, Audio-Output etwa 1,25 Cent pro Minute - Größenordnungen, die den Einsatz in Geschäftsanwendungen realistisch machen.

Auswirkungen auf den Arbeitsmarkt

In der Branche sorgt vor allem die Kombination aus niedriger Latenz und Sprachvielfalt für Aufmerksamkeit. Das Modell unterstützt über 90 Sprachen, wie auf X diskutiert wird. Analysten sehen besonders telefonbasierte Tätigkeiten unter Druck - Rezeptionen, Tier-1-Support und einfache Beratungsgespräche könnten zu den ersten Bereichen gehören, in denen KI-Sprachagenten menschliche Mitarbeiter in der Breite ersetzen.

🎯 Was das für die Praxis bedeutet

1. Sprachagenten werden produktionstauglich: Sub-Sekunden-Latenz und emotionales Verständnis heben KI-Telefonate auf ein neues Qualitätsniveau - erste Pilotprojekte im Kundenservice lohnen sich jetzt.

2. Preismodell macht Experimente günstig: Bei rund 0,5 Cent pro Minute Audio-Input können Unternehmen Sprachagenten ohne großes Risiko testen.

3. Multilinguale Skalierung: 90+ Sprachen ab Werk bedeuten, dass ein einziger Agent internationale Support-Teams ergänzen oder ersetzen kann.

4. Video-Verständnis in Echtzeit: Flash Live verarbeitet auch Videostreams - das öffnet Anwendungen von Qualitätskontrolle in der Fertigung bis zur Telemedizin.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

Google Blog ↗ Gemini Live API Docs ↗ @the_smart_ape auf X ↗ @GoogleAIStudio auf X ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Gemini 3.1 Flash Live: Googles Echtzeit-KI versteht Emotionen beim Sprechen

Was Flash Live anders macht

Preise und Verfügbarkeit

Auswirkungen auf den Arbeitsmarkt

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Gemini 3.1 Flash Live: Googles Echtzeit-KI versteht Emotionen beim Sprechen

Was Flash Live anders macht

Preise und Verfügbarkeit

Auswirkungen auf den Arbeitsmarkt

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Vibe Coding XR: Google macht Mixed-Reality-Apps per Sprachbefehl möglich

Google NewFront: Gemini übernimmt die Werbeplattform

GPT-5.6: OpenAI stellt Sol, Terra und Luna vor - unter staatlicher Aufsicht

Fehler melden

Die KI Woche als App