Mit Gemini 3.1 Flash TTS kündigt Google den Rollout eines beeindruckenden neuen Text-to-Speech (TTS) Modells an, das die Sprachgenerierung durch eine nie dagewesene Ausdruckskraft, Qualität und Kontrolle auf das nächste Level hebt. Das leistungsstarke Tool ist nicht nur eine kleine Evolution, sondern ermöglicht Entwicklern und Content-Creatorn völlig neue, interaktive Spracherlebnisse in über 70 verschiedenen Sprachen.

Audio Tags: Regieanweisungen in natürlicher Sprache

Der heimliche Star des Updates sind die neuen "Audio Tags". Anstatt wie bei älteren Modellen auf umständliche Parameter-Einstellungen angewiesen zu sein, können Anwender den Sprachausdruck nun mit nahtlos im Text eingebetteten Befehlen in natürlicher Sprache steuern. Ob das Modell flüstern, eine dramatische Pause einlegen, enthusiastisch oder mit einer speziellen Betonung sprechen soll – die Audio Tags setzen klare Regieanweisungen für die KI-Stimme um.

Native Multi-Speaker-Dialoge und SynthID

Zusätzlich besticht Gemini 3.1 Flash TTS durch erstklassige native Multi-Speaker-Dialoge, die komplexe Unterhaltungen zwischen mehreren KIs verblüffend menschlich klingen lassen. Um dennoch einem Missbrauch durch Voice Cloning oder Deepfakes vorzubeugen, ist jedes von dem Modell erstellte Audio nahtlos und unhörbar mit einem SynthID-Wasserzeichen versehen. Diese Maßnahme verhindert effektiv Fehlinformationen ("Misinformation"), indem sie zuverlässig aufdeckt, dass die Tonspur maschinell generiert wurde. Das System erzielte auf dem unabhängigen Artificial Analysis TTS Leaderboard einen herausragenden Elo-Score von 1.211 und profiliert sich aktuell als eines der attraktivsten KI-Audiosysteme bei der Kombination aus höchster Qualität und Kostenkontrolle.

Wie Sie die neuen Stimmen jetzt testen können:

Gemini 3.1 Flash TTS ist ab sofort im brandneuen "Audio Playground" innerhalb des Google AI Studio, in Vertex AI sowie in Google Vids verfügbar. Entwickler können über die Gemini API direkt darauf zugreifen, um eigene Applikationen mit hochwertiger lokalisierter Sprachausgabe aufzuwerten.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
Google Blog ↗ Logan Kilpatrick auf X ↗
Teilen: