Audio Tags: Regieanweisungen in natürlicher Sprache
Der heimliche Star des Updates sind die neuen "Audio Tags". Anstatt wie bei älteren Modellen auf umständliche Parameter-Einstellungen angewiesen zu sein, können Anwender den Sprachausdruck nun mit nahtlos im Text eingebetteten Befehlen in natürlicher Sprache steuern. Ob das Modell flüstern, eine dramatische Pause einlegen, enthusiastisch oder mit einer speziellen Betonung sprechen soll – die Audio Tags setzen klare Regieanweisungen für die KI-Stimme um.Native Multi-Speaker-Dialoge und SynthID
Zusätzlich besticht Gemini 3.1 Flash TTS durch erstklassige native Multi-Speaker-Dialoge, die komplexe Unterhaltungen zwischen mehreren KIs verblüffend menschlich klingen lassen. Um dennoch einem Missbrauch durch Voice Cloning oder Deepfakes vorzubeugen, ist jedes von dem Modell erstellte Audio nahtlos und unhörbar mit einem SynthID-Wasserzeichen versehen. Diese Maßnahme verhindert effektiv Fehlinformationen ("Misinformation"), indem sie zuverlässig aufdeckt, dass die Tonspur maschinell generiert wurde. Das System erzielte auf dem unabhängigen Artificial Analysis TTS Leaderboard einen herausragenden Elo-Score von 1.211 und profiliert sich aktuell als eines der attraktivsten KI-Audiosysteme bei der Kombination aus höchster Qualität und Kostenkontrolle.Wie Sie die neuen Stimmen jetzt testen können:
Gemini 3.1 Flash TTS ist ab sofort im brandneuen "Audio Playground" innerhalb des Google AI Studio, in Vertex AI sowie in Google Vids verfügbar. Entwickler können über die Gemini API direkt darauf zugreifen, um eigene Applikationen mit hochwertiger lokalisierter Sprachausgabe aufzuwerten.