Design & Multimedia

VibeVoice: Microsofts Open-Source-Stimme kann 90 Minuten am Stück sprechen

Voice Cloning aus 10 Sekunden, Echtzeit-TTS mit 300ms Latenz, Spracherkennung für 60-Minuten-Aufnahmen — alles unter MIT-Lizenz auf GitHub mit 26.000 Stars.

Mira · 29. März 2026 · 3 Min. Lesezeit

Microsoft hat mit VibeVoice eine komplette Familie von Voice-AI-Modellen unter MIT-Lizenz veröffentlicht - und damit eines der leistungsfähigsten Open-Source-Sprachsysteme der Welt geschaffen. Das Paket umfasst Text-to-Speech, Echtzeit-TTS und Spracherkennung in einem einzigen Framework, das auf GitHub bereits 26.300 Stars gesammelt hat.

Der Funktionsumfang ist beeindruckend: Voice Cloning aus 10 Sekunden Audio, bis zu 90 Minuten durchgängige Sprachsynthese, bis zu 4 verschiedene Sprecher in einem einzigen Durchlauf, und Spracherkennung für 60-Minuten-Aufnahmen mit automatischer Sprecherzuordnung und Zeitstempeln.

Drei Modelle, ein Framework

VibeVoice besteht aus drei spezialisierten Modellen:

VibeVoice-TTS (1,5B Parameter): Generiert bis zu 90 Minuten kontinuierliche Sprache mit bis zu 4 verschiedenen Sprechern. Unterstützt natürliche Gesprächsdynamik, emotionale Nuancen und sogar spontanes Singen.
VibeVoice-Realtime (0,5B Parameter): Optimiert für Echtzeitanwendungen mit 300 Millisekunden Latenz und Streaming-Text-Input. Unterstützt 9 Sprachen inklusive Deutsch.
VibeVoice-ASR: Unified Speech-to-Text mit bis zu 60 Minuten Single-Pass-Verarbeitung. Erzeugt strukturierte Transkripte mit Sprecher-Identifikation (Wer), Zeitstempeln (Wann) und Inhalt (Was). Unterstützt über 50 Sprachen und benutzerdefinierte Hotwords.

Next-Token-Diffusion bei 7,5 Hz

Die technische Innovation liegt in den kontinuierlichen Speech-Tokenizern, die bei einer ultraeffizienten Frame-Rate von nur 7,5 Hz arbeiten. Ein Large Language Model (Qwen 2.5 1.5B) versteht den Textkontext und steuert den Dialogfluss, während ein Diffusion-Head die akustischen Details erzeugt. Dieses Hybrid-Design aus Sprachmodell und Diffusion - Next-Token-Diffusion genannt - ermöglicht eine Qualität, die bisherige Open-Source-TTS-Systeme deutlich übertrifft.

Der Elefant im Raum: Deepfake-Potenzial

Microsoft selbst adressiert das Missbrauchspotenzial offen: Die TTS-Komponente wurde im September 2025 zunächst entfernt, nachdem sie für die Erstellung überzeugender Fake-Audio missbraucht worden war. Die Wiederveröffentlichung erfolgt nun mit dem expliziten Hinweis, dass das Modell „ausschließlich für Forschungs- und Entwicklungszwecke" gedacht ist. Integrierte Watermarks und Safety-Controls sollen den Missbrauch erschweren.

Der Spagat zwischen Open-Source-Transparenz und Missbrauchsprävention wird zur Schlüsselfrage der Voice-AI-Branche - und Microsoft positioniert sich mit VibeVoice bewusst auf der Seite der Offenheit, trotz der bekannten Risiken.

🎯 Was das für die Praxis bedeutet

1. Podcast- und Content-Produktion revolutioniert: 90 Minuten Multi-Speaker-Audio in einem Durchlauf, unter MIT-Lizenz, lokal betreibbar - das senkt die Produktionskosten für gesprochene Inhalte dramatisch.

2. Deutsch wird bei Realtime unterstützt: Das Realtime-Modell unterstützt Deutsch von Anfang an - ideal für deutschsprachige Voice Agents im Kundenservice oder für barrierefreie Anwendungen.

3. ASR ersetzt teure Transkriptionsdienste: 60 Minuten Transkription mit Sprechererkennung in einem Pass - wer bisher für Rev.com oder Otter.ai bezahlt, hat jetzt eine kostenlose Alternative.

4. Verantwortungsvoller Einsatz ist Pflicht: Voice Cloning aus 10 Sekunden Audio ist mächtig - und gefährlich. Unternehmen müssen interne Richtlinien etablieren, bevor sie diese Technologie einsetzen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

GitHub ↗ @heynavtoor auf X ↗ Hugging Face ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Markus M. Kirchmair

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

VibeVoice: Microsofts Open-Source-Stimme kann 90 Minuten am Stück sprechen

Drei Modelle, ein Framework

Next-Token-Diffusion bei 7,5 Hz

Der Elefant im Raum: Deepfake-Potenzial

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

VibeVoice: Microsofts Open-Source-Stimme kann 90 Minuten am Stück sprechen

Drei Modelle, ein Framework

Next-Token-Diffusion bei 7,5 Hz

Der Elefant im Raum: Deepfake-Potenzial

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Voxtral TTS: Mistral drängt mit Open-Source-Stimmmodell in den Voice-Markt

Suno v5.5: Mit der eigenen Stimme Songs erzeugen

Googles Videogenerator schwächelt bei Physik: Seedance 2.0 bleibt überlegen

Fehler melden

Die KI Woche als App