In ChatGPT ist ein neues Sprachmodell aufgetaucht: GPT-Bidi-1. Entdeckt durch Code-Sichtungen und App-Leaks, nicht durch eine offizielle Ankündigung. Das "Bidi" steht für bidirektional — und beschreibt die zentrale Neuerung: Das Modell kann gleichzeitig zuhören und sprechen. Wer die Berichterstattung auf Die KI Woche verfolgt, kennt dieses Konzept bereits: Thinking Machines Lab von Mira Murati hatte genau das vor sechs Wochen als Erste vorgestellt.

Schluss mit dem Walkie-Talkie-Prinzip

Der heutige Advanced Voice Mode in ChatGPT funktioniert nach dem Walkie-Talkie-Prinzip: Der Nutzer spricht, das Modell hört zu, verarbeitet, antwortet. Während der Antwort ist es taub für neue Eingaben. Unterbricht man, bricht es ab und startet neu.

Bidi 1 soll das ändern. Laut den von TestingCatalog dokumentierten Tests kann das Modell Zwischenrufe, Korrekturen und Bestätigungen wie "okay" oder "mhm" im Redefluss verarbeiten — ohne zu stocken, ohne neu anzusetzen. Es kann Aufgaben mitten im Satz anpassen, etwa eine Zählrichtung umkehren, wenn der Nutzer eingreift. Genau die Micro-Turn-Architektur, die Thinking Machines Lab mit ihrem TML-Interaction-Small als Erstes demonstriert hatte.

Drei Geschwindigkeitsstufen und Echtzeit-Übersetzung

Bidi 1 soll in drei Stufen verfügbar sein: High für komplexes Reasoning, Medium für ausgewogene Gespräche und Instant für minimale Latenz. In der ChatGPT-Oberfläche erscheint das Modell mit einer gelben Sprechblase als neuem visuellen Unterscheider neben dem bestehenden Advanced Voice Mode.

Besonders bemerkenswert: Bidi 1 soll Echtzeit-Übersetzung beherrschen — eine Fähigkeit, die auch bei Thinking Machines' Interaction Models als Kerndemonstration diente. Zusätzlich soll das Modell auch in Codex, OpenAIs Coding-Agenten, integriert werden.

Von der Premiere zum Standard

Als wir am 11. Mai Thinking Machines' Interaction Models vorstellten, schrieben wir, dass bidirektionale Sprach-KI ein eigenständiger Entwicklungspfad neben autonomen Agenten werden würde. Sechs Wochen später bestätigt OpenAIs Bidi 1 diese Einschätzung. Der Vorsprung von Thinking Machines Lab war real — aber er war kurz. Bidirektionales Sprechen wird zur Standardfähigkeit, die jedes große KI-Labor implementieren wird.

Das ändert nichts an Muratis Verdienst: Thinking Machines hat die Architektur definiert und die Benchmarks gesetzt. Aber es zeigt einmal mehr, dass im KI-Markt kein Feature-Vorsprung von Dauer ist. OpenAI hat die Idee aufgegriffen und bringt sie dorthin, wo sie Millionen von Nutzern erreicht — direkt in ChatGPT.

🎯 Was das für die Praxis bedeutet

1. Voice-Workflows neu bewerten: Wer ChatGPTs Voice-Modus bisher wegen des Walkie-Talkie-Prinzips gemieden hat, sollte Bidi 1 beim Rollout sofort testen. Natürliche Unterbrechungen verändern die Nutzbarkeit grundlegend.

2. Echtzeit-Übersetzung einplanen: Die API-Verfügbarkeit von Bidi 1 könnte Live-Übersetzung in Meetings, Kundengespräche und Support-Interaktionen bringen — ohne dedizierte Dolmetscher-Software.

3. Noch keine offizielle Ankündigung: Bidi 1 ist durch Code-Sichtungen bekannt, nicht durch OpenAI selbst. Finaler Name, Features und Zeitplan können sich noch ändern. Wer darauf aufbauende Produkte plant, sollte die offizielle Ankündigung abwarten.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
@testingcatalog auf X ↗ @testingcatalog auf X ↗
Teilen: