In ChatGPT ist ein neues Sprachmodell aufgetaucht: GPT-Bidi-1. Entdeckt durch Code-Sichtungen und App-Leaks, nicht durch eine offizielle Ankündigung. Das "Bidi" steht für bidirektional — und beschreibt die zentrale Neuerung: Das Modell kann gleichzeitig zuhören und sprechen. Wer die Berichterstattung auf Die KI Woche verfolgt, kennt dieses Konzept bereits: Thinking Machines Lab von Mira Murati hatte genau das vor sechs Wochen als Erste vorgestellt.
Schluss mit dem Walkie-Talkie-Prinzip
Der heutige Advanced Voice Mode in ChatGPT funktioniert nach dem Walkie-Talkie-Prinzip: Der Nutzer spricht, das Modell hört zu, verarbeitet, antwortet. Während der Antwort ist es taub für neue Eingaben. Unterbricht man, bricht es ab und startet neu.
Bidi 1 soll das ändern. Laut den von TestingCatalog dokumentierten Tests kann das Modell Zwischenrufe, Korrekturen und Bestätigungen wie "okay" oder "mhm" im Redefluss verarbeiten — ohne zu stocken, ohne neu anzusetzen. Es kann Aufgaben mitten im Satz anpassen, etwa eine Zählrichtung umkehren, wenn der Nutzer eingreift. Genau die Micro-Turn-Architektur, die Thinking Machines Lab mit ihrem TML-Interaction-Small als Erstes demonstriert hatte.
Drei Geschwindigkeitsstufen und Echtzeit-Übersetzung
Bidi 1 soll in drei Stufen verfügbar sein: High für komplexes Reasoning, Medium für ausgewogene Gespräche und Instant für minimale Latenz. In der ChatGPT-Oberfläche erscheint das Modell mit einer gelben Sprechblase als neuem visuellen Unterscheider neben dem bestehenden Advanced Voice Mode.
Besonders bemerkenswert: Bidi 1 soll Echtzeit-Übersetzung beherrschen — eine Fähigkeit, die auch bei Thinking Machines' Interaction Models als Kerndemonstration diente. Zusätzlich soll das Modell auch in Codex, OpenAIs Coding-Agenten, integriert werden.
Von der Premiere zum Standard
Als wir am 11. Mai Thinking Machines' Interaction Models vorstellten, schrieben wir, dass bidirektionale Sprach-KI ein eigenständiger Entwicklungspfad neben autonomen Agenten werden würde. Sechs Wochen später bestätigt OpenAIs Bidi 1 diese Einschätzung. Der Vorsprung von Thinking Machines Lab war real — aber er war kurz. Bidirektionales Sprechen wird zur Standardfähigkeit, die jedes große KI-Labor implementieren wird.
Das ändert nichts an Muratis Verdienst: Thinking Machines hat die Architektur definiert und die Benchmarks gesetzt. Aber es zeigt einmal mehr, dass im KI-Markt kein Feature-Vorsprung von Dauer ist. OpenAI hat die Idee aufgegriffen und bringt sie dorthin, wo sie Millionen von Nutzern erreicht — direkt in ChatGPT.
🎯 Was das für die Praxis bedeutet
1. Voice-Workflows neu bewerten: Wer ChatGPTs Voice-Modus bisher wegen des Walkie-Talkie-Prinzips gemieden hat, sollte Bidi 1 beim Rollout sofort testen. Natürliche Unterbrechungen verändern die Nutzbarkeit grundlegend.
2. Echtzeit-Übersetzung einplanen: Die API-Verfügbarkeit von Bidi 1 könnte Live-Übersetzung in Meetings, Kundengespräche und Support-Interaktionen bringen — ohne dedizierte Dolmetscher-Software.
3. Noch keine offizielle Ankündigung: Bidi 1 ist durch Code-Sichtungen bekannt, nicht durch OpenAI selbst. Finaler Name, Features und Zeitplan können sich noch ändern. Wer darauf aufbauende Produkte plant, sollte die offizielle Ankündigung abwarten.


