Modelle & Technologie

Mira Muratis Thinking Machines: Das erste KI-Modell, das gleichzeitig zuhört, spricht und sieht

OpenAIs Ex-CTO stellt Interaction Models vor - multimodale Echtzeit-KI mit 276 Milliarden Parametern. Dazu eine Gigawatt-Partnerschaft mit NVIDIA.

Kai · 11. May 2026 · 5 Min. Lesezeit

Mira Murati hat bei OpenAI als CTO die Produkte gebaut, die den KI-Boom ausgelöst haben. Jetzt stellt sie mit ihrem eigenen Startup Thinking Machines Lab das erste Modell vor, das nicht mehr wartet, bis der Mensch fertig getippt hat - sondern gleichzeitig zuhört, spricht, sieht und handelt. Dazu kommt eine Milliarden-Partnerschaft mit NVIDIA für Vera-Rubin-Hardware im Gigawatt-Maßstab.

Das Problem: Heutige KI-Interfaces sind Einbahnstraßen

Wer heute mit ChatGPT, Claude oder Gemini arbeitet, kennt das Muster: Man tippt, wartet, liest die Antwort, tippt wieder. Während das Modell antwortet, nimmt es nichts Neues wahr. Während der Mensch schreibt, sitzt das Modell untätig. Anthropic räumt in einer eigenen von Thinking Machines zitierten Modellkarte ein, dass synchrone Nutzung wenig bringe - deshalb setze man lieber auf autonome Agenten, die im Hintergrund arbeiten.

Thinking Machines Lab dreht die Logik um: Nicht der Mensch soll sich der KI anpassen, sondern die KI soll so funktionieren, wie Menschen miteinander reden - mit Zwischenrufen, Blickkontakt und parallelem Denken.

Interaction Models: Was das Modell konkret kann

Das erste Modell heißt TML-Interaction-Small - ein Echtzeit-Sprachmodell mit 276 Milliarden Parametern, von denen 12 Milliarden gleichzeitig aktiv sind (Mixture-of-Experts-Architektur). Die Fähigkeiten im Überblick:

Gleichzeitiges Sprechen: Nutzer und Modell können parallel reden - etwa bei einer Live-Übersetzung vom Spanischen ins Englische.
Kontextabhängige Unterbrechungen: Das Modell erkennt, ob jemand noch nachdenkt, sich korrigiert oder eine Antwort erwartet - ohne externe Dialogsteuerung.
Visuelle Proaktivität: Das Modell reagiert auf das, was es per Kamera sieht, ohne dass der Nutzer etwas sagen muss. Bei einem Test zählte es Liegestütze in Echtzeit.
Zeitbewusstsein: Es weiß, wie viel Zeit vergangen ist - und kann auf Anweisung nach genau vier Sekunden eine Erinnerung aussprechen.
Parallele Werkzeuge: Während des Gesprächs kann das Modell im Hintergrund suchen, Code ausführen oder Oberflächen generieren.

Die Technik: 200-Millisekunden-Häppchen statt Warten

Das Kernprinzip ist einfach: Statt auf einen fertigen Satz zu warten, verarbeitet das Modell alle 200 Millisekunden einen neuen Schnipsel - Audio, Video und Text gleichzeitig. Diese sogenannten Micro-Turns werden fortlaufend verschachtelt. Das Modell erzeugt seine Antwort, noch während es neue Informationen aufnimmt.

Dazu kommt ein zweigeteiltes System: Das Interaction Model bleibt im Gespräch und reagiert sofort. Braucht eine Aufgabe tieferes Nachdenken, wird sie an ein Background Model delegiert, das asynchron arbeitet - und dessen Ergebnisse fließen erst dann zurück, wenn es im Gespräch passt. Das erinnert an die Art, wie ein Assistent parallel recherchiert, während man weiterspricht.

Thinking Machines zitiert dabei ausdrücklich die "Bitter Lesson" von Rich Sutton: Hand-optimierte Systeme verlieren langfristig immer gegen skalierbare Lernansätze. Deshalb soll die Interaktivität nicht nachträglich angeflanscht, sondern direkt ins Modell eingebaut werden - damit sie mit wachsender Rechenleistung automatisch besser wird.

Benchmarks: Kein anderes Modell kann das

Auf dem FD-bench, einem der wenigen Benchmarks für Interaktivität, erreicht TML-Interaction-Small Bestwerte bei Unterbrechungen, Hintergrundgesprächen und Rückkanal-Signalen. Gleichzeitig ist es auf dem Audio MultiChallenge - einem Intelligenz-Benchmark - wettbewerbsfähig mit den besten Turn-basierten Modellen.

Besonders auffällig: Thinking Machines hat drei eigene Benchmark-Kategorien entwickelt, die kein kommerzielles Modell auch nur ansatzweise beherrscht. GPT Realtime, Gemini Live und Qwen Omni schweigen entweder komplett oder geben falsche Antworten, wenn sie proaktiv auf visuelle oder zeitliche Hinweise reagieren sollen.

NVIDIA-Deal: Ein Gigawatt für Thinking Machines

Parallel zur Modell-Vorstellung hat Thinking Machines Lab eine mehrjährige strategische Partnerschaft mit NVIDIA bekannt gegeben. Der Umfang: mindestens ein Gigawatt an Vera-Rubin-Systemen der nächsten Generation, dazu eine direkte Kapitalbeteiligung von NVIDIA am Unternehmen.

Jensen Huang nannte KI laut der Pressemitteilung "das leistungsfähigste Instrument zur Wissensentdeckung in der Menschheitsgeschichte". Murati erklärte, NVIDIAs Technologie sei "das Fundament, auf dem das gesamte Feld aufgebaut ist". Das Deployment auf der Vera-Rubin-Plattform soll Anfang 2027 starten.

Einordnung: Was Murati anders macht

Das KI-Feld hat sich zuletzt stark auf autonome Agenten fokussiert - Programme, die selbstständig arbeiten und erst melden, wenn sie fertig sind. Muratis These ist das Gegenteil: Die meisten Aufgaben in der echten Arbeitswelt lassen sich nicht vollständig im Voraus spezifizieren. Menschen brauchen die Möglichkeit, während der Arbeit zu steuern, zu korrigieren und Feedback zu geben.

Das Modell ist noch nicht öffentlich verfügbar. Thinking Machines plant zunächst eine limitierte Research Preview, ein breiterer Zugang soll später im Jahr folgen. TML-Interaction-Small hat mit 276B Parametern zwar die Größe eines Frontier-Modells, aber die größeren vortrainierten Modelle des Labs seien aktuell noch zu langsam für Echtzeit-Serving.

🎯 Was das für die Praxis bedeutet

1. Echtzeit-Kollaboration beobachten: Interaction Models könnten Meetings, Pair-Programming und Live-Übersetzung grundlegend verändern - wer diese Anwendungsfälle im Unternehmen hat, sollte die Research Preview im Auge behalten.

2. Autonome Agenten nicht als einzige Zukunft sehen: Thinking Machines' Ansatz zeigt, dass die KI-Branche nicht nur in Richtung "Agent macht alles allein" entwickelt. Menschliche Steuerung in Echtzeit wird ein paralleler Entwicklungspfad.

3. Hardware-Investitionen beachten: Ein Gigawatt Vera-Rubin-Kapazität signalisiert, dass Thinking Machines Lab auf Jahre hinaus als ernsthafter Wettbewerber plant - nicht als Forschungsprojekt.

4. Multimodale Interfaces testen: Wer heute Sprach-KI evaluiert, sollte nicht nur Textqualität vergleichen, sondern auch prüfen, wie gut das Modell mit Unterbrechungen, Gleichzeitigkeit und visuellen Eingaben umgeht.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

Thinking Machines Blog ↗ YouTube Demo ↗ Thinking Machines NVIDIA ↗