Ein Entwickler steuert seinen Computer komplett mit Stimme. Keine Tastatur, keine Maus. Er öffnet Anwendungen, navigiert durch Menüs, schreibt Code - alles über natürliche Sprache. Das Projekt heißt Clicky und kombiniert Spracherkennung, KI-Reasoning und Bildschirmanalyse zu einer nahtlosen Schnittstelle. Parallel hat OpenAI mit GPT-Realtime 2.0 Anfang Mai ein API-Modell veröffentlicht, das diese Art der Interaktion auf eine neue technische Grundlage stellt.
Was GPT-Realtime 2.0 anders macht
OpenAI hat GPT-Realtime-2 am 7. Mai 2026 veröffentlicht - nicht als Consumer-Produkt, sondern als API für Entwickler. Das Modell bringt GPT-5-Klasse-Reasoning in einen Echtzeit-Sprachmodus: Es hört zu, denkt nach und handelt in einer durchgehenden Audio-Schleife. Der entscheidende Unterschied zu früheren Sprachassistenten: Ein Kontextfenster von 128.000 Tokens, parallele Tool-Aufrufe und intelligentes Interruption Handling - das Modell verliert den Faden nicht, wenn man es unterbricht.
Dazu kommen zwei Begleitmodelle: GPT-Realtime-Translate für Live-Übersetzung in über 70 Sprachen und GPT-Realtime-Whisper für Streaming-Transkription mit minimaler Latenz. Zusammen bilden sie ein vollständiges Sprach-Stack, das Entwickler in eigene Anwendungen einbauen können.
Sprache als Betriebssystem-Schnittstelle
Was Farzas Demo zeigt, ist nicht einfach Sprachsteuerung im Siri-Sinne. Sein Open-Source-Tool Clicky nutzt Claude für die Intelligenz, AssemblyAI für Echtzeit-Transkription und ElevenLabs für Sprachausgabe - und kombiniert das mit permanenter Bildschirmanalyse. Das Ergebnis: Der Nutzer spricht eine Absicht aus, Clicky liest den Bildschirm per Screenshot, versteht den Kontext und setzt die Aktion um - Klicks, Tastatureingaben, Fensterwechsel.
Die Architektur dahinter wird in der Branche zunehmend als "Thought-to-Action" bezeichnet: Statt einzelne Apps, Menüs und Dateien manuell zu bedienen, formuliert der Nutzer eine Absicht - und das System orchestriert die Ausführung über verschiedene Tools und Kontexte hinweg. Microsoft hat in seiner "2030 Vision" für Windows explizit eine AI-first, Voice-first-Zukunft skizziert, in der Maus und Tastatur sich so anfühlen könnten wie MS-DOS heute.
Warum das jetzt funktioniert
Drei technische Entwicklungen machen diesen Sprung möglich. Erstens: Deutlich reduzierte Latenz. GPT-Realtime-2 zielt auf Antwortzeiten unter 500 Millisekunden - dem Schwellenwert, ab dem sich ein Gespräch natürlich anfühlt. In der Praxis liegen gemessene Werte je nach Reasoning-Stufe zwischen 1 und 2,3 Sekunden, wobei niedrige Reasoning-Einstellungen nah an die Echtzeit-Grenze kommen. Zweitens: Das 128K-Kontextfenster ermöglicht es, den gesamten Zustand einer Arbeitssitzung im Speicher zu halten - offene Dateien, laufende Aufgaben, vorherige Anweisungen. Drittens: Parallele Tool Calls erlauben dem Modell, mehrere Aktionen gleichzeitig auszuführen - während es eine E-Mail diktiert, kann es parallel den Kalender prüfen.
Die Competitive Landscape ist dabei breit aufgestellt: Anthropic bietet mit Claude Computer Use eine eigene Desktop-Steuerung, Google fokussiert sich mit Gemini auf browserbasierte Automation, und OpenAI selbst hat mit Operator und Codex separate Agenten-Werkzeuge im Einsatz. GPT-Realtime-2 ist dabei das Sprachfrontend - der "Mund und die Ohren" des Systems, während die Computer-Use-Agenten die "Hände" sind.
Was noch fehlt
Farzas Demo ist beeindruckend, aber sie zeigt einen optimalen Pfad. In der Praxis stößt reine Sprachsteuerung an Grenzen: Textbearbeitung mit Präzision ("lösche das dritte Wort in Zeile 47") bleibt umständlicher als ein Mausklick. Laute Umgebungen, Akzente und Fachterminologie fordern die Erkennungsgenauigkeit. Und Datenschutzfragen sind ungeklärt - ein Modell, das den Bildschirm permanent liest und Spracheingaben verarbeitet, hat Zugriff auf alles.
Realistischer als das komplette Ersetzen von Tastatur und Maus ist deshalb ein hybrides Modell: Sprache für Navigation, Befehle und Workflows - Tastatur und Maus für Präzisionsarbeit. Die entscheidende Frage ist nicht, ob Sprachsteuerung die alte Eingabe ablöst, sondern wann sie gut genug wird, um die Standardmethode für den Großteil der täglichen Interaktionen zu werden.
🎯 Was das für die Praxis bedeutet
1. Neue Interface-Schicht entsteht: GPT-Realtime-2 ist keine Spielerei - es ist ein produktionsreifes API-Produkt mit GPT-5-Klasse-Reasoning. Entwickler, die Sprach-Interfaces planen, sollten sich dieses Modell jetzt ansehen.
2. Accessibility-Revolution: Für Menschen mit motorischen Einschränkungen verändert Echtzeit-Sprachsteuerung auf diesem Niveau alles. Was bisher spezialisierte, teure Software erforderte, wird zum API-Aufruf.
3. Enterprise-Relevanz: In Umgebungen, in denen Hände beschäftigt sind - Fertigung, Medizin, Logistik - wird Voice-first Computing vom Experiment zum ernsthaften Produktivitätswerkzeug.


