OpenAI hat am 5. März 2026 mit GPT-5.4 sein bislang leistungsfähigstes Modell veröffentlicht. Zum ersten Mal laufen Coding, logisches Denken, agentische Workflows und native Computersteuerung in einem einzigen System zusammen. In drei Varianten — GPT-5.4 Thinking in ChatGPT, dem Standard-Modell über die API und GPT-5.4 Pro als Hochleistungsversion — soll es laut OpenAI das „leistungsfähigste und effizienteste Frontier-Modell für professionelle Arbeit" sein.
„Die Wahrscheinlichkeit, dass du deinen eigenen Job besser machst als GPT-5.4, liegt bei eins zu sechs."
— Josh Kale auf X
Die Reaktionen fallen eindeutig aus: Matt Shumer, Gründer von HyperWrite und erfahrener Modell-Tester, nennt GPT-5.4 nach einer Woche Praxistest „das beste Modell der Welt, mit Abstand". Die Coding-Fähigkeiten seien „im Grunde fehlerfrei". Und Dan Shipper von every.to titelt nach eigenen Praxistests: „OpenAI is back."
Computer Use: KI bedient den PC wie ein Mensch
Die wohl wichtigste Neuerung: GPT-5.4 ist das erste allgemeine OpenAI-Modell, das nativ Computer bedienen kann. KI-Agenten steuern über Screenshots, Tastatur und Maus beliebige Websites und Desktop-Anwendungen — ohne zusätzliche Plugins oder Wrapper. The Verge spricht von einem „großen Schritt in Richtung autonomer Agenten".
Auf dem OSWorld-Verified-Benchmark, der die Navigation in Desktop-Umgebungen misst, erreicht GPT-5.4 laut The Decoder 75 Prozent — das sind 28 Prozentpunkte mehr als der Vorgänger GPT-5.2 (47,3 Prozent). Die menschliche Vergleichsgruppe liegt bei 72,4 Prozent. Damit übertrifft ein KI-Modell in diesem Test erstmals den Menschen.
Benchmarks: Durchgehend neue Bestwerte
Die Zahlen ziehen sich durch alle Disziplinen. Auf dem GDPval-Benchmark für professionelle Wissensarbeit — der KI-Agenten in 44 Berufen aus den neun größten Branchen des US-BIP testet — erreicht GPT-5.4 eine Quote von 83 Prozent, bei der es Branchenprofis erreicht oder übertrifft. GPT-5.2 lag noch bei 70,9 Prozent. Beim abstrakten logischen Denken (ARC-AGI-2) springt die Pro-Variante auf 83,3 Prozent — GPT-5.2 Pro kam auf 54,2 Prozent.
Auch in der Mathematik setzt GPT-5.4 neue Maßstäbe. Epoch AI berichtet, dass GPT-5.4 Pro auf dem extrem anspruchsvollen FrontierMath-Benchmark einen neuen Rekord aufgestellt hat: 50 Prozent auf den Schwierigkeitsstufen 1 bis 3, und 38 Prozent auf Stufe 4 — Aufgaben, die selbst erfahrene Mathematiker vor Herausforderungen stellen.
Der Wharton-Professor und KI-Forscher Ethan Mollick hat die GDPval-Daten in eine Effizienzrechnung übersetzt: Bei einer siebenstündigen Aufgabe spart man mit GPT-5.4 im Schnitt 4 Stunden und 38 Minuten — selbst wenn man Fehlerquoten und nötige Prüfzeit einrechnet. In einem separaten Test hat Mollick mit einem einzigen Prompt eine komplexe 3D-Welt im Stil von Piranesi erzeugt — fehlerfrei, inklusive Optimierung.
Coding und Design: Nahezu fehlerfrei
Beim Coding erreicht GPT-5.4 auf dem SWE-Bench Pro 57,7 Prozent und liegt damit über GPT-5.3-Codex (56,8 Prozent). Der eigentliche Vorteil liegt laut OpenAI in der Geschwindigkeit: Ein neuer /fast-Modus in Codex steigert die Token-Geschwindigkeit um das 1,5-Fache, ohne die Modellqualität zu verändern.
Was das in der Praxis heißt, zeigt ein viraler Test: Die Entwicklerin Angaisb ließ GPT-5.4 einen kompletten Minecraft-Klon programmieren — in 24 Minuten und „im Grunde perfekt". Ihr Kommentar: „Minecraft ist gelöst. Ich brauche einen neuen Test." Auch bei der Design Arena, einem Wettbewerbs-Ranking für UI-Generierung, ist GPT-5.4 gegenüber dem Vorgänger um neun Plätze nach oben gesprungen.
Weniger Halluzinationen, mehr Transparenz
OpenAI gibt an, dass einzelne Behauptungen von GPT-5.4 um 33 Prozent seltener falsch sein sollen als bei GPT-5.2. Vollständige Antworten sollen 18 Prozent weniger Fehler enthalten. Wie Caschy's Blog berichtet, erstellt das Modell bei umfangreicheren Anfragen vorab einen sichtbaren Plan seiner Gedankengänge. Nutzer können während der Textgenerierung eingreifen und die Richtung korrigieren, ohne einen neuen Prompt formulieren zu müssen.
Auch die Websuche hat nachgelegt: Auf dem BrowseComp-Benchmark, der die Recherchefähigkeit bei schwer auffindbaren Informationen misst, erreicht GPT-5.4 laut TechCrunch knapp 83 Prozent, die Pro-Version sogar 89 Prozent. GPT-5.2 kam auf 65,8 Prozent.
OpenAI-Forscher Noam Brown, einer der Köpfe hinter den Reasoning-Modellen, schreibt auf X: Man sehe keine Wand, und die KI-Fähigkeiten würden sich 2026 weiter „dramatisch steigern".
Tool Search: Weniger Tokens, gleiche Leistung
Eine der technisch interessantesten Neuerungen betrifft Entwickler. Das neue Tool-Search-System in der API löst ein Grundproblem agentischer Anwendungen: Bisher mussten alle verfügbaren Tool-Definitionen vollständig in den Prompt geladen werden — bei großen Ökosystemen verbrauchte das Tausende zusätzlicher Tokens. GPT-5.4 erhält stattdessen nur eine kompakte Liste und ruft vollständige Definitionen erst bei Bedarf ab. Laut The Decoder reduzierte dieser Ansatz den Token-Verbrauch in Tests um 47 Prozent — bei gleichbleibender Genauigkeit. Das Kontextfenster wächst auf bis zu eine Million Tokens.
Preise, Verfügbarkeit und Sicherheit
GPT-5.4 Thinking ersetzt ab sofort GPT-5.2 Thinking für Plus-, Team- und Pro-Nutzer. Das Vorgängermodell bleibt bis zum 5. Juni 2026 als Legacy-Option wählbar. Die Pro-Variante steht Pro- und Enterprise-Kunden zur Verfügung. Die API-Preise liegen bei 2,50 Dollar pro Million Eingabe-Tokens und 15 Dollar für Ausgabe-Tokens — teurer als der Vorgänger, aber laut every.to nur halb so teuer wie Anthropics Opus 4.6 (5/25 Dollar).
In der Sicherheitsbewertung wird GPT-5.4 Thinking als „High Capability" im Bereich Cybersicherheit eingestuft — das erste allgemeine Reasoning-Modell mit dieser Klassifikation. Laut The Decoder bedeutet „High", dass ein Modell bestehende Hürden für Cyberangriffe beseitigen kann. OpenAI hat ein neues Schutzkonzept mit Echtzeit-Blockern und einem zweistufigen Überwachungssystem implementiert.
🎯 Was das für die Praxis bedeutet
1. Agenten-Workflows aufbauen: Computer Use in einem Allround-Modell macht KI-Agenten erstmals praxistauglich für anwendungsübergreifende Aufgaben — vom automatisierten Testing bis zur Desktop-Recherche.
2. Token-Kosten senken: Das neue Tool-Search-System halbiert den Token-Verbrauch bei vielen Tools. Wer Agenten mit großen Tool-Ökosystemen betreibt, sollte die Migration auf GPT-5.4 zeitnah prüfen.
3. Wissensarbeit systematisch delegieren: Mit 83 Prozent Trefferquote bei professionellen Aufgaben und deutlich weniger Halluzinationen ist die systematische Delegation von Routine-Analysen, Dokumenten und Präsentationen realistisch geworden.
4. GPT-5.2 bis Juni ablösen: Der Vorgänger wird am 5. Juni eingestellt. Workflows, die auf GPT-5.2 aufgebaut sind, sollten zeitnah auf 5.4 umgestellt und getestet werden.