OpenAI hat GPT-5.5 offiziell vorgestellt — und das Modell macht dort weiter, wo die Leaks der letzten Woche aufgehört hatten. Was sich im geleakten Codex-Dropdown nur erahnen ließ, wird nun konkret: GPT-5.5 ist kein klassisches Sprachmodell mehr. Es denkt, plant, nutzt Werkzeuge, überprüft seine eigene Arbeit — und steuert bei Bedarf den gesamten Computer.

OpenAI selbst beschreibt das Modell als „eine neue Klasse von Intelligenz für echte Arbeit". Der Fokus liegt nicht auf besseren Chat-Antworten, sondern darauf, komplexe Aufgaben eigenständig und über mehrere Schritte hinweg abzuarbeiten.

Was GPT-5.5 anders macht

GPT-5.5 kommt in drei Varianten: einer Standard-Version, einer Thinking-Variante (die ihre Denkschritte transparent macht) und einer Pro-Version für maximale Leistung. OpenAI bezeichnet das Modell als nativ omnimodal — es versteht also nicht nur Text, sondern auch Bilder, Audio und Code gleichermaßen, ohne zwischen verschiedenen Modulen umschalten zu müssen.

Die Benchmark-Zahlen sind beeindruckend: In Terminal-Bench 2.0, einem anspruchsvollen Coding-Test, erreicht die Thinking-Variante 82,7 Prozent — gegenüber 75,1 Prozent beim Vorgänger GPT-5.4. Beim Expert-SWE-Benchmark (also dem Test für professionelle Software-Entwicklung) sind es 73,1 Prozent (zuvor 68,5). Besonders die Pro-Variante sticht hervor: Im FrontierMath Tier 4 — Mathematikprobleme auf Forschungsniveau — erreicht sie 39,6 Prozent, ein Bereich, in dem noch vor wenigen Monaten kein Modell zweistellig punkten konnte.

Computer Use: Codex wird zum Piloten

Die vielleicht wichtigste Neuerung betrifft nicht das Modell selbst, sondern seine Integration in Codex. GPT-5.5 kann nun innerhalb der Codex-Umgebung einen vollständigen Browser steuern: Webseiten öffnen, durch Formulare klicken, Screenshots analysieren und auf Basis des Gesehenen weiterarbeiten — in einer Schleife, bis die Aufgabe erledigt ist.

Romain Huet, Head of Developer Experience bei OpenAI, bringt es auf den Punkt: Ein starkes Modell brauche einen starken Arbeitsraum. Codex liefere GPT-5.5 den Kontext, die Werkzeuge und die Überprüfungsschleifen, um aus Reasoning tatsächlich nutzbare Arbeitsergebnisse zu machen.

Damit baut OpenAI die Architektur weiter aus, die sich schon beim Codex-for-Almost-Everything-Update abzeichnete: Codex entwickelt sich von einem Code-Editor zu einer umfassenden KI-Betriebsschicht, die eigenständig Aufgaben in der echten Welt ausführt.

Sicherheit: Die überraschendste Stärke

Ein Aspekt, der in der Ankündigung untergeht, könnte langfristig der wichtigste sein: GPT-5.5 ist bei der Sicherheitsanalyse von Code deutlich besser als seine Vorgänger. Matt Shumer, einer der profiliertesten Early-Tester, berichtet, das Modell habe in seinen Tests Schwachstellen in Codebases gefunden, die weder frühere GPT-Modelle noch Anthropics Opus entdeckt hätten — keine theoretischen Warnungen, sondern echte, relevante Sicherheitslücken.

Wenn ein Modell Sicherheitsprüfungen günstig, wiederholbar und tiefgehend durchführen kann, verändert das die gesamte Praxis: Aus der gelegentlichen Sicherheitsüberprüfung wird ein kontinuierlicher Prozess. Shumer empfiehlt, GPT-5.5 gezielt auf spezifische Problemklassen anzusetzen — etwa Injection-Risiken, Auth-Grenzen oder Dependency-Audits — statt nur pauschal zu fragen, ob der Code sicher sei.

Preise und Verfügbarkeit

GPT-5.5 steht ab sofort in ChatGPT und über die API zur Verfügung. Die Preise positionieren das Modell im Premiumsegment:

  • Thinking: 5 Dollar pro Million Input-Tokens, 30 Dollar pro Million Output-Tokens
  • Pro: 30 Dollar pro Million Input-Tokens, 180 Dollar pro Million Output-Tokens

Zum Vergleich: Das bisherige GPT-5.4-Thinking-Modell kostete 3 Dollar Input und 12 Dollar Output. Die höheren Preise reflektieren die deutlich gestiegene Leistungsfähigkeit — insbesondere die Pro-Variante richtet sich klar an Unternehmen und professionelle Entwickler.

Erster Praxistest: Besser — aber nicht immer spürbar

Die ersten Reaktionen fallen überwiegend positiv aus. VraserX fasst die Stimmung vieler Beobachter zusammen: Das Update fühle sich weniger wie ein normales Modell-Upgrade an und mehr wie OpenAIs Vorstoß in echtes Agenten-Territorium. Aaron Levie, CEO von Box, spricht sogar von einer neuen Phase der KI-Nutzung.

Die differenzierteste Einordnung liefert Matt Shumers ausführlicher Praxistest. Sein Fazit: GPT-5.5 sei ein echtes Upgrade — aber eines, das sich im Alltag paradoxerweise oft nicht dramatisch anfühle, weil die Vorgänger bereits außergewöhnlich stark gewesen seien. Das Modell treffe die gleichen architektonischen Entscheidungen, die ein guter menschlicher Ingenieur treffen würde, und iteriere so lange, bis das Ergebnis funktioniere.

Die eigentliche Stärke liege laut Shumer weniger in einzelnen Rekordwerten als in der Abrundung: Schwachstellen früherer GPT-Modelle — Design-Implementierung, mobile und native App-Entwicklung (vor allem Swift), Sicherheitsanalysen — seien deutlich besser geworden. Das Modell fühle sich insgesamt schneller und token-effizienter an. Selbst niedrigere Thinking-Stufen lieferten jetzt verwertbare Ergebnisse.

Kritik gibt es vor allem an der Pro-Variante: Shumer bemängelt, dass Pro manchmal weniger gründlich arbeite als erhofft — paradox bei einem Modell, für das man gerade mehr Rechenleistung bezahle. Die Textqualität bei kreativem Schreiben sei eine echte Regression: Das Modell produziere häufig zerhackte Ein-Satz-Absätze, die sich nicht wegprompen ließen. Für Frontend-Design aus dem Nichts bleibe Anthropics Claude Opus die erste Wahl — Shumers Empfehlung: Erst mit GPT-Image-2 ein UI-Mockup generieren, dann GPT-5.5 die Implementierung machen lassen.

Gleichzeitig sendet das Release ein Signal an die Konkurrenz: Mit der Kombination aus starkem Reasoning-Modell, autonomer Aufgabenausführung und Computer Use setzt OpenAI die Messlatte für die nächste Generation von KI-Assistenten. Anthropic, Google und die Open-Source-Community werden antworten müssen.

🎯 Was das für die Praxis bedeutet

1. Agenten statt Chatbots: GPT-5.5 markiert den Übergang von KI als Gesprächspartner zu KI als eigenständigem Mitarbeiter. Wer noch rein auf Chat-Interfaces setzt, verpasst den eigentlichen Produktivitätssprung.

2. Sicherheitsprüfungen automatisieren: GPT-5.5 findet echte Schwachstellen, die anderen Modellen entgehen. Wer eine Codebasis betreibt, sollte das Modell gezielt auf Injection-Risiken, Auth-Grenzen und Dependency-Audits ansetzen.

3. Computer Use ausprobieren: Die autonome Browser-Steuerung via Codex ist kein Experiment mehr. Jetzt ist der richtige Zeitpunkt, erste Workflows zu identifizieren, die sich damit automatisieren lassen.

4. Pro kritisch testen: Die Pro-Variante ist leistungsstark, aber bei kreativem Schreiben und Gründlichkeit noch nicht ausgereift. Für analytische und technische Arbeit lohnt sie sich — für Textarbeit bleibt ein Vergleich mit Claude Opus ratsam.

5. Modell-Mix nutzen: Kein einzelnes Modell ist überall das Beste. Die effektivste Strategie ist derzeit ein bewusster Mix: GPT-5.5 für Engineering und Sicherheit, Claude für Frontend-Design, GPT-Image-2 für UI-Mockups als Vorlage.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
OpenAI Blog ↗ OpenAI auf X ↗ OpenAI YouTube ↗ scaling01 auf X ↗ mattshumer_ auf X ↗ euboid auf X ↗ levie auf X ↗ romainhuet auf X ↗ VraserX auf X ↗ Matt Shumer Review ↗
Teilen: