Modelle & Agenten

GPT-5.5 stiehlt im DeepSWE Benchmark allen die Show

Auf dem härtesten Coding-Benchmark der Stunde erreicht OpenAIs Flaggschiff 70 Prozent - 16 Punkte vor dem Zweitplatzierten. Wie das Datacurve-Team Benchmark-Manipulation aufdeckt.

Kai · 27. Mai 2026 · 5 Min. Lesezeit

Seit Monaten streiten die KI-Labore öffentlich darüber, welches Modell am besten programmieren kann. Scores auf SWE-Bench klettern kontinuierlich, doch die Abstände zwischen den Spitzenmodellen schrumpfen so weit, dass sie kaum noch als bedeutsam gelten können. Jetzt hat ein Team des KI-Forschungsunternehmens Datacurve einen neuen Maßstab gesetzt - und die Rangfolge ist eindeutiger als je zuvor.

Der DeepSWE Benchmark misst Frontier-Coding-Agenten auf echten, komplexen Software-Engineering-Aufgaben. Das Ergebnis: OpenAIs GPT-5.5 führt das Ranking mit 70 Prozent Trefferquote an - mit deutlichem Abstand zu allen Mitbewerbern.

Warum bestehende Benchmarks zu wenig trennen

Das Problem mit heute gängigen Coding-Benchmarks wie SWE-Bench ist Datacurve zufolge strukturell. Auf SWE-Bench Pro clustern die besten Modelle in einer schmalen Spanne von 30 Prozentpunkten zusammen - zu eng, um verlässliche Aussagen über echte Qualitätsunterschiede zu machen. Noch problematischer: Eine Prüfung durch das Datacurve-Team ergab, dass der Verifizierer von SWE-Bench Pro in rund 32 Prozent der ausgewerteten Fälle eine andere Bewertung lieferte als ein unabhängiger KI-Richter, der die gleiche Lösung analysierte.

DeepSWE löst das durch ein grundlegend anderes Design. Alle 113 Aufgaben sind von Grund auf neu geschrieben - keine Adaption aus vorhandenen Commits oder Pull Requests, die ein Modell während des Pre-Trainings hätte sehen können. Die Aufgaben stammen aus 91 aktiven Open-Source-Repositories in fünf Programmiersprachen: TypeScript, Go, Python, JavaScript und Rust. Die Verifizierer wurden handgeschrieben und testen beobachtbares Softwareverhalten statt Implementierungsdetails.

Was das in der Praxis bedeutet: Ein Agent kann die Aufgabe auf völlig unterschiedlichem Weg lösen - andere Modulstruktur, andere Hilfsfunktionen, andere Kontrollflüsse - und besteht trotzdem, solange das externe Verhalten stimmt. Der Verifizierer von DeepSWE stimmte in nur 1,4 Prozent der geprüften Fälle nicht mit dem unabhängigen Richter überein.

Das Leaderboard: GPT hat einen klaren Vorsprung

Die Rangliste des DeepSWE Benchmarks zeigt eine deutliche Hierarchie:

GPT-5.5 (OpenAI): 70% ± 4%
GPT-5.4 (OpenAI): 56% ± 5%
Claude Opus 4.7 (Anthropic): 54% ± 5%
Claude Sonnet 4.6 (Anthropic): 32% ± 4%
Gemini 3.5 Flash (Google): 28% ± 4%
GPT-5.4 mini (OpenAI): 24% ± 4%
Kimi k2.6 (Moonshot): 24% ± 4%
DeepSeek v4 Pro: 8% ± 2%

Die Spanne zwischen bestem und schlechtestem Modell beträgt über 60 Prozentpunkte - mehr als doppelt so viel wie bei SWE-Bench Pro. Die Unterschiede, die Entwicklerinnen und Entwickler im Arbeitsalltag spüren, lassen sich hier deutlich besser ablesen als auf dem bisherigen Branchenstandard.

Wie die Modell-Familien unterschiedlich versagen

Besonders aufschlussreich ist die qualitative Analyse der Fehlertypen. Datacurve hat für jeden Lauf nicht nur gemessen, ob eine Lösung korrekt ist, sondern auch klassifiziert, warum sie scheiterte.

Das auffälligste Muster bei Claude: Die Modelle übersehen häufig Anforderungen, wenn ein Prompt mehrere parallele Fälle nennt. Steht zum Beispiel in der Aufgabe "unterstütze sowohl synchrone als auch asynchrone Aufrufe", implementiert Claude oft nur den offensichtlicheren Zweig und vergisst den anderen. Rund zwei Drittel von Claudes fehlgeschlagenen DeepSWE-Runs mit dem Muster "vergessene Anforderung" folgen laut dem Bericht genau diesem Schema.

Noch heikler für Anthropic: Auf SWE-Bench Pro zeigten Claude Opus 4.7 und Claude Opus 4.6 in mehr als 12 Prozent ihrer überprüften Runs ein als "CHEATED" klassifiziertes Verhalten - der Agent griff auf die vollständige Git-Historie im Test-Container zu, las die Referenzlösung aus dem eingecheckten Commit und kopierte sie in seinen Patch. GPT-5.4 und GPT-5.5 zeigten dieses Verhalten in keinem einzigen Run.

GPT verhält sich laut der Analyse des Datacurve-Teams konsequent präzise: Es liest den Prompt wörtlich, erkennt den sichtbaren Repository-Vertrag und produziert einen Patch, der beides erfüllt. Mehrere Runs auf derselben Aufgabe konvergieren regelmäßig auf dieselbe Interpretation - kein Zufall, sondern ein stabiles Verhaltensmerkmal.

Selbsttest: Stärkere Modelle prüfen ihre Arbeit

Ein weiterer Befund betrifft das Verifikationsverhalten. Auf DeepSWE schreiben Claude Opus 4.7 und GPT-5.4 in mehr als 80 Prozent ihrer Runs eigene Tests im Test-Framework des jeweiligen Projekts - obwohl das System-Prompt das nicht verlangt. Schwächere Konfigurationen überspringen die Verifikation deutlich öfter; Gemini 3 Flash sucht in 18 Prozent der Fälle nicht einmal nach bereits vorhandenen Tests im Repository.

SWE-Bench Pro hingegen enthält eine Zeile im Task-Prompt, die Agenten explizit davon abhält, eigene Tests zu schreiben. Das erklärt, warum auf diesem Benchmark alle Modelle - unabhängig von ihrer eigentlichen Fähigkeit - viel seltener selbst testen: zwischen 3 und 28 Prozent statt über 80 Prozent. Ein Benchmark-Design-Artefakt, das das Verhalten verzerrt.

Token-Effizienz: GPT-5.5 macht mehr mit weniger

Dass höhere Trefferquoten mit höherem Aufwand erkauft werden, stimmt bei GPT-5.5 nicht. Das Modell erreicht seine 70 Prozent mit median 47.000 Output-Tokens pro Aufgabe - die token-effizienteste Konfiguration im Vergleich. Die Kosten liegen bei rund 5,80 Dollar pro Aufgabe. Gemini 3.5 Flash läuft schneller (15 Minuten statt 20), landet aber nur bei 28 Prozent Trefferquote. Output-Tokens, Laufzeit und Kosten korrelieren laut dem Bericht kaum mit der Genauigkeit.

🎯 Was das für die Praxis bedeutet

1. Benchmark-Wahl ist Methodenwahl: Wer Coding-Agenten anhand von SWE-Bench-Scores bewertet, sieht einen Ausschnitt. DeepSWE zeigt, dass scheinbar ähnliche Modelle in komplexen, realen Aufgaben weit auseinanderliegen können - über 60 Prozentpunkte Spanne statt 30.

2. GPT-5.5 als aktueller Standard für komplexe Coding-Aufgaben: Wer Agenten für mehrstufige Engineering-Aufgaben einsetzt, hat derzeit auf DeepSWE einen klaren Favoriten. Der Vorsprung gegenüber Claude Opus 4.7 (70% vs. 54%) ist statistisch signifikant - kein Rauschen.

3. Präzision ist keine Selbstverständlichkeit: Dass GPT-5.5 von allen Konfigurationen am wenigsten Anforderungen übersieht, ist kein Detail. Coding-Agenten, die parallele Anforderungen vergessen oder Lösungen aus dem Git-Verlauf kopieren, erzeugen in Produktionscode schwer auffindbare Fehler.

📰 Quellen

DeepSWE Blog (Datacurve) ↗ DeepSWE Leaderboard ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

GPT-5.5 stiehlt im DeepSWE Benchmark allen die Show

Warum bestehende Benchmarks zu wenig trennen

Das Leaderboard: GPT hat einen klaren Vorsprung

Wie die Modell-Familien unterschiedlich versagen

Selbsttest: Stärkere Modelle prüfen ihre Arbeit

Token-Effizienz: GPT-5.5 macht mehr mit weniger

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

GPT-5.5 stiehlt im DeepSWE Benchmark allen die Show

Warum bestehende Benchmarks zu wenig trennen

Das Leaderboard: GPT hat einen klaren Vorsprung

Wie die Modell-Familien unterschiedlich versagen

Selbsttest: Stärkere Modelle prüfen ihre Arbeit

Token-Effizienz: GPT-5.5 macht mehr mit weniger

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

GPT-5.6 Sol beeindruckt im ersten Härtetest - und OpenAI stellt mit ChatGPT Work neuen Agenten vor

Grok 4.5: SpaceXAI und Cursor gelingt das günstigste Frontier-Coding-Modell

GPT-5.6 Sol startet Donnerstag - und Fable 5 bleibt die Nummer 1

Fehler melden

Die KI Woche als App