Keine 24 Stunden nach dem Launch von Claude Opus 4.8 ist die Entwickler-Community in eine Art kollektiven Rausch verfallen. Der Feed auf X quillt über von Demos, Vergleichen und ungläubigem Staunen. Und diesmal ist es nicht nur Hype.

Shader, Spiele, Flugzeuge - in Minuten statt Stunden

Wharton-Professor Ethan Mollick, der frühen Zugang zum Modell hatte, zeigte eine komplette 3D-Ozean-Szene mit neo-gotischen Türmen - als animierten Shader, in einem einzigen Prompt generiert. Keine Assets, keine Engine: reine Mathematik, die in Echtzeit rendert.

Noch beeindruckender fiel der Test von Victor Mustar, Head of Product bei Hugging Face, aus. Er ließ Opus 4.8 eine Boeing 747 in ThreeJS bauen - mit dem neuen Ultracode-Effort-Level. Das Modell arbeitete 25 Minuten autonom: Es konstruierte die Geometrie, schrieb einen eigenen Screenshot-Rig für neun Kamerawinkel, startete ein Critique-Model für jeden Winkel, debuggte seinen eigenen Code nach einem Crash, fixte einen schwebenden Motor und durchlief sieben Feedback-Loops. Ohne dass ein Mensch eingriff.

Im Game-Development-Bereich häuften sich die Demos. Ein Nutzer baute mit Unity 6 ein Minecraft-artiges Voxel-Spiel in zwei Prompts - der längere Teil war die Installation der Engine, nicht die Entwicklung. Ein anderer generierte ein vollständig spielbares Fußballspiel im Browser mit einem einzigen Satz. Und bei einem direkten Vergleich funktionierten Spieler-Movement und Animationen mit Opus 4.8 im ersten Anlauf, während GPT-5.5 auf höchster Effort-Stufe scheiterte.

Was die Benchmarks sagen - und was sie verschweigen

Die nackten Zahlen klingen zunächst nach einem bescheidenen Update: SWE-bench Verified steigt von 87,6 auf 88,6 Prozent, SWE-bench Pro von 64,3 auf 69,2 Prozent. Bei Terminal-Bench 2.1 landet Opus 4.8 bei 74,6 Prozent - ein großer Sprung gegenüber den 66,1 Prozent des Vorgängers, aber GPT-5.5 liegt hier weiterhin vorn.

Die eigentliche Verbesserung steckt woanders. Laut Anthropic lässt Opus 4.8 viermal weniger Fehler im eigenen Code unbemerkt durch als sein Vorgänger. Und das Modell auf minimaler Effort-Stufe erreicht die Qualität, die bei Opus 4.7 erst mit maximaler Rechenleistung möglich war. Der neue Fast Mode arbeitet 2,5-mal schneller und kostet nur ein Drittel - bei Eingabepreisen von 5 Dollar und Ausgabepreisen von 25 Dollar pro Million Tokens, die Anthropic bewusst nicht erhöht hat.

Simon Willison, einer der angesehensten Stimmen der Entwickler-Szene, fasste es auf seinem Blog zusammen: ein bescheidener, aber greifbarer Fortschritt. Er lobte vor allem die Ehrlichkeit, mit der Anthropic das Modell positioniert - als iterative Verbesserung, nicht als Quantensprung.

Nicht alles Gold: Effizienz bleibt ein Problem

Die Euphorie hat Grenzen. Als ein Tester Opus 4.8 Max gegen Qwen 3.7-Max antreten ließ - mit dem Auftrag, ein macOS-artiges Web-Betriebssystem zu bauen - brauchte Opus fast zwei Stunden und über 66.000 Tokens. Das Ergebnis war visuell schwächer als das der Konkurrenz. Sein Fazit: Das Problem sei nicht die Qualität, sondern die Effizienz.

Auch die Token-Kosten bei autonomen Langzeit-Tasks summieren sich schnell. Mustars Boeing-747-Session mit 25 Minuten autonomem Arbeiten verschlingt bei Pro-Preisen einige Dollar - akzeptabel für Profis, aber nicht für Gelegenheitsnutzer.

Der eigentliche Fortschritt: Selbstkorrektur

Was in der Flut der Demos oft untergeht: Der zentrale Sprung bei Opus 4.8 liegt nicht in der rohen Leistung, sondern in der Fähigkeit, eigene Fehler zu erkennen und zu beheben. Das Modell baut Code, testet ihn, findet einen Bug, korrigiert ihn und wiederholt den Zyklus - sieben Mal hintereinander, wenn nötig. Was vorher ein menschlicher Review-Prozess war, wird zum internen Regelkreis.

Dazu kommt die neue Dynamic-Workflows-Funktion in Claude Code, die Dutzende parallele Subagenten koordinieren kann. Für Entwickler, die an großen Codebasen arbeiten, ändert das den Arbeitsalltag - nicht in der Theorie, sondern ab sofort in der Praxis.

🎯 Was das für die Praxis bedeutet

1. Effort-Levels gezielt nutzen: Der neue Min-Effort-Modus liefert bei Routineaufgaben Opus-4.7-Qualität zum Bruchteil der Kosten. Für komplexe Projekte den Ultracode-Modus testen.

2. Autonome Schleifen einplanen: Opus 4.8 kann Code schreiben, testen und korrigieren - ohne menschliches Eingreifen. Das funktioniert heute bei ThreeJS-Modellen und Unity-Spielen. Morgen bei Produktionscode.

3. Kosten im Blick behalten: Lange autonome Sessions mit dem Max-Modell werden teuer. Für die meisten Anwendungsfälle reicht das Standard-Modell im Fast Mode.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
@emollick auf X ↗ @simonw auf X ↗ @victormustar auf X ↗ @intheworldofai auf X ↗ @TzDev_ auf X ↗
Teilen: