Modelle & Agenten

Opus 4.8 in der Praxis: Shader, Spiele und eine Boeing 747 ohne menschliches Zutun

Entwickler testen Anthropics neues Topmodell und staunen: autonomes Debugging, sieben Feedback-Loops, spielbare Browser-Games in einem Prompt. Nicht alles ist perfekt.

Kai · 29. Mai 2026 · 6 Min. Lesezeit

Keine 24 Stunden nach dem Launch von Claude Opus 4.8 ist die Entwickler-Community in eine Art kollektiven Rausch verfallen. Der Feed auf X quillt über von Demos, Vergleichen und ungläubigem Staunen. Und diesmal ist es nicht nur Hype.

Shader, Spiele, Flugzeuge - in Minuten statt Stunden

Wharton-Professor Ethan Mollick, der frühen Zugang zum Modell hatte, zeigte eine komplette 3D-Ozean-Szene mit neo-gotischen Türmen - als animierten Shader, in einem einzigen Prompt generiert. Keine Assets, keine Engine: reine Mathematik, die in Echtzeit rendert.

Noch beeindruckender fiel der Test von Victor Mustar, Head of Product bei Hugging Face, aus. Er ließ Opus 4.8 eine Boeing 747 in ThreeJS bauen - mit dem neuen Ultracode-Effort-Level. Das Modell arbeitete 25 Minuten autonom: Es konstruierte die Geometrie, schrieb einen eigenen Screenshot-Rig für neun Kamerawinkel, startete ein Critique-Model für jeden Winkel, debuggte seinen eigenen Code nach einem Crash, fixte einen schwebenden Motor und durchlief sieben Feedback-Loops. Ohne dass ein Mensch eingriff.

Im Game-Development-Bereich häuften sich die Demos. Ein Nutzer baute mit Unity 6 ein Minecraft-artiges Voxel-Spiel in zwei Prompts - der längere Teil war die Installation der Engine, nicht die Entwicklung. Ein anderer generierte ein vollständig spielbares Fußballspiel im Browser mit einem einzigen Satz. Und bei einem direkten Vergleich funktionierten Spieler-Movement und Animationen mit Opus 4.8 im ersten Anlauf, während GPT-5.5 auf höchster Effort-Stufe scheiterte.

Abseits der Spieleentwicklung zeigte adam, dass Opus 4.8 ein neues Frontier-Modell für mechanisches CAD-Design ist. Und shaurya ließ das Modell eine komplette Cartpole-Physik-Simulation samt Reinforcement-Learning-Algorithmus von Grund auf in C++ programmieren — kein Python, kein bestehendes Framework.

Besonders eindrucksvoll war der direkte Versions-Vergleich von OrcDev: Mit identischem „Four Elements" Prompt zeigte sich ein dramatischer Qualitätssprung bei den visuellen Assets von Opus 4.7 über 4.8 bis 4.8 Max.

Om Patel baute eine komplette Motion Gallery mit einem einzigen Prompt und kam zum Schluss: „claude opus 4.8 >>> gpt 5.5". Und Hyperagent testete das Modell gleich an sieben Projekten — vom Mars-Rover-Simulator bis zum Multi-Agent Command Center — und bescheinigte Opus 4.8 mehr Design-Vielfalt, bessere Selbstkorrektur und exzellentes räumliches Denken.

Einen systematischen Vergleich lieferte SimWorld: Vier Coding-Agenten — Claude Code mit Opus 4.7, Codex mit GPT-5.5, Cursor mit Composer 2.5 und OpenCode mit Gemini 2.5 Pro — traten beim Bau einer 3D-Stadtszene in Unreal Engine gegeneinander an.

Was die Benchmarks sagen - und was sie verschweigen

Die nackten Zahlen klingen zunächst nach einem bescheidenen Update: SWE-bench Verified steigt von 87,6 auf 88,6 Prozent, SWE-bench Pro von 64,3 auf 69,2 Prozent. Bei Terminal-Bench 2.1 landet Opus 4.8 bei 74,6 Prozent - ein großer Sprung gegenüber den 66,1 Prozent des Vorgängers, aber GPT-5.5 liegt hier weiterhin vorn.

Die eigentliche Verbesserung steckt woanders. Laut Anthropic lässt Opus 4.8 viermal weniger Fehler im eigenen Code unbemerkt durch als sein Vorgänger. Und das Modell auf minimaler Effort-Stufe erreicht die Qualität, die bei Opus 4.7 erst mit maximaler Rechenleistung möglich war. Der neue Fast Mode arbeitet 2,5-mal schneller und kostet nur ein Drittel - bei Eingabepreisen von 5 Dollar und Ausgabepreisen von 25 Dollar pro Million Tokens, die Anthropic bewusst nicht erhöht hat.

Simon Willison, einer der angesehensten Stimmen der Entwickler-Szene, fasste es auf seinem Blog zusammen: ein bescheidener, aber greifbarer Fortschritt. Er lobte vor allem die Ehrlichkeit, mit der Anthropic das Modell positioniert - als iterative Verbesserung, nicht als Quantensprung.

Nicht alles Gold: Effizienz bleibt ein Problem

Die Euphorie hat Grenzen. Als ein Tester Opus 4.8 Max gegen Qwen 3.7-Max antreten ließ - mit dem Auftrag, ein macOS-artiges Web-Betriebssystem zu bauen - brauchte Opus fast zwei Stunden und über 66.000 Tokens. Das Ergebnis war visuell schwächer als das der Konkurrenz. Sein Fazit: Das Problem sei nicht die Qualität, sondern die Effizienz.

Auch die Token-Kosten bei autonomen Langzeit-Tasks summieren sich schnell. Mustars Boeing-747-Session mit 25 Minuten autonomem Arbeiten verschlingt bei Pro-Preisen einige Dollar - akzeptabel für Profis, aber nicht für Gelegenheitsnutzer.

Der eigentliche Fortschritt: Selbstkorrektur

Was in der Flut der Demos oft untergeht: Der zentrale Sprung bei Opus 4.8 liegt nicht in der rohen Leistung, sondern in der Fähigkeit, eigene Fehler zu erkennen und zu beheben. Das Modell baut Code, testet ihn, findet einen Bug, korrigiert ihn und wiederholt den Zyklus - sieben Mal hintereinander, wenn nötig. Was vorher ein menschlicher Review-Prozess war, wird zum internen Regelkreis.

Dazu kommt die neue Dynamic-Workflows-Funktion in Claude Code, die Dutzende parallele Subagenten koordinieren kann. Für Entwickler, die an großen Codebasen arbeiten, ändert das den Arbeitsalltag - nicht in der Theorie, sondern ab sofort in der Praxis.

🎯 Was das für die Praxis bedeutet

1. Effort-Levels gezielt nutzen: Der neue Min-Effort-Modus liefert bei Routineaufgaben Opus-4.7-Qualität zum Bruchteil der Kosten. Für komplexe Projekte den Ultracode-Modus testen.

2. Autonome Schleifen einplanen: Opus 4.8 kann Code schreiben, testen und korrigieren - ohne menschliches Eingreifen. Das funktioniert heute bei ThreeJS-Modellen und Unity-Spielen. Morgen bei Produktionscode.

3. Kosten im Blick behalten: Lange autonome Sessions mit dem Max-Modell werden teuer. Für die meisten Anwendungsfälle reicht das Standard-Modell im Fast Mode.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

@emollick auf X ↗ @simonw auf X ↗ @victormustar auf X ↗ @intheworldofai auf X ↗ @TzDev_ auf X ↗ @antoniayly auf X ↗ @Conor_D_Dart auf X ↗ @adamdotnew auf X ↗ @shauseth auf X ↗ @orcdev auf X ↗ @om_patel5 auf X ↗ @hyperagentapp auf X ↗ @simworld_ai auf X ↗ @ds_nakajima auf X ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Opus 4.8 in der Praxis: Shader, Spiele und eine Boeing 747 ohne menschliches Zutun

Shader, Spiele, Flugzeuge - in Minuten statt Stunden

Was die Benchmarks sagen - und was sie verschweigen

Nicht alles Gold: Effizienz bleibt ein Problem

Der eigentliche Fortschritt: Selbstkorrektur

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Opus 4.8 in der Praxis: Shader, Spiele und eine Boeing 747 ohne menschliches Zutun

Shader, Spiele, Flugzeuge - in Minuten statt Stunden

Was die Benchmarks sagen - und was sie verschweigen

Nicht alles Gold: Effizienz bleibt ein Problem

Der eigentliche Fortschritt: Selbstkorrektur

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Claude Opus 4.8 und Dynamic Workflows: Anthropic legt nach

Google führt das KI-Rennen wieder an

Project Glasswing: Anthropics KI-Modell findet über 10.000 kritische Schwachstellen

Fehler melden

Die KI Woche als App