Anthropic hat am Mittwoch Claude Opus 4.8 veröffentlicht - nur 41 Tage nach dem Vorgänger Opus 4.7. Gleichzeitig startet ein komplett neues Feature namens Dynamic Workflows in Claude Code, und sämtliche Nutzungslimits für Bezahltarife wurden zurückgesetzt. Drei Ankündigungen auf einen Schlag, die zeigen: Das Unternehmen steht unter Zugzwang - und will ihn in einen Vorsprung verwandeln.
Opus 4.8: Bessere Urteile, längere Ausdauer
Das neue Topmodell baut laut Anthropic auf drei Verbesserungen auf: schärferes Urteilsvermögen, ehrlichere Einschätzung des eigenen Fortschritts und die Fähigkeit, deutlich länger eigenständig zu arbeiten als alle Vorgänger. Der Preis bleibt identisch.
Die Benchmark-Ergebnisse zeigen ein klares Bild: In agentischem Coding (SWE-Bench Pro) klettert Opus 4.8 auf 69,2 Prozent - gegenüber 64,3 Prozent beim Vorgänger und 58,6 Prozent bei GPT-5.5. Im multidisziplinären Reasoning (Humanity's Last Exam mit Tools) erreicht das Modell 57,9 Prozent, beim Wissensarbeits-Benchmark GDPval-AA springt der Score von 1.753 auf 1.890. Einzig bei Terminal-Bench 2.1 liegt OpenAIs GPT-5.5 mit 78,2 Prozent noch vorn, Opus 4.8 kommt dort auf 74,6 Prozent.
Drittanbieter-Benchmarks bestätigen den Sprung
Die Community-Reaktionen fielen ungewöhnlich eindeutig aus. Mercor testete Opus 4.8 auf dem eigenen APEX-SWE-Benchmark vorab und vermeldete: Platz 1 mit 45,3 Prozent Pass@1 - fast vier Punkte vor GPT-5.3 Codex (41,5 Prozent). Drei Anthropic-Modelle stehen dort jetzt gleichzeitig in den Top 5.
Dan Shipper von Every hatte eine Woche Vorabzugang und fasst zusammen: „Sie hätten es auch Opus 5 nennen können - so gut ist es." Auf ihrem internen Senior-Engineer-Bench schlage Opus 4.8 GPT-5.5 deutlich. Auch Ethan Mollick zeigte sich beeindruckt und ließ Opus 4.8 einen komplexen neogotischen Ozean-Shader in einem einzigen Prompt schreiben - komplett mathematisch generiert, ohne Assets.
Reasoning-Effizienz: Mehr Leistung pro Token
Besonders interessant ist ein Befund, den mehrere Tester unabhängig voneinander berichten: Opus 4.8 scheint pro Reasoning-Token deutlich effizienter zu arbeiten als seine Vorgänger. @scaling01 spricht von einer „GPT-5.2-xhigh-Situation": Opus 4.8 auf der niedrigsten Reasoning-Stufe denke fast so viel wie Opus 4.6 auf der höchsten.
Andon Labs liefert eine ergänzende Beobachtung: Bei „High" statt „Max" Reasoning-Effort schneide Opus 4.8 auf ihren Tests sogar besser ab. Ihre Hypothese: Weniger Reasoning-Tokens bedeuten, dass das Modell seltener an Kontextlimits stößt, weniger komprimieren muss und sich dadurch über lange Verläufe besser erinnert.
@eliebakouch ordnet die Benchmark-Landschaft gegenüber dem kommenden Claude Mythos ein und identifiziert GraphWalks (Long Context) und USAMO (Mathematik) als die größten Verbesserungsfelder von Opus 4.8. Der Vending-Bench-Score sei allerdings „insanely bad" - ein Hinweis darauf, dass nicht alle Aufgabentypen gleichmäßig profitieren.
Visueller Vergleich: 4.7 vs. 4.8 im Canvas
Wer den Unterschied mit eigenen Augen sehen will: @stevibe hat einen direkten Side-by-Side-Vergleich beider Modelle im Canvas-Modus erstellt - der Fortschritt bei der visuellen Code-Generierung ist auf den ersten Blick erkennbar.
Warum so schnell nach Opus 4.7?
Dass das Update so schnell nach Opus 4.7 kommt, dürfte kein Zufall sein. Die Reaktionen auf den Vorgänger waren gemischt, und Googles Gemini 3.5 Flash auf der I/O hatte Anthropic unter Druck gesetzt. Laut TechCrunch soll der Hedgefonds Bridgewater Associates in frühen Tests berichtet haben, dass Opus 4.8 proaktiv Anomalien in Analysedaten erkennt, die dem Vorgänger noch durchgerutscht seien. Die Atempause dürfte kurz bleiben: OpenAI arbeitet Branchengerüchten zufolge an GPT-5.6, das in den kommenden Wochen nachziehen soll.
Dynamic Workflows: Hunderte Agenten gleichzeitig
Das eigentliche Highlight des Tages ist aber weniger das Modell-Update als ein neuer Arbeitsmodus für Claude Code: Dynamic Workflows. Claude schreibt dabei selbstständig Orchestrierungsskripte, die zehn bis über hundert parallele Subagenten in einer einzigen Session starten. Jede Teilaufgabe wird unabhängig bearbeitet, von Gegenagenten geprüft - und erst wenn die Ergebnisse konvergieren, landen sie beim Nutzer.
Die Einsatzszenarien, die Anthropic beschreibt, zielen auf Aufgaben, die bisher Wochen dauerten:
- Codebase-weite Bug-Hunts und Security-Audits: Claude durchsucht ein Repository parallel und verifiziert jeden Fund unabhängig, bevor ein Bericht erstellt wird.
- Große Migrationen: Framework-Wechsel, API-Deprecations oder Sprachportierungen, die Tausende von Dateien betreffen.
- Kritische Arbeit mit Gegenprüfung: Bei hohen Fehlerkosten lässt Claude mehrere unabhängige Lösungsversuche gegeneinander antreten.
Als Showcase präsentiert Anthropic einen bemerkenswerten Fall: Jarred Sumner, der Entwickler hinter dem JavaScript-Runtime Bun, habe Dynamic Workflows genutzt, um die gesamte Codebasis von Zig nach Rust zu portieren. Das Ergebnis laut Blogpost: rund 750.000 Zeilen Rust-Code, 99,8 Prozent der bestehenden Tests bestanden, elf Tage vom ersten Commit bis zum Merge. Ein einzelner Workflow habe dabei Hunderte Agenten parallel koordiniert, jeweils mit zwei Reviewern pro Datei.
Dynamic Workflows stehen ab sofort als Research Preview in Claude Code CLI, Desktop und der VS-Code-Extension bereit - für Max-, Team- und Enterprise-Tarife (sofern vom Admin freigegeben). Auf Enterprise-Konten ist das Feature standardmäßig deaktiviert. Gestartet werden Workflows entweder per direkter Aufforderung ("Create a workflow") oder über die neue ultracode-Einstellung, die den Effort-Level auf xhigh setzt und Claude selbst entscheiden lässt, wann ein Workflow sinnvoll ist. Unterbrochene Jobs werden automatisch gespeichert und setzen dort fort, wo sie aufgehört haben. Auch über die Claude API, Amazon Bedrock, Vertex AI und Microsoft Foundry ist das Feature nutzbar.
Wichtig: Anthropic warnt ausdrücklich, dass Dynamic Workflows deutlich mehr Tokens verbrauchen als normale Sessions. Das Unternehmen empfiehlt, mit einer überschaubaren Aufgabe zu starten.
Ökosystem: Opus 4.8 breitet sich sofort aus
Innerhalb von Stunden nach der Ankündigung war Opus 4.8 bereits bei Drittanbietern verfügbar. Perplexity machte das Modell für Max-Abonnenten in der Suche und im neuen Computer-Modus zugänglich.
Alle Limits zurückgesetzt
Passend zum Launch hat Anthropic alle Nutzungslimits für Bezahltarife zurückgesetzt. Bereits Anfang Mai wurden die 5-Stunden-Limits für Pro, Max, Team und Enterprise permanent verdoppelt und die Drosselung zu Stoßzeiten abgeschafft. Mitte Mai folgte eine weitere Erhöhung der Wochen-Limits um 50 Prozent, befristet bis Mitte Juli. Jetzt kam ein globaler Reset aller Zähler hinzu - vermutlich auch als Einladung, Dynamic Workflows direkt auszuprobieren.
🎯 Was das für die Praxis bedeutet
1. Dynamic Workflows testen: Wer Claude Code bereits nutzt, sollte die neue ultracode-Einstellung mit einer konkreten Migration oder einem Audit ausprobieren. Der Produktivitätsgewinn bei strukturierten Großaufgaben kann erheblich sein.
2. Reasoning-Stufe bewusst wählen: Die Berichte mehrerer Tester deuten darauf hin, dass „High" statt „Max" bei längeren Aufgaben bessere Ergebnisse liefern kann, weil das Modell weniger Kontext komprimieren muss. Es lohnt sich, bei komplexen Workflows mit verschiedenen Effort-Stufen zu experimentieren.
3. Token-Budget einplanen: Dynamic Workflows verbrauchen ein Vielfaches normaler Sessions. Vor dem ersten Einsatz das erwartete Volumen abschätzen, besonders bei API-Nutzung mit Kostenlimits.
4. Modell-Updates aktiv verfolgen: 41 Tage zwischen zwei Hauptversionen zeigt das Tempo. Wer Opus 4.7 noch evaluiert, kann direkt auf 4.8 springen - der Preis bleibt gleich, die Verbesserungen sind laut unabhängigen Tests substanziell.


