Modelle & Technologie

METR-Schock: Claude Opus 4.6 sprengt alle Erwartungen

Der Time-Horizon für Software-Aufgaben springt von 5 auf 14,5 Stunden — in nur drei Monaten. Die KI-Community spricht vom Beginn der Singularität.

Kai · 21. Feb 2026 · 4 Min. Lesezeit

Die Organisation METR (Model Evaluation & Threat Research) hat ihre neuesten Benchmark-Ergebnisse veröffentlicht - und sie erschüttern die Branche: Claude Opus 4.6 von Anthropic erreicht einen Time-Horizon von 14,5 Stunden bei Software-Engineering-Aufgaben. Noch im November 2025 lag der Vorgänger Opus 4.5 bei 5 Stunden und 20 Minuten. Eine Verdreifachung in weniger als drei Monaten. Die KI-Community auf X spricht offen vom Beginn der Singularität.

Was METR misst - und warum es alle aufhorchen lässt

Der sogenannte Time-Horizon ist das zentrale Maß von METR: Er erfasst, wie lange eine Aufgabe dauern darf, damit ein KI-Modell sie noch mit einer 50-prozentigen Erfolgsquote bewältigt. Die Aufgaben stammen nicht aus künstlichen Benchmarks, sondern aus realen Software-Engineering-, ML-Forschungs- und Cybersecurity-Szenarien. Die menschliche Vergleichsbasis wird von erfahrenen Entwicklern mit durchschnittlich fünf Jahren Berufserfahrung gesetzt.

Bisher verdoppelte sich der Time-Horizon ungefähr alle sieben Monate - ein exponentielles Tempo, das bereits außergewöhnlich war. Doch der Sprung von Opus 4.5 auf Opus 4.6 durchbricht diese Kurve nach oben. Die Steigerung ist nicht mehr exponentiell. Sie ist hyperbolisch.

Die Zahlen im Kontext

Ein Time-Horizon von 14,5 Stunden bedeutet: Claude Opus 4.6 erledigt autonom Aufgaben, die einem erfahrenen Softwareentwickler fast zwei volle Arbeitstage kosten würden - mit einer Erfolgsquote von 50 Prozent. Zum Vergleich: GPT-4 lag im März 2023 noch bei 3,4 Minuten. In weniger als drei Jahren hat sich die Leistungsfähigkeit um den Faktor 250 gesteigert.

Besonders bemerkenswert ist die Beschleunigung der Beschleunigung: Während der Sprung von GPT-4 zu Claude 3.7 Sonnet (März 2023 bis März 2025) zwei Jahre dauerte, genügten für die letzten Verdreifachungen nur noch wenige Monate.

Die Reaktionen der KI-Community

Auf X überschlugen sich die Kommentare. @scaling01 postete unverblümt: „Welcome to the singularity. AI is taking off." Der KI-Analyst @aidigest_ (Eli Lifland, Mitautor des AI 2027-Szenarios) ordnete ein: Die exponentielle Beschleunigung halte nicht nur an, sie beschleunige sich selbst. METR selbst schreibt in seinem Report: „We haven't seen any evidence of the exponential growth in time horizon slowing down."

Die Implikation ist tiefgreifend: Wenn der aktuelle Trend anhält, werden KI-Modelle bis Mitte 2026 mehrtägige Aufgaben autonom bewältigen können - komplette Feature-Entwicklungen, Sprint-Zyklen, vielleicht ganze Projekte.

Was Anthropic anders macht

Ein Schlüssel zum Vorsprung von Claude Opus 4.6 liegt in Anthropics Fokus auf agentische Fähigkeiten. Während andere Frontier-Labs ihre Modelle primär auf einzelne Prompts optimieren, trainiert Anthropic gezielt auf komplexe, mehrstufige Workflows. Claude arbeitet mit Tools, navigiert Dateisysteme, schreibt und testet Code iterativ und korrigiert eigene Fehler in Schleifen - Fähigkeiten, die den Time-Horizon massiv erhöhen.

Anthropic veröffentlichte zeitgleich eine weitere bemerkenswerte Statistik: Rund 50 Prozent aller agentischen Tool-Aufrufe bei Claude entfallen auf Software-Engineering. Die Organisation dominiert den Bereich, der sich am direktesten in wirtschaftliche Produktivität übersetzt.

📊 Einordnung

Der METR-Report zu Claude Opus 4.6 ist mehr als ein Benchmark-Update - er ist ein Weckruf. Die Daten zeigen unmissverständlich: Die Leistungsfähigkeit von KI-Modellen wächst schneller als das schnellste bisher beobachtete Muster. Wenn sich der Trend auch nur annähernd fortsetzt, stehen wir vor einem fundamentalen Umbruch in der Softwarebranche innerhalb der nächsten 12 bis 18 Monate. Die Frage ist nicht mehr ob, sondern wann KI-Agenten die Mehrheit der Programmieraufgaben übernehmen.

🎯 Was bedeutet das konkret?

Für Entwickler: Wer Claude Opus 4.6 oder vergleichbare Modelle noch nicht als Pair-Programming-Partner einsetzt, verliert bereits den Anschluss. Die Modelle sind nicht mehr nur nützlich für Autocomplete, sondern für komplexe, mehrstündige Entwicklungsaufgaben.
Für Unternehmen: Die Kosten-Nutzen-Kalkulation für Softwareprojekte verschiebt sich dramatisch. Projekte, die bisher Wochen dauerten und Teams erforderten, könnten bald in Stunden von KI-Agenten erledigt werden.
Für die Politik: Die Geschwindigkeit der Entwicklung übersteigt jedes regulatorische Tempo. Governance-Rahmen, die in Jahreszyklen gedacht werden, sind bereits bei Veröffentlichung veraltet.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

METR ↗ AI Digest ↗

METR-Schock: Claude Opus 4.6 sprengt alle Erwartungen

Was METR misst - und warum es alle aufhorchen lässt

Die Zahlen im Kontext

Die Reaktionen der KI-Community

Was Anthropic anders macht

📊 Einordnung

🎯 Was bedeutet das konkret?

Das könnte Sie auch interessieren

Claude Code Security: Anthropic erklärt Software-Audits für obsolet

Gemini 3.1 Pro: Google übernimmt die Benchmark-Krone

State of AI 2026: Die Trends des Jahres

Fehler melden

Die KI Woche als App