Modelle & Technologie

METR: Claude Mythos Preview sprengt die Messskala - und Anthropics Risikobericht erntet Kritik

Das KI-Sicherheitsinstitut METR schätzt den Zeithorizont von Mythos Preview auf mindestens 16 Stunden - am Limit der eigenen Testkapazität. Gleichzeitig zerpflückt ein unabhängiger Review die Methodik in Anthropics Risikobewertung.

Kai · 09. May 2026 · 4 Min. Lesezeit

Anthropics Flaggschiff-Modell Claude Mythos Preview ist so leistungsfähig, dass die wichtigste unabhängige Testorganisation der Branche an ihre Messgrenze stößt. Das KI-Sicherheitsforschungsinstitut METR hat eine frühe Version des Modells im März 2026 evaluiert und kommt zu einem bemerkenswerten Ergebnis: Der sogenannte 50-Prozent-Zeithorizont liegt bei mindestens 16 Stunden - am oberen Ende dessen, was die bestehende Aufgabensammlung überhaupt messen kann.

Was der Zeithorizont bedeutet

Der 50-Prozent-Zeithorizont beschreibt die maximale Aufgabendauer, bei der ein KI-Agent noch in der Hälfte aller Versuche erfolgreich ist. Die Referenz ist dabei ein menschlicher Experte mit rund fünf Jahren Berufserfahrung. Wenn METR also 16 Stunden misst, heißt das: Mythos Preview löst Aufgaben zuverlässig, für die ein erfahrener Software-Ingenieur oder ML-Forscher einen ganzen Arbeitstag braucht.

Das Konfidenzintervall (95 Prozent) reicht von 8,5 bis 55 Stunden. METR weist ausdrücklich darauf hin, dass Messungen oberhalb von 16 Stunden mit dem aktuellen Aufgabenset nicht mehr zuverlässig sind. Die Organisation braucht schlicht schwierigere Tests - ein Problem, das sie bisher noch bei keinem Modell hatte.

Der exponentielle Trend bleibt intakt

Seit 2019 dokumentiert METR einen exponentiellen Anstieg der Zeithorizonte. Die jüngsten Datenpunkte - Gemini 3.1 Pro im April, jetzt Mythos Preview im Mai - bestätigen den Trend. Besonders aufschlussreich: KI-Forscher Dmitry Rybin ordnet den Mythos-Datenpunkt direkt in die Prognose-Zeitlinie des vieldiskutierten "AI 2027"-Szenarios ein. Noah Borthwick korrigiert dabei, dass der ursprüngliche Prognosegraph eine zu steile Exponentialkurve zeigte - und der neue Datenpunkt genau auf der korrigierten Originalkurve liegt.

Praktisch formuliert: Was KI-Systeme vor einem Jahr nur zwei Minuten lang tun konnten, schaffen sie heute ganze 16 Stunden lang. Die Aufgaben umfassen Software-Engineering, maschinelles Lernen und Cybersecurity - also genau die Disziplinen, in denen KI-Agenten bereits produktiv eingesetzt werden.

METR prüft auch Anthropics eigene Risikoeinschätzung

Parallel zur Zeithorizont-Messung hat METR den Abschnitt "Risks from automated R&D" aus Anthropics Februar-2026-Risikobericht geprüft. Anthropics Kernaussage: Das Risiko, dass Claude Opus 4.6 oder ein weniger fähiges Modell die Forschung und Entwicklung in einer beliebigen Domäne vollständig automatisiert und dabei katastrophalen Schaden anrichtet, sei "sehr gering".

METR stimmt dieser Einschätzung im Ergebnis zu - kritisiert aber die Qualität der Evidenz. Die konkreten Mängel, die die Forscher Nikola Jurkovic, Beth Barnes und Hjalmar Wijk auflisten:

Zu kleine Stichproben in den internen Umfragen, mit denen Anthropic die Fähigkeiten seiner Modelle bewertet
Problematisches Framing der Umfragefragen - METRs eigene Forschung zeigt, wie schwierig kalibrierte Antworten bei solchen Befragungen sind
Methodische Fehler: Anthropic soll eine fehlende Antwort fälschlicherweise als Negativ-Antwort gewertet haben
Blinder Fleck: Der Report ignoriert die Möglichkeit, dass KI-Modelle die Forschung erheblich beschleunigen, ohne sie vollständig zu automatisieren - und dass bereits diese Beschleunigung sicherheitsrelevant sein kann

METR empfiehlt Anthropic größere Umfrage-Stichproben, detailliertere Antwortoptionen und mehr Frühindikatoren. Trotz der Kritik betont die Organisation, dass sie den Review-Prozess selbst für wertvoll hält und angesichts wachsender Fähigkeiten wie autonomer Selbstreplikation solche unabhängigen Prüfungen ausbauen will.

🎯 Was das für die Praxis bedeutet

1. Aufgabenkomplexität neu denken: KI-Agenten lösen inzwischen Aufgaben, die einen erfahrenen Entwickler einen ganzen Arbeitstag kosten. Wer KI noch für simple Textbausteine nutzt, verschenkt das meiste Potenzial.

2. Interne KI-Audits einführen: Wenn selbst Anthropic bei der Selbstbewertung methodische Fehler macht, sollten Unternehmen eigene Evaluierungsprozesse nicht dem Zufall überlassen. Strukturierte Tests mit klaren Metriken sind Pflicht.

3. Sicherheitsrelevanz unterhalb der Vollautomatisierung: Auch wenn ein KI-Agent die F&E nicht komplett übernimmt, kann eine drei- bis fünffache Beschleunigung bestehender Prozesse sicherheitskritische Konsequenzen haben. Diesen Graubereich aktiv beobachten.

4. Exponentiellen Trend einplanen: Die Verdopplung der Fähigkeiten alle paar Monate ist kein Marketingversprechen, sondern ein von unabhängigen Forschern dokumentierter Verlauf. Strategische Planung muss dieses Tempo einkalkulieren.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

METR Time Horizons ↗ METR Blog (Anthropic Risk Report Review) ↗ @METR_Evals auf X (Mythos) ↗ @METR_Evals auf X (Review) ↗ @DmitryRybin1 auf X ↗ @BorthwickNoah auf X ↗