Anthropics neueste KI-Modelle können biologische Rätsel lösen, an denen menschliche Experten scheitern. Das ist nicht die übliche Marketing-Behauptung — sondern das Ergebnis eines neuen Benchmarks namens BioMysteryBench, den Anthropic-Forscherin Brianna gemeinsam mit Domänen-Experten entwickelt hat. 99 echte bioinformatische Aufgaben, reale Datensätze, objektive Antworten — und die Erkenntnis, dass Claude bei bestimmten wissenschaftlichen Problemen weiter ist als jeder Mensch im Testfeld.
Was BioMysteryBench von anderen Tests unterscheidet
Die meisten KI-Benchmarks funktionieren wie Schulprüfungen: Mehrere-Auswahl-Fragen, Wissensfragen, mathematische Probleme. Das ist nützlich, aber weit von echter wissenschaftlicher Arbeit entfernt. Forscher müssen nicht nur Fakten wissen — sie müssen Datenbankabfragen starten, Code schreiben, verschiedene Analysestrategien ausprobieren, Datensätze auf Muster prüfen.
BioMysteryBench testet genau das. Claude wird in einer isolierten Computerumgebung mit echten biologischen Rohdaten konfrontiert — DNA-Sequenzdaten, RNA-Sequenzierungen, Proteomik-Datensätze — und muss selbständig Werkzeuge installieren, Datenbanken wie NCBI und Ensembl abfragen, und eigenständig zur richtigen Antwort gelangen. Die Bewertung erfolgt nur anhand des Ergebnisses, nicht des Weges. Das macht den Benchmark Methoden-agnostisch: Claude darf kreativ sein.
Die 99 Fragen wurden von Experten mit dem Prinzip entwickelt, dass jede Antwort auf kontrollierbaren, objektiven Eigenschaften der Daten basiert — nicht auf der subjektiven Interpretation eines einzelnen Forschers. Ein Beispiel: „Aus welchem menschlichen Organ stammt dieser Einzelzell-RNA-Datensatz?" hat eine verifizierbare Antwort. Ebenso: „Welcher Virus infiziert diesen Patienten laut RNA-Daten?" — bestätigt durch einen PCR-Test.
23 Aufgaben, die Experten nicht lösen konnten
Das Team testete zunächst menschliche Experten an allen 99 Aufgaben. 76 davon wurden von mindestens einer Fachperson gelöst — diese gelten als „lösbar". Die restlichen 23 Aufgaben blieben ungelöst: Kein einziger der bis zu fünf Experten pro Aufgabe kam zur richtigen Antwort.
Hier beginnt das Spannende: Claude Mythos Preview, Anthropics neuestes Modell, löste 30 Prozent dieser für Menschen unlösbaren Aufgaben. Wie? Laut Anthropic auf zwei Wegen: Erstens kombiniert Claude seine interne Wissensbasis aus hunderttausenden Publikationen mit Live-Datenbankabfragen — was eine Art Echtzeit-Meta-Analyse ergibt, für die ein Mensch Tage bräuchte. Zweitens erkennt Claude bei Unsicherheit Muster in Daten, die humans übersehen, und kombiniert mehrere Analysemethoden, bis sich die Ergebnisse decken.
Auch interessant: Manchmal wählte Claude komplett andere Strategien als die Experten — und kam trotzdem zur richtigen Antwort. Das zeigt, dass es für biologische Forschungsfragen keine einzig richtige Methode gibt.
Zuverlässigkeit: Der Unterschied zwischen „wissen" und „raten"
Jede Aufgabe wurde fünfmal durchgeführt. Die Analyse zeigt ein klares Muster: Bei lösbaren Aufgaben ist Claude Opus 4.6 hochzuverlässig — 86 Prozent der Aufgaben, die er löst, löst er mindestens viermal von fünf Versuchen. Er weiß es, oder er weiß es nicht.
Bei den human-difficult Aufgaben verändert sich das Bild deutlich: Die Reliabilität sinkt auf 44 Prozent, und fast die Hälfte der Erfolge sind „brittle wins" — einmalige Treffer, die sich nicht reproduzieren lassen. Laut einer Eigenanalyse durch Claude Mythos Preview:
„Die Textur von ‚gelöst' verändert sich scharf zwischen den zwei Aufgabensets. Bei den für Menschen lösbaren Aufgaben ist Opus 4.6 stark bimodal — entweder er hat die Antwort oder nicht. Bei den schwierigen Aufgaben bricht das zusammen, und fast die Hälfte der Erfolge sind Wege, die er stolpert, statt reproduziert."
Unabhängige Bestätigung durch Genentech und Roche
Während Anthropic BioMysteryBench finalisierte, veröffentlichten Genentech und Roche unabhängig einen ähnlichen Benchmark: CompBioBench. 100 Computational-Biology-Aufgaben, ebenfalls mit Ground-Truth-Antworten, ebenfalls auf echten Daten. Das Ergebnis: Claude Opus 4.6 erreichte 81 Prozent insgesamt und 69 Prozent bei den schwierigsten Fragen. Die unabhängige Studie bestätigt: Frontier-Modelle sind heute echte, nützliche Mitarbeiter für bioinformatische Forschung.
Anthropic bietet BioMysteryBench als öffentlichen Datensatz auf Hugging Face an — andere Entwickler können ihre Modelle damit testen und die Forschungsgemeinschaft daran beitragen.
🎯 Was das für die Praxis bedeutet
1. KI als Forschungsassistent: Unternehmen und Forschungseinrichtungen in Pharma, Biotech und Medizin können mit heutigen Modellen echte Analyseschritte automatisieren — nicht nur Texte zusammenfassen, sondern Datenbanken abfragen, Code ausführen und Hypothesen testen.
2. Über den Chatbot-Modus hinaus: BioMysteryBench zeigt, dass KI-Wert nicht durch Gesprächsführung, sondern durch Handlungsfähigkeit entsteht: eigenständige Werkzeugnutzung, Datenbankabfragen, Codeausführung. Das ist die Richtung für alle kritischen Branchen.
3. Zuverlässigkeit vor Leistung: Das Muster von „reliable wins vs. brittle wins" gilt weit über Biologie hinaus. Vor dem Einsatz von KI in kritischen Workflows lohnt es sich, Aufgaben mehrfach durchlaufen zu lassen — und zu schauen, ob die Ergebnisse konsistent sind.