KI löst inzwischen über 40 Prozent der Mathematik-Aufgaben, an denen vor 15 Monaten noch die besten Modelle der Welt scheiterten. Die Entwicklung ist so rasant, dass die Forscher, die diese Tests entwerfen, schlicht nicht mehr hinterherkommen. Ein neuer Benchmark soll das ändern — mit Problemen, die kein Mensch jemals gelöst hat.

Von 2 auf 40 Prozent — in einem Jahr

Als die Non-Profit-Organisation Epoch AI im November 2024 den Benchmark FrontierMath veröffentlichte, war die Lage noch übersichtlich: 300 Mathematik-Probleme, von fortgeschrittenem Studienniveau bis hin zu Early-Postdoc-Level. Kein KI-Modell der Welt konnte damals mehr als zwei Prozent davon lösen.

Heute, gut ein Jahr später, knacken GPT-5.2 und Claude Opus 4.6 über 40 Prozent der Aufgaben in den Schwierigkeitsstufen 1 bis 3 — und über 30 Prozent der besonders kniffligen Tier-4-Probleme, die nachträglich ergänzt wurden. „Es war absehbar, dass wir rennen müssen, um vorne zu bleiben", sagt Greg Burnham, Senior Researcher bei Epoch AI, gegenüber IEEE Spectrum. Seine Prognose: „FrontierMath wird wahrscheinlich innerhalb der nächsten zwei Jahre gesättigt sein — könnte auch schneller gehen."

Aletheia: DeepMinds KI forscht autonom

Wie schnell sich diese Grenze verschiebt, zeigt Google DeepMind. Deren experimentelles System Aletheia, aufgebaut auf Gemini Deep Think, hat eigenständig ein publiziertes Forschungsergebnis in der arithmetischen Geometrie erzielt — vollständig ohne menschliches Eingreifen. Es geht um sogenannte Eigenweights, also Strukturkonstanten in einem Spezialgebiet der reinen Mathematik.

Klingt abstrakt — ist es auch. Aber entscheidend ist nicht was berechnet wurde, sondern wie: Ein KI-Agent setzte sich hin und produzierte Forschung, die in einer Fachzeitschrift veröffentlicht werden kann. „Es ist definitiv am unteren Ende dessen, was einen Mathematiker begeistern würde", räumt Burnham ein. „Aber es ist neu. So etwas haben wir wirklich noch nie gesehen."

Aletheia geht dabei einen eleganten Weg: Das System generiert Lösungsvorschläge, prüft sie mit einem eingebauten Sprachverifizierer auf logische Fehler, und überarbeitet sie iterativ. Entscheidend ist auch, dass die KI eingestehen kann, wenn sie ein Problem nicht lösen kann — was die Effizienz für Forscher massiv erhöht.

First Proof: Die Hälfte der Forschungsbeweise geknackt

Parallel dazu sorgte im Februar die First Proof Challenge für Aufsehen: Elf hochrangige Mathematiker stellten zehn extrem schwere Forschungsfragen, deren Beweise jeweils etwa fünf Seiten umfassten und nie zuvor geteilt worden waren.

Das Ergebnis: Niemand reichte bis zum Ablauf am 14. Februar korrekte Lösungen für alle zehn Probleme ein. OpenAIs fortschrittlichstes internes KI-System schaffte fünf von zehn — mit minimaler menschlicher Aufsicht. Aletheia erzielte ähnliche Resultate. In der Mathematik-Community wurden die Ergebnisse mit einer Mischung aus Ehrfurcht und Ernüchterung aufgenommen.

Eine noch härtere zweite Runde ist für den 14. März geplant.

Open Problems: Die Königsklasse

Doch Epoch AI hat bereits den nächsten Schritt gemacht. Seit dem 27. Januar gibt es FrontierMath: Open Problems — eine Sammlung von 16 mathematischen Problemen, an denen professionelle Mathematiker gescheitert sind. Die Antworten kennt niemand.

Das klingt paradox — wie soll man etwas bewerten, dessen Lösung unbekannt ist? Die Antwort: Jedes Problem ist so konstruiert, dass ein Computerprogramm automatisch prüfen kann, ob eine eingereichte Lösung korrekt ist. „Das ist etwas kontraintuitiv", gibt Burnham zu. „Niemand kennt die Antworten, aber wir haben ein Programm, das beurteilen kann, ob eine Antwort richtig ist."

Die 16 Probleme reichen von der Primfaktorzerlegung (Verbesserung des General Number Field Sieve) über die Inverse Galois-Theorie (Finde ein Polynom mit der Mathieu-Gruppe M₂₃ als Galoisgruppe) bis hin zu Knotentheorie (Algorithmus für die Unknotting Number). Drei davon stuft Epoch AI als potenzielle „Durchbrüche" ein, drei als „Major Advances".

Bisher hat keine KI eines dieser Probleme gelöst.

Warum Mathematik der Prüfstein für KI bleibt

Mathematik ist unter Forschern nicht umsonst das bevorzugte Testfeld für die Fähigkeiten von KI-Systemen. Anders als bei Sprache, Kreativität oder sozialem Urteilsvermögen sind mathematische Beweise eindeutig: richtig oder falsch, ohne Interpretationsspielraum. Und sie lassen sich automatisch überprüfen — kein menschlicher Gutachter nötig.

Genau deshalb ist die aktuelle Entwicklung so bemerkenswert. In kaum einem anderen Bereich lässt sich der Fortschritt von KI so klar messen — und in keinem anderen Bereich bewegt sich die Grenze so schnell. „KI ist in mancher Hinsicht bereits besser als die meisten Doktoranden", sagt Burnham. „Deshalb müssen wir Probleme stellen, deren Lösung für menschliche Mathematiker zumindest moderat interessant wäre — nicht weil KI sie löst, sondern weil es Mathematik ist, die Mathematiker wirklich kümmert."

🎯 Was das für die Praxis bedeutet

1. Unternehmen, die mit komplexen mathematischen Modellen arbeiten — etwa in der Finanzbranche, Kryptographie, Logistik oder im Ingenieurwesen — sollten die Fortschritte bei mathematischem Reasoning auf dem Radar haben. KI-Systeme, die PhD-Level-Probleme lösen, können mittelfristig auch anspruchsvolle betriebliche Optimierungen übernehmen.

2. Die Benchmark-Erosion hat eine klare Botschaft KI-Fähigkeiten veralten schneller als die Metriken, mit denen wir sie messen. Wer KI-Tools intern evaluiert, sollte nicht auf standardisierte Testergebnisse vertrauen, sondern die Systeme regelmäßig an den eigenen, realen Aufgaben testen.

3. Für Bildungseinrichtungen und Forschungsabteilungen wird die Frage drängender: Wenn KI bereits auf Postdoc-Niveau rechnet, welche mathematischen Kompetenzen brauchen Absolventen tatsächlich noch — und welche werden durch KI-gestützte Werkzeuge ersetzt?

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
IEEE Spectrum ↗ Epoch AI ↗ Google DeepMind ↗ Epoch AI auf X ↗
Teilen: