Modelle & Technologie

ARC-AGI-3: Der Benchmark, an dem jede KI scheitert

Menschen lösen ihn zu 100 Prozent, die besten KI-Modelle schaffen weniger als 1 Prozent. ARC-AGI-3 misst, was kein anderer Benchmark misst: echte Abstraktionsfähigkeit.

Kai · 26. Mar 2026 · 3 Min. Lesezeit

Die meisten KI-Benchmarks testen, was Modelle bereits gelernt haben. ARC-AGI-3 testet, ob sie lernen können. Das Ergebnis: Menschen lösen den neuen Benchmark zu 100 Prozent. Die besten KI-Modelle der Welt schaffen weniger als 1 Prozent.

Die Kluft zwischen Mensch und Maschine

ARC-AGI-3 ist die dritte Generation des Abstraction and Reasoning Corpus - dem Benchmark, der gezielt misst, wie gut KI-Systeme bei neuartigen Aufgaben generalisieren. Keine Wissensfragen, keine Textverarbeitung, sondern visuelle Rätsel, die abstraktes Denken erfordern.

Die ersten Ergebnisse auf dem öffentlichen Leaderboard sind ernüchternd: Gemini 3.1 Pro erreicht 0,37 Prozent. GPT-5.4 kommt auf 0,26 Prozent. Opus 4.5 auf 0,25 Prozent. Grok-4.20 schafft gerade einmal 0,09 Prozent. Zum Vergleich: Auf dem Vorgänger ARC-AGI-2 erreichte Gemini 3.1 Pro noch 77,1 Prozent.

Warum es ARC-AGI-3 braucht

Der Grund für die dritte Version ist simpel: Die Vorgänger wurden zu schnell obsolet. ARC-AGI-1 galt als unlösbar - bis die Modelle aufholten. ARC-AGI-2 sollte die Latte deutlich höher legen, doch auch hier kletterten die Ergebnisse innerhalb weniger Monate von einstelligen Prozenten auf über 70 Prozent. Die Teams hinter den Benchmarks kamen mit dem Ausdenken neuer Aufgaben schlicht nicht hinterher, weil die Intelligenzentwicklung schneller war als die Testentwicklung.

Mit ARC-AGI-3 haben die Macher offenbar nochmal drastisch nachgelegt. Die zentrale Frage lautet nicht ob, sondern wie viele Monate vergehen, bis die gängigen Modelle von unter 1 Prozent auf über 90 Prozent klettern. Bei ARC-AGI-2 dauerte das etwa ein halbes Jahr.

Die wandernde Ziellinie namens AGI

Das Muster wiederholt sich bei jeder Benchmark-Generation: Ein Test wird als Maßstab für „echte Intelligenz" definiert. KI-Modelle versagen zunächst kläglich. Monate später knacken sie die Marke. Und dann verschiebt sich die Definition, was wir eigentlich unter Allgemeiner Künstlicher Intelligenz (AGI) verstehen wollen.

Das Paradoxe daran: Immer mehr Experten vertreten inzwischen die Meinung, dass heutige Systeme den Punkt längst überschritten haben, der ursprünglich als Schwelle zu AGI galt - etwa das Bestehen universitärer Prüfungen, das Schreiben funktionierenden Codes oder das Lösen wissenschaftlicher Probleme. Doch weil die Ziellinie immer weiter wandert, fühlt sich AGI paradoxerweise genauso weit entfernt an wie vor fünf Jahren.

ARC-AGI-3 ist der bislang härteste Versuch, diese Flucht nach vorn zu stoppen und einen Benchmark zu schaffen, der tatsächlich misst, was bisher kein Modell kann: echte Abstraktion bei völlig unbekannten Aufgaben.

🎯 Was das für die Praxis bedeutet

1. Benchmark-Ergebnisse richtig einordnen: Wenn ein Modell 95 Prozent auf MMLU erreicht, heißt das nicht, dass es intelligent ist. ARC-AGI-3 zeigt, dass es bei wirklich neuartigen Problemen versagt.

2. KI bleibt ein Werkzeug, kein Ersatz: Für Aufgaben, die kreative Problemlösung und echte Abstraktion erfordern, bleiben Menschen unersetzlich - zumindest vorerst.

3. Forschungsrichtung für die Branche: Wer das ARC-AGI-3-Problem löst, hat einen entscheidenden Durchbruch erzielt. Die Preisgelder des ARC Prize dürften die Forschung in diese Richtung beschleunigen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

@arcprize auf X ↗ ARC Prize ↗ ARC-AGI-3 Replay ↗ @chatgpt21 auf X ↗