Modelle & Agenten

ForecastBench: Können KI-Modelle die Zukunft vorhersagen?

Ein neuer Benchmark testet KI-Prognosen gegen menschliche Superforecaster. Die Modelle holen auf - aber die besten Prognostiker liegen noch vorn.

Kai · 31. Mai 2026 · 4 Min. Lesezeit

Wie gut können KI-Modelle die Zukunft vorhersagen? Das Forecasting Research Institute - gegründet unter Beteiligung von Philip Tetlock, dem Mann hinter dem Konzept der "Superforecaster" - misst das seit 2024 systematisch. Das Ergebnis: KI-Modelle holen rapide auf. Aber die besten menschlichen Prognostiker liegen immer noch vorn.

Was ForecastBench misst

Anders als bei Benchmarks wie GPQA oder SWE-Bench geht es bei ForecastBench nicht um Wissensabruf oder Programmieraufgaben, sondern um echte Vorhersagen über die Zukunft. Alle zwei Wochen werden 500 neue Fragen generiert - die Hälfte aus realen Zeitreihen (FRED-Wirtschaftsdaten, ACLED-Konfliktdaten, Yahoo Finance, Wikipedia), die andere Hälfte von Vorhersageplattformen wie Metaculus, Polymarket und Manifold. Typische Fragen: "Wird die US-Arbeitslosenquote im nächsten Quartal über X Prozent liegen?" oder "Wird Land Y bis Datum Z einen Waffenstillstand vereinbaren?"

Der entscheidende Unterschied zu anderen Benchmarks: Die Fragen sind per Definition kontaminierungsfrei, weil sie sich auf Ereignisse beziehen, die zum Zeitpunkt der Prognose noch nicht eingetreten sind. Ein Modell kann die Antwort nicht auswendig gelernt haben. Die Bewertung erfolgt über den Brier Index - eine Skala von 0 bis 100 Prozent, wobei 100 perfekte Genauigkeit bedeutet und 50 dem uninformierten Raten entspricht.

KI rückt an Superforecaster heran - aber die Lücke bleibt

Das aktuelle Tournament-Leaderboard zeigt ein klares Bild: Die Superforecaster-Gruppe liegt laut ForecastBench mit einem Overall Brier Index von rund 70 an der Spitze. Die besten KI-Systeme - darunter Einreichungen auf Basis von Google DeepMind- und xAI-Modellen - erreichen Werte um 67 bis 68. Das klingt nach einem kleinen Abstand, ist aber in der Praxis signifikant: Die Differenz entspricht einem systematischen Genauigkeitsvorteil der menschlichen Experten bei schwierigen, mehrdeutigen Fragen.

Wichtig ist dabei die Unterscheidung zwischen den zwei Leaderboards. Das Baseline-Leaderboard testet Modelle "out of the box" - ohne zusätzliche Tools, Kontext oder Scaffolding. Das Tournament-Leaderboard erlaubt alles: Ensemble-Methoden, Feintuning, Tool-Nutzung und sogar Zugang zu Crowd-Prognosen. Die besten Ergebnisse kommen nicht von einzelnen Modellen, sondern von Teams, die mehrere Modelle kombinieren, Teilfragen zerlegen und spezialisierte Kontexte einspeisen.

Warum das wichtiger ist als jeder Coding-Benchmark

Die Fähigkeit, Wahrscheinlichkeiten für zukünftige Ereignisse korrekt einzuschätzen, ist eine der anspruchsvollsten intellektuellen Aufgaben überhaupt. Sie erfordert das Zusammenführen heterogener Informationsquellen, das Abwägen von Unsicherheiten und das Kalibrieren der eigenen Zuversicht. Philip Tetlocks jahrzehntelange Forschung hat gezeigt, dass die meisten Menschen - einschließlich Experten - darin schlecht sind. "Superforecaster" bilden eine kleine Elite, die systematisch besser prognostiziert als der Rest.

Dass KI-Modelle sich dieser Leistung annähern, ist bemerkenswert. Dass sie sie noch nicht erreicht haben, ist es ebenso. Die Erklärung liegt vermutlich in der Art der Aufgabe: Prognosen erfordern nicht nur Wissen, sondern die Fähigkeit, Wissenslücken zu erkennen, Unsicherheit zu quantifizieren und die eigene Einschätzung an neue Informationen anzupassen. Genau das ist es, was Tetlock "calibration" nennt - und was KI-Modelle bisher weniger zuverlässig beherrschen als die besten Menschen.

Laut ForecastBench hat sich der Abstand im vergangenen Jahr deutlich verringert. Prognosen aus dem Jahr 2025 hatten geschätzt, dass KI-Modelle Ende 2026 Parität mit Superforecasternn erreichen könnten. Ob das eintritt, wird ForecastBench zeigen - in Echtzeit, alle zwei Wochen neu.

🎯 Was das für die Praxis bedeutet

1. Prognosefähigkeit als KI-Qualitätsmerkmal: ForecastBench liefert ein Maß, das über synthetische Benchmarks hinausgeht. Für Unternehmen, die KI für strategische Entscheidungen einsetzen, ist die Kalibrierung der Vorhersagen mindestens so wichtig wie die Leistung bei Coding oder Textgenerierung.

2. Ensemble statt Einzelmodell: Die besten KI-Ergebnisse auf ForecastBench kommen nicht von einem einzelnen Modell, sondern von kombinierten Systemen. Das bestätigt, was sich auch in der Unternehmenspraxis zeigt: Für komplexe Entscheidungen ist ein Multi-Modell-Ansatz überlegen.

3. Mensch-KI-Kooperation: Superforecaster nutzen laut ForecastBench selbst bereits KI als Werkzeug. Die produktivste Zukunft liegt nicht im Entweder-oder, sondern in der Kombination menschlicher Urteilskraft mit maschineller Datenverarbeitung.

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

ForecastBench: Können KI-Modelle die Zukunft vorhersagen?

Was ForecastBench misst

KI rückt an Superforecaster heran - aber die Lücke bleibt

Warum das wichtiger ist als jeder Coding-Benchmark

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

ForecastBench: Können KI-Modelle die Zukunft vorhersagen?

Was ForecastBench misst

KI rückt an Superforecaster heran - aber die Lücke bleibt

Warum das wichtiger ist als jeder Coding-Benchmark

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Kimi K3 teils auf Fable-Niveau? Neues Modell aus China droht Wettbewerb der US-AI-Labs weiter anzuheizen

Bonsai 27B: Das erste 27-Milliarden-Modell läuft auf dem Smartphone

GPT-5.6 Sol beeindruckt im ersten Härtetest - und OpenAI stellt mit ChatGPT Work neuen Agenten vor

Fehler melden

Die KI Woche als App