Während die meisten KI-Benchmarks Mathe und Code testen, hat Grok 4.3 von xAI gerade dort zugeschlagen, wo es in der Realität am meisten wehtut: bei Recht und Finanzen. Auf den privaten Vals-AI-Benchmarks — also Tests, die nicht öffentlich trainierbar sind — hat xAIs Modell beide Spitzenpositionen erobert.

Die Ergebnisse im Detail

Der CaseLaw (v2)-Benchmark testet juristisches Reasoning anhand echter kanadischer Gerichtsurteile: Präzedenzfälle verstehen, komplexe Urteilsbegründungen analysieren, präzise Antworten aus verschlungenen Gerichtsentscheidungen extrahieren. Grok 4.3 erreicht hier 79,31 Prozent Genauigkeit — GPT-5.1 kommt auf 73,42 Prozent.

Beim CorpFin (v2)-Benchmark geht es um dichte, mehrseitige Kreditverträge: Konditionen, Risiken, Klauseln. Das ist kein Multiple-Choice-Test, sondern eine Simulation dessen, was Junior-Analysten in Kanzleien und Investmentbanken täglich tun. Grok 4.3 liegt mit 68,53 Prozent ebenfalls vorn.

Warum das relevant ist

Die meisten öffentlichen Benchmarks — MMLU, HumanEval, MATH — sind mittlerweile so bekannt, dass Modelle gezielt darauf optimiert werden können. Private Benchmarks wie Vals AI sind deshalb aussagekräftiger: Sie testen tatsächliche Leistung unter realistischen Bedingungen, nicht Benchmark-Hacking.

Dass ein Modell gleichzeitig bei juristischem Reasoning und bei der Analyse von Finanzverträgen führt, ist bemerkenswert. Beides erfordert die Kombination aus langem Kontextverständnis, logischer Schlussfolgerung und Fachwissen — genau die Fähigkeiten, die über reine Sprachkompetenz hinausgehen (→ KI Woche Analyse).

xAI öffnet die API

Parallel hat xAI den öffentlichen Start der Grok-API angekündigt. Damit können Entwickler erstmals direkt auf die Grok-Modellfamilie zugreifen — inklusive der Leistung, die Grok 4.3 in den Vals-AI-Tests zeigt.

🎯 Was das für die Praxis bedeutet

1. Recht und Finanzen als KI-Testfall: Wer KI in regulierten Branchen einsetzen will, sollte nicht nur auf allgemeine Benchmarks schauen, sondern auf domänenspezifische Tests wie Vals AI.

2. Grok als ernsthafter Konkurrent: xAIs Modell ist nicht mehr nur das Chatbot-Experiment hinter X — es schlägt GPT-5.1 in praxisnahen Aufgaben und wird jetzt per API zugänglich.

3. Private Benchmarks beachten: Die öffentlichen Ranglisten erzählen nur die halbe Geschichte. Wer KI-Modelle evaluiert, sollte proprietäre Tests einbeziehen, die nicht zum Training verwendet werden können.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
@XFreeze auf X ↗ @xai auf X ↗ @WesRoth auf X ↗
Teilen: