Während die meisten KI-Benchmarks Mathe und Code testen, hat Grok 4.3 von xAI gerade dort zugeschlagen, wo es in der Realität am meisten wehtut: bei Recht und Finanzen. Auf den privaten Vals-AI-Benchmarks — also Tests, die nicht öffentlich trainierbar sind — hat xAIs Modell beide Spitzenpositionen erobert.
Die Ergebnisse im Detail
Der CaseLaw (v2)-Benchmark testet juristisches Reasoning anhand echter kanadischer Gerichtsurteile: Präzedenzfälle verstehen, komplexe Urteilsbegründungen analysieren, präzise Antworten aus verschlungenen Gerichtsentscheidungen extrahieren. Grok 4.3 erreicht hier 79,31 Prozent Genauigkeit — GPT-5.1 kommt auf 73,42 Prozent.
Beim CorpFin (v2)-Benchmark geht es um dichte, mehrseitige Kreditverträge: Konditionen, Risiken, Klauseln. Das ist kein Multiple-Choice-Test, sondern eine Simulation dessen, was Junior-Analysten in Kanzleien und Investmentbanken täglich tun. Grok 4.3 liegt mit 68,53 Prozent ebenfalls vorn.
Warum das relevant ist
Die meisten öffentlichen Benchmarks — MMLU, HumanEval, MATH — sind mittlerweile so bekannt, dass Modelle gezielt darauf optimiert werden können. Private Benchmarks wie Vals AI sind deshalb aussagekräftiger: Sie testen tatsächliche Leistung unter realistischen Bedingungen, nicht Benchmark-Hacking.
Dass ein Modell gleichzeitig bei juristischem Reasoning und bei der Analyse von Finanzverträgen führt, ist bemerkenswert. Beides erfordert die Kombination aus langem Kontextverständnis, logischer Schlussfolgerung und Fachwissen — genau die Fähigkeiten, die über reine Sprachkompetenz hinausgehen (→ KI Woche Analyse).
xAI öffnet die API
Parallel hat xAI den öffentlichen Start der Grok-API angekündigt. Damit können Entwickler erstmals direkt auf die Grok-Modellfamilie zugreifen — inklusive der Leistung, die Grok 4.3 in den Vals-AI-Tests zeigt.
🎯 Was das für die Praxis bedeutet
1. Recht und Finanzen als KI-Testfall: Wer KI in regulierten Branchen einsetzen will, sollte nicht nur auf allgemeine Benchmarks schauen, sondern auf domänenspezifische Tests wie Vals AI.
2. Grok als ernsthafter Konkurrent: xAIs Modell ist nicht mehr nur das Chatbot-Experiment hinter X — es schlägt GPT-5.1 in praxisnahen Aufgaben und wird jetzt per API zugänglich.
3. Private Benchmarks beachten: Die öffentlichen Ranglisten erzählen nur die halbe Geschichte. Wer KI-Modelle evaluiert, sollte proprietäre Tests einbeziehen, die nicht zum Training verwendet werden können.