Modelle & Agenten

Grok 4.3 wird zur smartesten KI für Recht und Finanzen

xAIs Modell erobert Platz 1 bei zwei privaten Vals-AI-Benchmarks für juristisches Reasoning und Finanzvertrags-Analyse — und schlägt GPT-5.1 deutlich.

Kai · 06. Mai 2026 · 2 Min. Lesezeit

Während die meisten KI-Benchmarks Mathe und Code testen, hat Grok 4.3 von xAI gerade dort zugeschlagen, wo es in der Realität am meisten wehtut: bei Recht und Finanzen. Auf den privaten Vals-AI-Benchmarks - also Tests, die nicht öffentlich trainierbar sind - hat xAIs Modell beide Spitzenpositionen erobert.

Die Ergebnisse im Detail

Der CaseLaw (v2)-Benchmark testet juristisches Reasoning anhand echter kanadischer Gerichtsurteile: Präzedenzfälle verstehen, komplexe Urteilsbegründungen analysieren, präzise Antworten aus verschlungenen Gerichtsentscheidungen extrahieren. Grok 4.3 erreicht hier 79,31 Prozent Genauigkeit - GPT-5.1 kommt auf 73,42 Prozent.

Beim CorpFin (v2)-Benchmark geht es um dichte, mehrseitige Kreditverträge: Konditionen, Risiken, Klauseln. Das ist kein Multiple-Choice-Test, sondern eine Simulation dessen, was Junior-Analysten in Kanzleien und Investmentbanken täglich tun. Grok 4.3 liegt mit 68,53 Prozent ebenfalls vorn.

Warum das relevant ist

Die meisten öffentlichen Benchmarks - MMLU, HumanEval, MATH - sind mittlerweile so bekannt, dass Modelle gezielt darauf optimiert werden können. Private Benchmarks wie Vals AI sind deshalb aussagekräftiger: Sie testen tatsächliche Leistung unter realistischen Bedingungen, nicht Benchmark-Hacking.

Dass ein Modell gleichzeitig bei juristischem Reasoning und bei der Analyse von Finanzverträgen führt, ist bemerkenswert. Beides erfordert die Kombination aus langem Kontextverständnis, logischer Schlussfolgerung und Fachwissen - genau die Fähigkeiten, die über reine Sprachkompetenz hinausgehen .

xAI öffnet die API

Parallel hat xAI den öffentlichen Start der Grok-API angekündigt. Damit können Entwickler erstmals direkt auf die Grok-Modellfamilie zugreifen - inklusive der Leistung, die Grok 4.3 in den Vals-AI-Tests zeigt.

🎯 Was das für die Praxis bedeutet

1. Recht und Finanzen als KI-Testfall: Wer KI in regulierten Branchen einsetzen will, sollte nicht nur auf allgemeine Benchmarks schauen, sondern auf domänenspezifische Tests wie Vals AI.

2. Grok als ernsthafter Konkurrent: xAIs Modell ist nicht mehr nur das Chatbot-Experiment hinter X - es schlägt GPT-5.1 in praxisnahen Aufgaben und wird jetzt per API zugänglich.

3. Private Benchmarks beachten: Die öffentlichen Ranglisten erzählen nur die halbe Geschichte. Wer KI-Modelle evaluiert, sollte proprietäre Tests einbeziehen, die nicht zum Training verwendet werden können.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

@XFreeze auf X ↗ @xai auf X ↗ @WesRoth auf X ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Grok 4.3 wird zur smartesten KI für Recht und Finanzen

Die Ergebnisse im Detail

Warum das relevant ist

xAI öffnet die API

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Grok 4.3 wird zur smartesten KI für Recht und Finanzen

Die Ergebnisse im Detail

Warum das relevant ist

xAI öffnet die API

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Grok 4.3: xAIs Reasoning-Modell schlägt die Branche — zum halben Preis

GPT-5.6 offenbar im Early Access: One-Shot-Demos, 87-Minuten-Sessions und breite Tests

HermesWorld: KI-Agenten als Mitspieler in einem Browser-MMO

Fehler melden

Die KI Woche als App