Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Evaluation

Benchmark

Ein Benchmark in der KI ist ein standardisierter Test, der dazu dient, die Leistungsfähigkeit verschiedener Modelle objektiv und fair vergleichbar zu machen. Da KI-Modelle extrem komplex sind, reicht ein einfacher Wert oft nicht aus. Stattdessen nutzt man Suiten von Aufgaben. Bekannte Beispiele sind 'MMLU' (Massive Multitask Language Understanding) für allgemeines Wissen, 'HumanEval' für Programmierfähigkeiten oder 'GSM8K' für mathematisches Problemlösen.

Benchmarks sind essenziell, um den Fortschritt im Feld zu messen ('State of the Art'). Sie stehen jedoch zunehmend in der Kritik, da Modelle oft auf die Benchmarks optimiert werden oder die Testdaten versehentlich im Trainingsdatensatz enthalten waren ('Data Contamination'). Dies führt dazu, dass Modelle im Benchmark übermenschliche Leistungen zeigen, aber in der echten Anwendung scheitern ('Goodhart's Law': Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein).

Comparison
🔗 Link kopiert!