📐 Mathematik & Statistik Standard

Benchmark

Ein Benchmark in der KI ist ein standardisierter Test, der dazu dient, die Leistungsfähigkeit verschiedener Modelle objektiv und fair vergleichbar zu machen. Da KI-Modelle extrem komplex sind, reicht ein einfacher Wert oft nicht aus. Stattdessen nutzt man Suiten von Aufgaben. Bekannte Beispiele sind 'MMLU' (Massive Multitask Language Understanding) für allgemeines Wissen, 'HumanEval' für Programmierfähigkeiten oder 'GSM8K' für mathematisches Problemlösen. Benchmarks sind essenziell, um den Fortschritt im Feld zu messen ('State of the Art'). Sie stehen jedoch zunehmend in der Kritik, da Modelle oft auf die Benchmarks optimiert werden oder die Testdaten versehentlich im Trainingsdatensatz enthalten waren ('Data Contamination'). Dies führt dazu, dass Modelle im Benchmark übermenschliche Leistungen zeigen, aber in der echten Anwendung scheitern ('Goodhart's Law': Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein).

Quellen & Referenzen

Comparison

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Benchmark

Quellen & Referenzen

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Benchmark

Quellen & Referenzen

Verwandte Begriffe

Fehler melden

Die KI Woche als App