Prozess

Evaluation

Evaluation im ML ist der systematische Prozess, die Leistung eines Modells zu messen — und die Antwort auf die Frage: Funktioniert es?

Die Standard-Evaluation folgt dem Train/Validation/Test-Paradigma. Das Modell wird auf dem Trainingsset trainiert, auf dem Validierungsset werden Hyperparameter optimiert (Lernrate, Modellgröße, Regularisierung), und das Testset liefert die finale, unvoreingenommene Leistungsbewertung.

Die Wahl der Metrik ist entscheidend und aufgabenabhängig. Für Klassifikation: Accuracy, Precision, Recall, F1-Score, AUC-ROC. Für Regression: MSE, RMSE, MAE, R². Für Ranking: NDCG, MAP. Für Generierung: BLEU, ROUGE, BERTScore. Für LLMs: Die Evaluation ist besonders herausfordernd — menschliche Bewertung, LLM-als-Richter (LLM-as-Judge) und Arena-basierte Rankings (Chatbot Arena) ergänzen automatische Metriken.

Benchmarks standardisieren die Evaluation: MMLU (Wissenstest), HumanEval (Code-Generierung), HellaSwag (Common Sense), GSM8K (Mathe), GPQA (Graduaten-Level-Fragen). Die Kritik: Benchmark-Overfitting — Modelle werden auf Benchmarks optimiert, ohne dass sich die reale Nützlichkeit verbessert.

Holistic Evaluation (HELM, Stanford) versucht, Modelle entlang mehrerer Dimensionen gleichzeitig zu bewerten: Accuracy, Fairness, Robustheit, Kalibrierung und Effizienz. Die Erkenntnis: Ein einzelner Score reicht nicht — die Qualität eines KI-Systems hat viele Facetten.

Testing Metrics

Evaluation

Verwandte Begriffe

Fehler melden

Die KI Woche als App