Messung

Evaluation Metric

Eine Evaluation Metric (Evaluationsmetrik) ist ein quantitatives Maß, das die Leistung eines ML-Modells auf einer spezifischen Aufgabe bewertet. Die Wahl der richtigen Metrik ist eine der wichtigsten und am meisten unterschätzten Entscheidungen im ML-Workflow.

Für binäre Klassifikation: Accuracy (Gesamttrefferquote, aber irreführend bei unbalancierten Daten), Precision (Anteil korrekter positiver Vorhersagen), Recall (Anteil gefundener tatsächlicher Positiver), F1-Score (harmonisches Mittel), AUC-ROC (Fläche unter der ROC-Kurve, schwellenwertunabhängig).

Für Multi-Class: Macro-F1, Micro-F1, Weighted-F1 und die Confusion Matrix. Für Regression: MSE, RMSE, MAE, R² (erklärte Varianz), MAPE (mittlerer absoluter prozentualer Fehler).

Für NLP-Generierung: BLEU (n-Gramm-Überlappung mit Referenztext, Standard für Übersetzung), ROUGE (recall-orientiert, Standard für Summarization), BERTScore (semantische Ähnlichkeit über Embeddings), Perplexity (wie „überrascht" das Modell vom Text ist).

Für LLMs: Menschliche Evaluation (Arena-Ranking, Side-by-Side-Vergleich), LLM-as-Judge (ein anderes LLM bewertet die Antwort), aufgabenspezifische Benchmarks (MMLU, HumanEval, GSM8K).

Die Meta-Erkenntnis: Goodharts Gesetz — „Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein." Modelle, die spezifisch auf eine Metrik optimiert werden (Teaching to the Test), können die Metrik verbessern, ohne die tatsächliche Leistung zu steigern. Multi-dimensionale Evaluation (Accuracy + Fairness + Robustheit + Effizienz) ist die Antwort.

Standard

Evaluation Metric

Fehler melden

Die KI Woche als App