Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Metrik

F1 Score

Der F1-Score ist das harmonische Mittel aus Precision und Recall — eine einzige Zahl, die beide Aspekte der Klassifikationsleistung zusammenfasst und besonders bei unbalancierten Daten aussagekräftiger ist als Accuracy.

Die Formel: F1 = 2 × (Precision × Recall) / (Precision + Recall). Nur wenn sowohl Precision als auch Recall hoch sind, ist der F1-Score hoch. Ist einer der beiden Werte niedrig, zieht er den F1-Score herunter.

Warum harmonisches Mittel und nicht arithmetisches? Das harmonische Mittel bestraft Asymmetrien stärker. Precision = 1.0, Recall = 0.01 → arithmetisches Mittel 0.505 (klingt gut) → harmonisches Mittel 0.02 (klingt schlecht, was der Realität entspricht — ein System, das 99% der positiven Fälle übersieht, ist nutzlos).

Für Multi-Class-Klassifikation gibt es drei Aggregierungsvarianten. Macro-F1: F1 wird pro Klasse berechnet und gemittelt — jede Klasse wiegt gleich, auch seltene. Micro-F1: Globale Precision und Recall über alle Klassen hinweg — häufige Klassen dominieren. Weighted-F1: Gewichtet nach Klassenhäufigkeit.

F1 hat Kritiker: Es gewichtet Precision und Recall gleich, aber in der Praxis ist oft eines wichtiger. In der Medizin: Recall ist kritisch (keinen kranken Patienten übersehen). Im Spam-Filter: Precision ist kritisch (keine wichtige Mail löschen). Fβ-Score erlaubt eine explizite Gewichtung: β > 1 betont Recall, β < 1 betont Precision.

Evaluation Statistics
🔗 Link kopiert!