Accuracy Paradox
Das Accuracy Paradox ist eine der häufigsten Fallstricke bei der Bewertung von Machine-Learning-Modellen. Es beschreibt die Situation, in der ein Modell eine beeindruckend hohe Trefferquote aufweist — und trotzdem nutzlos ist.
Ein konkretes Beispiel: Ein Modell soll Kreditkartenbetrug erkennen. Von 10.000 Transaktionen sind 9.950 legitim und nur 50 betrügerisch. Ein naives Modell, das einfach jede Transaktion als „legitim" klassifiziert, erreicht 99,5 Prozent Accuracy. Klingt exzellent — erkennt aber keinen einzigen Betrugsfall. Die hohe Accuracy ist eine Illusion, hervorgerufen durch das extreme Klassenungleichgewicht (Class Imbalance).
Deshalb setzen Praktiker bei unbalancierten Daten auf aussagekräftigere Metriken: Precision (wie viele der erkannten Betrugsfälle waren tatsächlich Betrug?), Recall (wie viele der echten Betrugsfälle wurden erkannt?) und den F1-Score als harmonisches Mittel beider Werte. Auch die AUC-ROC-Kurve und der Matthews Correlation Coefficient (MCC) sind robuster als blanke Accuracy.
Das Paradox ist nicht nur ein akademisches Problem. In der medizinischen Diagnostik, bei Spam-Filtern und in der Betrugserkennung kann die blinde Optimierung auf Accuracy zu gefährlich falschen Schlüssen führen.