Class Imbalance
Class Imbalance (Klassenungleichgewicht) ist eines der häufigsten und praxisrelevantesten Probleme im Machine Learning: Wenn eine Klasse in den Trainingsdaten dramatisch überrepräsentiert ist, lernt das Modell, die seltene Klasse zu ignorieren.
Das Problem ist allgegenwärtig. Betrugserkennung: 99,9% der Transaktionen sind legitim. Krebsdiagnostik: 99% der Biopsien sind negativ. Fehlerdiagnose in der Fertigung: 99,5% der Produkte sind fehlerfrei. Ein naives Modell erreicht in all diesen Fällen exzellente Accuracy, indem es einfach immer „normal" vorhersagt — und dabei jeden interessanten Fall verpasst (Accuracy Paradox).
Gegenmutmaßen greifen auf verschiedenen Ebenen. Daten-Ebene: Oversampling der Minderheitsklasse (SMOTE erzeugt synthetische Beispiele), Undersampling der Mehrheitsklasse, oder beides. Algorithmus-Ebene: Gewichtung der Loss Function, sodass Fehler bei der seltenen Klasse stärker bestraft werden (Class Weights). Schwellenwert-Ebene: Verschiebung des Decision Threshold — statt bei 0.5 abzuschneiden, wird die Schwelle gesenkt, um mehr Fälle der Minderheitsklasse zu erkennen.
Chawla et al. (2002) prägten mit SMOTE den meistzitierten Algorithmus in diesem Bereich. Neuere Ansätze wie Focal Loss (Lin et al., 2017, entwickelt für Objekterkennung bei RetinaNet) adressieren das Problem elegant innerhalb der Loss-Berechnung.
Die Wahl der Metrik ist entscheidend: Precision, Recall, F1-Score, AUC-ROC und die Precision-Recall-Kurve sind bei Imbalance aussagekräftiger als Accuracy.