Bias-Variance Tradeoff
Der Bias-Variance Tradeoff ist eines der fundamentalen Konzepte des maschinellen Lernens — ein Dilemma, das erklärt, warum ein Modell, das die Trainingsdaten perfekt gelernt hat, trotzdem schlecht auf neuen Daten funktionieren kann.
Ein Modell mit hohem Bias macht vereinfachende Annahmen und erfasst die wahren Muster in den Daten nicht ausreichend (Underfitting). Eine lineare Regression für eine sinuskurvenförmige Beziehung hätte hohen Bias. Ein Modell mit hoher Variance ist so flexibel, dass es auch das Rauschen in den Trainingsdaten lernt (Overfitting). Ein Polynom 100. Grades für 10 Datenpunkte hätte hohe Variance.
Der Tradeoff entsteht, weil Bias und Variance gegenläufig wirken: Komplexere Modelle reduzieren den Bias, erhöhen aber die Variance, und umgekehrt. Der Generalisierungsfehler auf neuen Daten ist die Summe aus Bias², Variance und irreduziblem Rauschen. Das optimale Modell minimiert diese Summe.
In der Praxis des Deep Learning ist der klassische Tradeoff allerdings komplizierter geworden. Überparametrisierte neuronale Netze — Modelle mit weit mehr Parametern als Datenpunkten — zeigen das Phänomen der „Double Descent" (Belkin et al., 2019): Jenseits des klassischen Overfitting-Punkts verbessert sich die Generalisierung wieder. Warum das funktioniert, ist theoretisch noch nicht vollständig verstanden und bleibt ein aktives Forschungsthema.