Cross-Entropy
Cross-Entropy ist die am weitesten verbreitete Loss Function für Klassifikationsaufgaben im Deep Learning — die mathematische Formulierung, die misst, wie gut ein Modell Wahrscheinlichkeitsverteilungen vorhersagt.
Die Intuition: Cross-Entropy misst den „Abstand" zwischen der vorhergesagten Wahrscheinlichkeitsverteilung (Was das Modell denkt) und der wahren Verteilung (Was tatsächlich der Fall ist). Je besser die Vorhersage, desto niedriger die Cross-Entropy.
Für binäre Klassifikation: H = -(y × log(p) + (1-y) × log(1-p)), wobei y das Label (0 oder 1) und p die vorhergesagte Wahrscheinlichkeit ist. Wenn das Modell die richtige Klasse mit 100% vorhersagt, ist die Cross-Entropy 0. Wenn es die falsche Klasse mit 100% vorhersagt, wird die Cross-Entropy unendlich groß.
Für Multi-Class-Klassifikation wird die Formel auf K Klassen verallgemeinert: H = -Σ_k y_k × log(p_k). Nur der Term für die wahre Klasse trägt bei — alle anderen y_k sind 0. Das ist äquivalent zum Negative Log-Likelihood der wahren Klasse.
Cross-Entropy hat gegenüber MSE (Mean Squared Error) einen entscheidenden Vorteil für Klassifikation: Der Gradient verschwindet nicht bei extremen Vorhersagen. MSE hat bei Sigmoid-Ausgaben nahe 0 oder 1 fast keine Steigung — das Modell lernt kaum. Cross-Entropy hat auch bei extremen Fehlvorhersagen starke Gradienten, was schnelleres und stabileres Lernen ermöglicht.
Focal Loss (Lin et al., 2017) modifiziert Cross-Entropy für unbalancierte Daten: Leichte Beispiele bekommen kleinere Gewichte, schwere größere.