Adam Optimizer
Adam (Adaptive Moment Estimation) ist der meistgenutzte Optimierungsalgorithmus im Deep Learning. Vorgestellt 2014 von Diederik Kingma und Jimmy Ba, wurde er zum De-facto-Standard, weil er in den meisten Situationen zuverlässig konvergiert — ohne aufwendiges Tuning.
Adam kombiniert zwei Ideen. Von RMSProp übernimmt er die adaptive Lernrate, die für jeden Parameter den Gradienten durch einen laufenden Durchschnitt der quadrierten Gradienten teilt — so bekommen Parameter mit großen Gradienten kleinere Schritte. Von klassischem Momentum übernimmt er die Trägheit: Der Optimizer „merkt sich" die Richtung vergangener Updates und gleitet über lokale Unebenheiten hinweg.
In der Praxis funktioniert Adam bei den meisten Netzarchitekturen gut mit den Standard-Hyperparametern (β₁ = 0.9, β₂ = 0.999, ε = 10⁻⁸). Das macht ihn besonders beliebt bei Einsteigern und beim schnellen Prototyping.
Adam hat aber Schwächen. Die Forschungsliteratur zeigt, dass SGD mit Momentum bei manchen Aufgaben (insbesondere in der Bildklassifikation) zu besser generalisierenden Modellen führt, auch wenn die Konvergenz langsamer ist. AdamW — eine Variante, die Weight Decay korrekt umsetzt — hat Adam in vielen modernen Architekturen (BERT, GPT) als Standard abgelöst. Trotzdem bleibt das Kingma-Ba-Paper eines der meistzitierten in der Geschichte des maschinellen Lernens.