Optimierung

AdaGrad

AdaGrad (Adaptive Gradient) war 2011 ein wichtiger Fortschritt in der Optimierung neuronaler Netze. Der Algorithmus, vorgestellt von John Duchi, Elad Hazan und Yoram Singer, löste ein spezifisches Problem: Manche Parameter eines Modells brauchen große Lernschritte, andere winzige — und eine einheitliche Lernrate wird dem nicht gerecht.

AdaGrads Lösung: Jeder Parameter bekommt seine eigene adaptive Lernrate. Parameter, die häufig große Gradienten erhalten (weil sie für oft vorkommende Features zuständig sind), bekommen schrittweise kleinere Updates. Parameter für seltene Features behalten größere Schritte. Das geschieht durch die Akkumulation der quadrierten Gradienten über die Trainingszeit.

In der Praxis bewährt sich AdaGrad besonders bei dünn besetzten Daten (Sparse Data) — etwa bei der Verarbeitung natürlicher Sprache, wo ein Vokabular Hunderttausende Wörter umfasst, die meisten aber selten vorkommen. Google setzte AdaGrad erfolgreich für das Training großer Modelle auf Klick-Vorhersage ein.

Die größte Schwäche: Die Lernrate kann nur sinken, nie steigen. Bei langem Training schrumpft sie gegen Null — das Modell hört effektiv auf zu lernen. Genau dieses Problem adressierten die Nachfolger RMSProp (Hinton, 2012) und Adam (Kingma & Ba, 2014), die nur ein Fenster vergangener Gradienten berücksichtigen.

Algorithm Training

AdaGrad

Verwandte Begriffe

Fehler melden

Die KI Woche als App