Problem

Exploding Gradient

Exploding Gradients sind ein Trainingsproblem tiefer neuronaler Netze, bei dem die Gradienten während der Backpropagation exponentiell wachsen und das Training instabil machen oder zum Absturz bringen.

Das Problem entsteht bei der Kettenregel: Wenn die Gradienten in jeder Schicht einen Faktor > 1 haben, multiplizieren sie sich über viele Schichten zu astronomischen Werten. Das Ergebnis: Die Gewichtsupdates werden so groß, dass das Modell „explodiert" — die Weights werden NaN (Not a Number), der Loss springt auf Infinity.

Exploding Gradients sind das Gegenstück zu Vanishing Gradients (Gradienten werden zu klein). Beide Probleme werden durch die Multiplicative-Natur der Backpropagation verursacht und waren der Hauptgrund, warum tiefe neuronale Netze jahrzehntelang als untrainierbar galten.

Die wichtigste Gegenmaßnahme: Gradient Clipping — wenn die Norm des Gradientenvektors einen Schwellenwert überschreitet, wird er herunterskaliert. Pascanu et al. (2013) formalisierten Gradient Clipping und zeigten seine Effektivität bei RNNs. Heute ist Gradient Clipping Standard im LLM-Training (typisch: max_grad_norm = 1.0).

Weitere Lösungen: Sorgfältige Gewichtsinitialisierung (Xavier, He), Batch Normalization, Layer Normalization, Residual Connections (Skip Connections) und LSTM-Architektur (speziell designt, um in RNNs das Gradient-Problem zu lösen).

Im Kontext des LLM-Trainings können Exploding Gradients durch „Loss Spikes" — plötzliche Anstiege des Verlustwerts — sichtbar werden. Moderne Trainingsinfrastruktur erkennt und behandelt solche Spikes automatisch.

Training

Exploding Gradient

Verwandte Begriffe

Fehler melden

Die KI Woche als App