Epoch
Eine Epoch ist ein vollständiger Durchlauf durch den gesamten Trainingsdatensatz. Wenn ein Datensatz 10.000 Bilder enthält und das Modell jedes einzelne einmal gesehen hat, ist eine Epoch abgeschlossen.
Die Anzahl der Epochs ist ein kritischer Hyperparameter. Zu wenige Epochs: Das Modell hat nicht genug gelernt (Underfitting). Zu viele Epochs: Das Modell hat die Trainingsdaten auswendig gelernt (Overfitting). Die optimale Zahl liegt irgendwo dazwischen und hängt von Datensatzgröße, Modellkomplexität und Lernrate ab.
In der Praxis: Bildklassifikation mit CNNs: typisch 50-300 Epochs. LLM-Pretraining: manchmal nur 1-3 Epochs über den gesamten Datensatz — bei Billionen Tokens reicht weniger Wiederholung. Feintuning: oft 1-5 Epochs. Bei kleinen Datensätzen: Hunderte bis Tausende Epochs.
Early Stopping beendet das Training, wenn die Validierungsleistung sich nicht mehr verbessert — statt eine feste Epoch-Zahl vorzugeben. Das ist in der Praxis robuster als die manuelle Wahl.
Die Beziehung zwischen Epochs, Batch Size und Steps: Epochs × (Datensatzgröße / Batch Size) = Gesamtzahl der Trainingsschritte. Ein größerer Batch braucht weniger Steps pro Epoch, aber jeder Step verarbeitet mehr Daten.
Für LLM-Training wird oft nicht in Epochs, sondern in Tokens gedacht: „Das Modell wurde auf 2 Billionen Tokens trainiert." Chinchilla-Skalierung (Hoffmann et al., 2022) zeigte, dass die optimale Anzahl der Trainings-Tokens proportional zur Modellgröße sein sollte — zu wenig Datenexposition erzeugt ein suboptimales Modell.