Auto-Regressive
Autoregressive Modelle erzeugen ihre Ausgabe Stück für Stück, wobei jedes neue Element von allen vorherigen abhängt. GPT, Claude, Gemini — praktisch alle großen Sprachmodelle funktionieren nach diesem Prinzip.
Das Verfahren lässt sich am Beispiel von Textgenerierung illustrieren. Das Modell erhält die Wörter „Die Ampel ist" und berechnet eine Wahrscheinlichkeitsverteilung über das gesamte Vokabular für das nächste Wort. Vielleicht: „rot" (30%), „grün" (25%), „kaputt" (5%), … Ein Wort wird ausgewählt (ob zufällig oder wahrscheinlichstes, steuert der Temperature-Parameter), an die Sequenz angehängt, und der Prozess wiederholt sich.
Mathematisch modellieren autoregressive Modelle die bedingte Wahrscheinlichkeit P(xₜ | x₁, x₂, …, xₜ₋₁). Diese faktorisierte Darstellung ist mächtig, hat aber eine inhärente Schwäche: Beim Training sieht das Modell den vollständigen Text und lernt, jede Position vorherzusagen (Teacher Forcing). Bei der Generierung dagegen arbeitet es mit seinen eigenen, möglicherweise fehlerhaften Vorhersagen — ein Fehler früh in der Sequenz kann sich fortpflanzen (Exposure Bias).
BERT verfolgt den entgegengesetzten Ansatz: Es ist ein nicht-autoregressives (maskiertes) Modell, das bidirektional arbeitet und gut für Verständnisaufgaben ist, aber nicht frei generieren kann. Diffusionsmodelle (Stable Diffusion) und Masked Language Models sind alternative Paradigmen, die den sequentiellen Engpass vermeiden — aber für Textgenerierung hat sich die Autoregression durchgesetzt.