Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Architektur

Autoregressive Models

Autoregressive Models generieren Daten sequentiell — jedes neue Element wird auf Basis aller vorherigen vorhergesagt. Das Prinzip klingt simpel und ist die Grundlage praktisch aller großen Sprachmodelle.

Mathematisch modelliert ein autoregressives Modell die gemeinsame Wahrscheinlichkeit einer Sequenz als Produkt bedingter Wahrscheinlichkeiten: P(x₁, x₂, …, xₙ) = P(x₁) × P(x₂|x₁) × P(x₃|x₁,x₂) × … GPT-4 berechnet bei jeder Position eine Wahrscheinlichkeitsverteilung über sein gesamtes Vokabular (ca. 100.000 Tokens) und wählt das nächste Token aus.

Die Stärken liegen in der Flexibilität: Autoregressive Modelle können beliebig lange, kohärente Texte erzeugen. Die Schwäche: Sie sind inhärent unidirektional. Beim Vorhersagen des nächsten Tokens kennen sie nur den bisherigen Kontext, nicht den zukünftigen. BERT adressierte das durch bidirektionales Training, kann aber nicht frei generieren.

In der Bildgenerierung existieren ebenfalls autoregressive Ansätze — Google's Parti und andere Image GPTs erzeugen Bilder Pixel für Pixel oder Patch für Patch. Allerdings haben Diffusionsmodelle (Stable Diffusion, DALL-E 3) hier die Oberhand gewonnen, weil sie das gesamte Bild gleichzeitig erzeugen können.

Die Forschung arbeitet an Hybridansätzen: Medusa und Speculative Decoding beschleunigen autoregressive Generierung, indem sie mehrere Tokens gleichzeitig vorhersagen und verifizieren.

NLP Generation