Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Architektur

GPT (Generative Pre-trained Transformer)

GPT (Generative Pre-trained Transformer) ist die Modellarchitektur, die von OpenAI entwickelt wurde und die aktuelle KI-Revolution ausgelöst hat — eine Decoder-Only-Transformer-Familie, die durch unsupervised Pre-Training und anschließendes Feintuning allgemeine Sprachfähigkeiten erlangt.

Die Evolution: GPT-1 (2018, 117M Parameter) bewies das Konzept: Ein auf großem Textkorpus vortrainiertes Modell kann mit wenig Feintuning verschiedene NLP-Aufgaben lösen. GPT-2 (2019, 1,5B) zeigte erstaunlich kohärente Textgenerierung — OpenAI hielt die Veröffentlichung zunächst zurück aus Sorge vor Missbrauch. GPT-3 (2020, 175B) demonstrierte Few-Shot-Learning ohne Feintuning — eine Emergenz, die das Paradigma des „Promptings" etablierte. GPT-4 (2023, geschätzt 1,8T mit MoE) erreichte nahezu menschliche Leistung auf meisten Benchmarks. GPT-4o (2024) vereinte Text, Audio und Bild in einem nativ multimodalen Modell.

Die Architektur: Autoregressive Generierung — das Modell sagt das nächste Token vorher, basierend auf allen vorherigen. Decoder-Only bedeutet: kein separater Encoder, das Modell arbeitet ausschließlich mit maskierter Self-Attention (causal attention), sodass jedes Token nur die vorherigen sehen kann.

Das Trainingsparadigma: Pre-Training (selbstüberwacht, nächstes Token vorhersagen, auf Billionen Tokens) → Supervised Fine-Tuning (auf kuratierte Instruktionsdaten) → RLHF (Reinforcement Learning from Human Feedback, für Harmlosigkeit und Nützlichkeit).

GPT hat ein Paradigma definiert: „Skaliert man ein Transformer-Modell mit genug Daten und Compute, entstehen Fähigkeiten, die nicht explizit definiert wurden." Diese Beobachtung — emergente Fähigkeiten durch Skalierung — ist die treibende These der aktuellen KI-Forschung.

LLM NLP