Encoder-Decoder
Die Encoder-Decoder-Architektur ist das Grundmuster hinter Übersetzungssystemen, Text-zu-Bild-Modellen und vielen anderen Sequence-to-Sequence-Aufgaben: Der Encoder verarbeitet die Eingabe, der Decoder erzeugt die Ausgabe.
Der Original-Transformer (Vaswani et al., 2017) folgte diesem Schema für maschinelle Übersetzung. Der Encoder liest den gesamten Quellsatz und erzeugt eine kontextualisierte Repräsentation. Der Decoder generiert die Übersetzung Wort für Wort und nutzt dabei sowohl die eigene bisherige Ausgabe (Self-Attention) als auch die Encoder-Repräsentation (Cross-Attention).
Die Architektur hat sich verzweigt. Encoder-Only: BERT maskiert Tokens und lernt bidirektionale Repräsentationen — ideal für Verstehensaufgaben (Klassifikation, NER, Suche). Decoder-Only: GPT generiert Token autoregressiv — ideal für Textgenerierung. Encoder-Decoder: T5, BART, mT5 — nutzen das vollständige Muster und sind vielseitig für Übersetzung, Zusammenfassung und Fragebeantwortung.
In der Bildgenerierung: Stable Diffusion nutzt einen VAE-Encoder (Bild → Latent Space), einen U-Net-Denoiser (Rauschentfernung im Latent Space, geleitet durch CLIP-Text-Encoder) und einen VAE-Decoder (Latent Space → Bild). Die Encoder-Decoder-Logik durchzieht die gesamte Pipeline.
Für Sprache-zu-Text: Whisper (OpenAI) nutzt eine Encoder-Decoder-Architektur: Der Encoder verarbeitet das Audiosignal, der Decoder erzeugt die Transkription.
Die Wahl zwischen diesen Varianten ist eine der fundamentalsten Architekturentscheidungen — sie bestimmt, wofür ein Modell geeignet ist und wofür nicht.