Encoder
Ein Encoder ist die Komponente eines neuronalen Netzes, die eine Eingabe in eine komprimierte, abstrakte Repräsentation umwandelt — das Gegenstück zum Decoder, der aus dieser Repräsentation eine Ausgabe erzeugt.
In der Transformer-Architektur: Der Encoder verarbeitet die gesamte Eingabe bidirektional — jedes Token kann auf jedes andere Token achten (Full Attention). BERT ist ein reiner Encoder: Er liest den gesamten Satz und erzeugt für jedes Token eine kontextualisierte Repräsentation. Diese Repräsentationen werden für Klassifikation, NER, Fragebeantwortung und Suche genutzt.
Der Encoder-Only-Ansatz eignet sich hervorragend für Verstehensaufgaben (den Text analysieren), aber nicht für Generierungsaufgaben (neuen Text erzeugen). BERT, RoBERTa, DeBERTa und ALBERT sind die prominentesten Encoder-Only-Modelle.
In Autoencodern (AE, VAE): Der Encoder komprimiert die Eingabe in einen niedrigdimensionalen Latent Space. Ein 128×128-Bild wird auf einen 512-dimensionalen Vektor komprimiert. Der Decoder rekonstruiert das Bild aus diesem Vektor. Das Bottleneck zwingt das Modell, die wesentliche Information zu extrahieren.
In Stable Diffusion: Der VAE-Encoder komprimiert ein 512×512-Bild in einen 64×64-Latent-Space (8× kleiner pro Dimension, 64× weniger Pixel). Die Diffusion findet im kompakten Latent Space statt — das macht das Training und die Inferenz drastisch effizienter als Pixel-Space-Diffusion.
Der Text-Encoder (typischerweise CLIP) in Text-zu-Bild-Modellen transformiert den Textprompt in einen Vektor, der den Generierungsprozess steuert — die Brücke zwischen Sprache und Bild.