Embedding Layer
Ein Embedding Layer ist die erste Schicht vieler neuronaler Netze, die diskrete Eingaben (Wörter, Token, Kategorien) in dichte, lernbare Vektoren umwandelt — die Brücke zwischen symbolischer und numerischer Repräsentation.
In einem Transformer-Modell: Jedes Token im Vokabular (typisch 32.000-128.000 Tokens) wird auf einen Vektor der Embedding-Dimension abgebildet (z.B. 768 bei BERT, 4096 bei LLaMA-7B, 12288 bei GPT-4 geschätzt). Der Embedding Layer ist eine Lookup-Tabelle: Token-ID → Vektor. Die Gewichte dieser Tabelle werden während des Trainings gelernt.
Technisch ist der Embedding Layer eine trainierbare Matrix der Größe [Vokabular × Embedding-Dim]. Der Forward Pass ist ein einfacher Lookup (kein Matrixprodukt) — extrem effizient. Der Speicherbedarf kann allerdings erheblich sein: 128.000 Tokens × 4.096 Dimensionen × 2 Bytes (FP16) ≈ 1 GB allein für den Embedding Layer.
Positional Embeddings ergänzen die Token-Embeddings um Positionsinformation: Welches Token steht an welcher Stelle im Satz? Sinusförmige Embeddings (Original-Transformer), gelernte Embeddings (GPT), RoPE (Rotary Position Embedding, LLaMA) und ALiBi (Attention with Linear Biases) sind verschiedene Ansätze.
Die geteilte Embedding-Schicht: In vielen LLMs teilen sich der Input-Embedding-Layer und der Output-Layer (der die Vorhersage des nächsten Tokens berechnet) dieselbe Matrix — „Weight Tying". Das spart Parameter und verbessert oft die Generalisierung.