Embedding Space
Der Embedding Space (Einbettungsraum) ist der hochdimensionale Vektorraum, in dem Embeddings leben — die gelernte geometrische Landschaft, in der Bedeutungen als Positionen und Beziehungen als Richtungen kodiert sind.
Die zentrale Eigenschaft: Semantisch ähnliche Konzepte sind nahe beieinander, unähnliche weit voneinander entfernt. „Hund" und „Katze" liegen nahe, „Hund" und „Quantenphysik" weit auseinander. Die berühmte Word2Vec-Analogie lebt im Embedding Space: König - Mann + Frau ≈ Königin — die Geschlechtsrichtung ist ein konsistenter Vektor.
Multimodale Embedding Spaces (CLIP, ImageBind) gehen weiter: Bilder und Texte werden in denselben Raum eingebettet. Ein Foto eines Hundes und der Text „ein goldener Retriever beim Spielen" landen nahe beieinander — obwohl sie verschiedene Modalitäten sind.
Die Struktur des Embedding Space kodiert implizites Wissen. Cluster bilden semantische Gruppen (Länder, Berufe, Tiere). Lineare Richtungen kodieren Beziehungen (Hauptstadt-Land, Singular-Plural, Vergangenheit-Gegenwart). Subspaces kodieren Eigenschaften (ein „Sentiment-Subspace" trennt positive von negativen Kontexten).
Die Exploration von Embedding Spaces — per t-SNE, UMAP oder PCA auf 2D projiziert — liefert faszinierende Einblicke in das „Weltbild" eines Modells. Embedding-Projektoren (TensorFlow Projector, Hugging Face Spaces) machen diese Erkundung interaktiv.
Die philosophische Frage: Ist der Embedding Space ein „Verständnis" der Welt — oder nur eine statistische Landkarte? Die Antwort hat Implikationen für die Frage, ob LLMs wirklich „verstehen" oder „nur" Muster erkennen.