Embedding
Embeddings sind die numerischen Vektoren, die Konzepte (Wörter, Sätze, Bilder, Nutzer) in einem hochdimensionalen Raum repräsentieren — das mathematische Herzstück moderner KI-Systeme.
Die fundamentale Idee: Statt ein Wort als diskretes Symbol zu behandeln (ID 7482 im Vokabular), wird es als dinhafter Vektor dargestellt (z.B. [0.23, -0.17, 0.89, ...] in 768 Dimensionen). Semantisch ähnliche Wörter haben ähnliche Vektoren. Die berühmte Eigenschaft: König - Mann + Frau ≈ Königin.
Die Evolution: One-Hot-Encoding (jedes Wort ein Einheitsvektor — keine semantische Information). Word2Vec (Mikolov et al., Google, 2013) — lernte Embeddings aus der Kookurrenz von Wörtern, revolutionierte NLP. GloVe (Stanford, 2014) — ähnlicher Ansatz, basierend auf globalen Statistiken. ELMo (2018) — kontextualisierte Embeddings. BERT (2018) — tiefe kontextualisierte Embeddings durch Transformer.
Moderne Embedding-Modelle: OpenAI text-embedding-3, Cohere Embed v3, Sentence-BERT, Instructor-XL, bge-large — spezialisiert auf Retrieval, Clustering und semantischen Vergleich.
Anwendungen: Semantische Suche (Query und Dokument als Embeddings, Cosine Similarity als Ähnlichkeit). RAG (Retrieval-Augmented Generation — Wissensabruf über Embedding-Vergleich). Empfehlungssysteme (Nutzer und Items als Embeddings). Clustering (ähnliche Texte gruppieren). Anomalieerkennung (ungewöhnliche Embedding-Positionen).
Vektordatenbanken (Pinecone, Weaviate, Chroma) sind im Kern spezialisierte Speicher- und Suchsysteme für Embeddings — sie finden die K ähnlichsten Vektoren unter Milliarden in Millisekunden.