Dense Vector
Ein Dense Vector ist ein numerischer Vektor, in dem alle oder die meisten Einträge von Null verschieden sind — im Gegensatz zu einem Sparse Vector, bei dem die Mehrheit der Einträge Null ist. Dense Vectors sind das Fundament moderner KI-Systeme.
Embeddings — die gelernten Repräsentationen von Wörtern, Sätzen, Bildern oder Nutzern — sind dense Vectors. Word2Vec erzeugt 300-dimensionale dichte Vektoren für jedes Wort. BERT-Embeddings haben 768 oder 1024 Dimensionen. OpenAIs text-embedding-3-large erzeugt 3072-dimensionale Vektoren.
Der Vorteil gegenüber Sparse Vectors: Dichte Vektoren erfassen semantische Ähnlichkeiten. In einem Word2Vec-Raum liegen „König" und „Monarchin" nahe beieinander, obwohl die Wörter lexikalisch verschieden sind. Die berühmte Analogie: König - Mann + Frau ≈ Königin.
Sparse Vectors (TF-IDF, Bag-of-Words, One-Hot-Encoding) haben Tausende bis Millionen Dimensionen, sind aber fast überall Null. Sie erfassen exakte Wortübereinstimmungen, aber keine Bedeutungsähnlichkeit: „Auto" und „Fahrzeug" haben in einem TF-IDF-Vektor keinen Zusammenhang.
Moderne Suchsysteme kombinieren beides: Hybrid Search verbindet sparse Retrieval (BM25, schnell für exakte Matches) mit dense Retrieval (Embedding-Suche, gut für semantische Ähnlichkeit). Vektordatenbanken (Pinecone, Weaviate, Chroma) sind im Kern optimierte Speicher- und Suchsysteme für dichte Vektoren.