Mathematik

Cosine Similarity

Cosine Similarity (Kosinusähnlichkeit) ist das Standardmaß, um die Ähnlichkeit zweier Vektoren zu bestimmen — und damit das mathematische Fundament hinter semantischer Suche, Empfehlungssystemen und Embedding-Vergleichen in der KI.

Das Prinzip: Statt den Abstand zwischen zwei Vektoren zu messen (euklidische Distanz), misst Cosine Similarity den Winkel zwischen ihnen. Zwei Vektoren, die in dieselbe Richtung zeigen, haben eine Ähnlichkeit von 1.0 — unabhängig von ihrer Länge. Orthogonale Vektoren haben 0.0, entgegengesetzte Vektoren -1.0.

Im NLP wird jedes Wort, jeder Satz, jedes Dokument als hochdimensionaler Vektor repräsentiert (Embedding). Die Cosine Similarity dieser Embeddings misst die semantische Nähe: „König" und „Monarchin" haben hohe Ähnlichkeit, „König" und „Fahrrad" niedrige. Der Vorteil gegenüber euklidischer Distanz: Cosine Similarity ist invariant gegenüber der Vektorlänge — ein kurzer und ein langer Text zum selben Thema werden als ähnlich erkannt.

Praktische Anwendungen sind ubiquitär. Semantic Search: Die Suchquery wird als Embedding kodiert und per Cosine Similarity mit Dokumenten-Embeddings verglichen. Empfehlungssysteme: Nutzerprofile und Items werden als Vektoren dargestellt und verglichen. Plagiatserkennung: Textähnlichkeit über Embedding-Vergleich.

Vektordatenbanken wie Pinecone, Weaviate, Chroma und FAISS sind im Kern optimierte Cosine-Similarity-Suchmaschinen — sie finden die K ähnlichsten Vektoren unter Milliarden in Millisekunden.

Distance

Cosine Similarity

Verwandte Begriffe

Fehler melden

Die KI Woche als App