Zum Inhalt springen
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
📐 Mathematik & Statistik Standard

Cosine Similarity

Cosine Similarity (Kosinusähnlichkeit) ist das Standardmaß, um die Ähnlichkeit zweier Vektoren zu bestimmen — und damit das mathematische Fundament hinter semantischer Suche, Empfehlungssystemen und Embedding-Vergleichen in der KI. Das Prinzip: Statt den Abstand zwischen zwei Vektoren zu messen (euklidische Distanz), misst Cosine Similarity den Winkel zwischen ihnen. Zwei Vektoren, die in dieselbe Richtung zeigen, haben eine Ähnlichkeit von 1.0 — unabhängig von ihrer Länge. Orthogonale Vektoren haben 0.0, entgegengesetzte Vektoren -1.0. Im NLP wird jedes Wort, jeder Satz, jedes Dokument als hochdimensionaler Vektor repräsentiert (Embedding). Die Cosine Similarity dieser Embeddings misst die semantische Nähe: „König" und „Monarchin" haben hohe Ähnlichkeit, „König" und „Fahrrad" niedrige. Der Vorteil gegenüber euklidischer Distanz: Cosine Similarity ist invariant gegenüber der Vektorlänge — ein kurzer und ein langer Text zum selben Thema werden als ähnlich erkannt. Praktische Anwendungen sind ubiquitär. Semantic Search: Die Suchquery wird als Embedding kodiert und per Cosine Similarity mit Dokumenten-Embeddings verglichen. Empfehlungssysteme: Nutzerprofile und Items werden als Vektoren dargestellt und verglichen. Plagiatserkennung: Textähnlichkeit über Embedding-Vergleich. Vektordatenbanken wie Pinecone, Weaviate, Chroma und FAISS sind im Kern optimierte Cosine-Similarity-Suchmaschinen — sie finden die K ähnlichsten Vektoren unter Milliarden in Millisekunden.
Distance
🔗 Link kopiert!