Mathematik

Distance Matrix

Eine Distance Matrix (Distanzmatrix) ist eine n×n-Tabelle, die die paarweisen Abstände zwischen allen n Datenpunkten eines Datensatzes enthält. Sie ist die Grundlage vieler Clustering-, Embedding- und Visualisierungsverfahren.

Jeder Eintrag d(i,j) gibt den Abstand zwischen Punkt i und Punkt j an. Die Matrix ist symmetrisch (d(i,j) = d(j,i)), hat Nullen auf der Diagonale (d(i,i) = 0) und erfüllt die Dreiecksungleichung (d(i,k) ≤ d(i,j) + d(j,k)) — wenn sie auf einer echten Metrik basiert.

Die Wahl der Distanzmetrik ist eine Modellentscheidung. Euklidische Distanz: Luftlinie, der intuitive Abstand in 2D/3D. In hohen Dimensionen wird sie zunehmend weniger aussagekräftig (Curse of Dimensionality). Manhattan-Distanz: Summe der absoluten Differenzen, robuster bei hohen Dimensionen. Cosine Similarity: Misst den Winkel zwischen Vektoren, ignoriert die Länge — Standard für Textvergleiche. Hamming-Distanz: Anzahl der unterschiedlichen Positionen — für binäre oder kategoriale Daten.

Anwendungen: Hierarchisches Clustering baut aus der Distanzmatrix ein Dendrogramm. MDS (Multidimensional Scaling) erzeugt aus Distanzen eine 2D-Visualisierung. k-Nearest-Neighbors nutzt Distanzen für Klassifikation und Regression.

Die Herausforderung: Eine Distance Matrix für n Datenpunkte hat n² Einträge. Bei 1 Million Datenpunkten = 1 Billion Einträge. Approximierte Methoden (Locality Sensitive Hashing, Annoy, FAISS) umgehen das Problem, indem sie nur näherungsweise nächste Nachbarn finden — in der Praxis ausreichend genau.

Clustering

Distance Matrix

Verwandte Begriffe

Fehler melden

Die KI Woche als App