Clustering
Clustering ist eine Methode des unüberwachten Lernens, die Datenpunkte automatisch in Gruppen (Cluster) unterteilt, ohne dass vordefinierte Label vorhanden sind. Das Modell entdeckt die Struktur der Daten eigenständig.
Die intuitive Idee: Ähnliche Datenpunkte gehören in denselben Cluster, unähnliche in verschiedene. Was „ähnlich" bedeutet, definiert der Algorithmus durch ein Distanzmaß — euklidische Distanz, Cosine Similarity, Manhattan-Distanz und andere.
Die wichtigsten Algorithmen unterscheiden sich fundamental. K-Means (Lloyd, 1957) partitioniert Daten in K Cluster durch iterative Centroid-Optimierung — schnell, aber empfindlich gegenüber Ausreißern und der Cluster-Form. DBSCAN (Ester et al., 1996) findet Cluster beliebiger Form anhand der lokalen Dichte und braucht kein vorgegebenes K. Hierarchisches Clustering baut eine Baumstruktur (Dendrogramm), die Cluster auf verschiedenen Granularitätsebenen zeigt.
In der KI-Praxis ist Clustering allgegenwärtig. Kundensegmentierung: Kundengruppen mit ähnlichem Kaufverhalten identifizieren. Dokumentengruppierung: Nachrichtenartikel automatisch in Themen-Cluster ordnen. Anomalieerkennung: Datenpunkte, die in keinen Cluster passen, sind potentielle Anomalien. Bildkompression: K-Means reduziert die Farbpalette auf K repräsentative Farben.
Die Herausforderung liegt in der Evaluation: Ohne Labels gibt es keine „richtige" Antwort. Metriken wie der Silhouette-Score, die Calinski-Harabasz-Index oder der Davies-Bouldin-Index geben Hinweise, aber die finale Bewertung erfordert oft Domänenwissen.