Cluster
Ein Cluster ist eine Gruppe von Datenpunkten, die untereinander ähnlicher sind als zu Datenpunkten in anderen Gruppen. Cluster zu finden ist eine Kernaufgabe des unüberwachten Lernens — das Modell entdeckt Strukturen ohne vordefinierte Labels.
In der Datenanalyse ermöglichen Cluster die Segmentierung von Kundengruppen, die Gruppierung von Nachrichtenartikeln nach Themen, die Identifikation von Anomalien (Datenpunkte, die in keinen Cluster passen) und die Bildkompression (Farbpaletten reduzieren).
Die Interpretation ist kontextabhängig. Ein Algorithmus findet vielleicht drei Cluster in einem Kundendatensatz — aber erst das Domänenwissen des Analysten gibt ihnen Bedeutung: „Preissensitive Gelegenheitskäufer", „loyale Premiumkunden", „inaktive Bestandskunden." Ohne diese Interpretation sind Cluster nur geometrische Gruppierungen ohne Handlungsrelevanz.
Die Qualität von Clustern zu bewerten ist schwierig, weil keine „richtige" Antwort existiert. Interne Metriken messen die Kompaktheit und Separation der Cluster (Silhouette Score, Calinski-Harabasz Index). Externe Metriken vergleichen mit einer bekannten Gruppierung (Adjusted Rand Index, Normalized Mutual Information).
In der Infrastruktur bezeichnet „Cluster" auch einen Verbund von Computern (GPU-Cluster, Kubernetes-Cluster), die gemeinsam Aufgaben bearbeiten — eine andere Bedeutung, die aber den gleichen Grundgedanken teilt: Ressourcen bündeln, um gemeinsam mehr zu leisten als einzeln.