Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Daten

Dimensionality Reduction

Dimensionality Reduction (Dimensionsreduktion) transformiert hochdimensionale Daten in einen niedrigdimensionalen Raum — idealerweise unter Beibehaltung der wesentlichen Strukturen und Beziehungen.

Das Ziel: Ein 10.000-dimensionaler Datensatz enthält oft redundante oder korrelierte Features. Dimensionsreduktion komprimiert die Information auf die wesentlichen Achsen — weniger Dimensionen, aber kaum Informationsverlust.

Die wichtigsten Methoden: PCA (Principal Component Analysis) — lineare Projektion auf die Achsen maximaler Varianz. Seit Karl Pearsons Originalarbeit (1901) die Standard-Methode. Schnell, mathematisch fundiert, aber nur linear. t-SNE (van der Maaten & Hinton, 2008) — nichtlineare Methode, die Nachbarschaftsbeziehungen erhält. Erzeugt beeindruckende 2D-Visualisierungen hochdimensionaler Cluster — aber die Achsen haben keine interpretierbare Bedeutung. UMAP (McInnes et al., 2018) — schneller als t-SNE, bessere globale Strukturerhaltung. Hat sich als Standard für Embedding-Visualisierung durchgesetzt. Autoencoders — neuronale Netze, die nichtlineare Kompressionen lernen, mit dem Bottleneck als niedrigdimensionale Repräsentation.

Anwendungen: Visualisierung (10.000-dimensionale Embeddings als 2D-Plot darstellen), Preprocessing (redundante Features eliminieren, bevor ein Modell trainiert wird), Noise Reduction (hochfrequentes Rauschen in den unwichtigsten Dimensionen eliminieren) und Feature Extraction (die reduzierten Dimensionen als Features für ein nachgelagertes Modell verwenden).

Die Tradeoff: Weniger Dimensionen = weniger Information. Die Entscheidung, wie viele Dimensionen behalten werden, erfordert Erfahrung oder systematische Methoden (Scree Plot, kumulierte erklärte Varianz).

Preprocessing Analysis