Mathematik

Dimension

Dimension bezeichnet im ML die Anzahl der Variablen, Merkmale oder Koordinaten, die einen Datenpunkt definieren. Die Dimensionalität der Daten bestimmt fundamental, wie schwierig ein Problem ist.

Ein 2D-Punkt hat zwei Koordinaten (x, y). Ein Bild mit 224×224 Pixeln und 3 Farbkanälen lebt in einem 150.528-dimensionalen Raum. Ein Word2Vec-Embedding hat 300 Dimensionen. GPT-4 arbeitet intern in einem Raum mit geschätzt 12.288 Dimensionen.

Der „Fluch der Dimensionalität" (Curse of Dimensionality), geprägt von Richard Bellman (1961), beschreibt das Problem: Mit steigender Dimension wächst das Volumen des Raums exponentiell, und die verfügbaren Datenpunkte werden relativ gesehen immer spärlicher. In 2D kann man mit 100 Datenpunkten einen Raum gut abdecken. In 1000D braucht man astronomisch viele Punkte.

Praktische Konsequenzen: Entfernungsmetriken verlieren an Aussagekraft (in sehr hohen Dimensionen sind fast alle Punkte gleich weit voneinander entfernt). K-Nearest-Neighbors funktioniert schlecht. Modelle neigen zum Overfitting.

Dimensionsreduktion adressiert das Problem: PCA (Principal Component Analysis) projiziert Daten auf die Dimensionen mit der größten Varianz. t-SNE und UMAP erzeugen 2D/3D-Visualisierungen hochdimensionaler Daten. Autoencoders lernen nichtlineare Kompressionen. Feature Selection wählt die relevantesten Merkmale aus.

Paradoxerweise profitiert Deep Learning von hohen Dimensionen: Die Repräsentationen werden in den versteckten Schichten bewusst in hochdimensionale Räume projiziert, weil sich dort Muster besser trennen lassen.

Space

Dimension

Verwandte Begriffe

Fehler melden

Die KI Woche als App