Categorical Data
Kategorische Daten (Categorical Data) sind Variablen, die eine begrenzte Anzahl diskreter Werte annehmen — im Gegensatz zu numerischen Daten, die auf einem kontinuierlichen Spektrum liegen. Farben, Geschlecht, Wochentage, Produktkategorien sind kategorisch.
Für Machine Learning stellen kategorische Daten eine technische Herausforderung dar: Die meisten Algorithmen rechnen mit Zahlen, nicht mit Labels. Die naive Lösung — „rot" = 1, „blau" = 2, „grün" = 3 — impliziert eine Ordnung, die nicht existiert (3 > 1, also grün > rot?). Das Modell lernt falsche Zusammenhänge.
One-Hot Encoding löst das, indem jeder Wert eine eigene binäre Spalte bekommt: rot = [1,0,0], blau = [0,1,0], grün = [0,0,1]. Das funktioniert bei wenigen Kategorien, skaliert aber schlecht: Eine Variable mit 10.000 Kategorien (z.B. Postleitzahlen) erzeugt 10.000 Spalten.
Embeddings bieten eine kompaktere Lösung. Statt einer 10.000-dimensionalen Sparse-Darstellung wird jede Kategorie auf einen dichten Vektor mit z.B. 50 Dimensionen abgebildet. Das Modell lernt diese Abbildung während des Trainings. Entity Embeddings (Guo & Berkhahn, 2016) zeigten, dass Embeddings für kategorische Daten sogar semantische Ähnlichkeiten erfassen: Nahe beieinander liegende Postleitzahlen ergeben ähnliche Vektoren.
Gradient-Boosting-Bibliotheken wie CatBoost (Yandex) und LightGBM können kategorische Features nativ verarbeiten, ohne manuelle Kodierung — einer der Gründe für ihre Beliebtheit bei tabellarischen Daten.