📊 Daten & Verarbeitung Standard

Categorical Data

Kategorische Daten (Categorical Data) sind Variablen, die eine begrenzte Anzahl diskreter Werte annehmen — im Gegensatz zu numerischen Daten, die auf einem kontinuierlichen Spektrum liegen. Farben, Geschlecht, Wochentage, Produktkategorien sind kategorisch. Für Machine Learning stellen kategorische Daten eine technische Herausforderung dar: Die meisten Algorithmen rechnen mit Zahlen, nicht mit Labels. Die naive Lösung — „rot" = 1, „blau" = 2, „grün" = 3 — impliziert eine Ordnung, die nicht existiert (3 > 1, also grün > rot?). Das Modell lernt falsche Zusammenhänge. One-Hot Encoding löst das, indem jeder Wert eine eigene binäre Spalte bekommt: rot = [1,0,0], blau = [0,1,0], grün = [0,0,1]. Das funktioniert bei wenigen Kategorien, skaliert aber schlecht: Eine Variable mit 10.000 Kategorien (z.B. Postleitzahlen) erzeugt 10.000 Spalten. Embeddings bieten eine kompaktere Lösung. Statt einer 10.000-dimensionalen Sparse-Darstellung wird jede Kategorie auf einen dichten Vektor mit z.B. 50 Dimensionen abgebildet. Das Modell lernt diese Abbildung während des Trainings. Entity Embeddings (Guo & Berkhahn, 2016) zeigten, dass Embeddings für kategorische Daten sogar semantische Ähnlichkeiten erfassen: Nahe beieinander liegende Postleitzahlen ergeben ähnliche Vektoren. Gradient-Boosting-Bibliotheken wie CatBoost (Yandex) und LightGBM können kategorische Features nativ verarbeiten, ohne manuelle Kodierung — einer der Gründe für ihre Beliebtheit bei tabellarischen Daten.

Quellen & Referenzen

Statistics Types

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Categorical Data

Quellen & Referenzen

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Categorical Data

Quellen & Referenzen

Verwandte Begriffe

Fehler melden

Die KI Woche als App