Data Visualization
Data Visualization (Datenvisualisierung) ist die grafische Darstellung von Daten, um Muster, Trends und Zusammenhänge sichtbar zu machen. Im ML-Kontext ist sie sowohl Analyse-Werkzeug als auch Kommunikationsmedium.
Edward Tufte, der einflussreichste Theoretiker der Datenvisualisierung, formulierte das Grundprinzip: „Graphics reveal data." Eine gute Visualisierung zeigt dem Betrachter in Sekunden, wofür ein Analyst Stunden brauchen würde.
Im ML-Workflow ist Visualisierung an mehreren Stellen unverzichtbar. Explorative Datenanalyse (EDA): Histogramme, Scatterplots, Boxplots und Korrelationsmatrizen zeigen Verteilungen, Ausreißer und Zusammenhänge in den Rohdaten. Trainings-Monitoring: Loss-Kurven, Learning-Rate-Schedules und Gradient-Statistiken zeigen, ob das Training konvergiert. Modell-Evaluation: ROC-Kurven, Confusion Matrizen und Calibration Plots bewerten die Modellleistung. Interpretierbarkeit: SHAP-Plots, Feature Importance und Attention Maps erklären, warum das Modell bestimmte Entscheidungen trifft.
Die Toollandschaft: matplotlib und seaborn (Python, Standardbibliotheken), Plotly (interaktive Plots), D3.js (Web-basiert, maximale Flexibilität), Tableau und Power BI (Business Intelligence, Drag-and-Drop), Weights & Biases und TensorBoard (ML-spezifisches Monitoring).
Die häufigsten Fehler: Zu viele Informationen auf einem Chart (Overplotting), irreführende Achsenskalierung, Tortendiagramme für mehr als 3-4 Kategorien und fehlende Beschriftungen. Die Grundregel: Jede Visualisierung sollte genau eine Frage beantworten.