Preprocessing

Cleaning

Data Cleaning (Datenbereinigung) ist der Prozess, Fehler, Inkonsistenzen und Unvollständigkeiten in Datensätzen zu identifizieren und zu korrigieren — und es ist mit Abstand der zeitaufwendigste Teil der meisten ML-Projekte.

Die Daumenregel der Branche: 80% der Zeit eines Data Scientists geht für Datenaufbereitung drauf, nur 20% für die eigentliche Modellierung. Das klingt frustrierend, ist aber unvermeidlich. Reale Daten sind chaotisch: fehlende Werte, Duplikate, inkonsistente Formate, Tippfehler, veraltete Einträge, widersprüchliche Quellen.

Die häufigsten Cleaning-Aufgaben: Fehlende Werte (Imputation durch Mittelwert, Median oder modellbasierte Verfahren). Duplikate (exakte und unscharfe Duplikaterkennung). Format-Inkonsistenzen (Datumsformate, Dezimaltrennzeichen, Zeichenkodierung). Ausreißer (statistische Anomalien, die das Training verzerren). Typkonvertierung (Zahlen als Strings, Kategorien als Zahlen).

Automatisierte Cleaning-Tools wie OpenRefine, Trifacta und pandas-profiling erleichtern die Arbeit. Neuere Ansätze nutzen LLMs für die Bereinigung: Sie können Tippfehler in Firmennamen korrigieren, Adressen normalisieren und inkonsistente Kategorien vereinheitlichen.

Andrew Ng prägte den Begriff „Data-Centric AI" und argumentiert, dass die Verbesserung der Datenqualität oft mehr bringt als die Verbesserung des Modells. Die besten Algorithmen der Welt können aus fehlerhaften Daten keine guten Vorhersagen machen — Garbage In, Garbage Out bleibt die eiserne Regel des maschinellen Lernens.

Data

Cleaning

Verwandte Begriffe

Fehler melden

Die KI Woche als App