Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Daten

Data Set

Ein Dataset (Datensatz) ist die strukturierte Sammlung von Daten, die für Training, Validierung und Test eines ML-Modells verwendet wird. Die Qualität des Datasets ist der einzelne wichtigste Faktor für die Qualität des Modells.

Die Standardaufteilung: Training Set (typisch 70-80%, darauf lernt das Modell), Validation Set (10-15%, für Hyperparameter-Tuning und Early Stopping) und Test Set (10-15%, einmalige finale Evaluation). Strenge Trennung ist Pflicht — Datenleck zwischen den Sets verfälscht die Ergebnisse.

Berühmte Datasets haben die KI-Geschichte geprägt. MNIST (handgeschriebene Ziffern, 60.000 Bilder) war das „Hello World" des Deep Learning. ImageNet (14 Millionen Bilder, 20.000+ Kategorien) löste 2012 die CNN-Revolution aus. SQuAD (Reading Comprehension) trieb NLP-Fortschritte. MS COCO setzte Standards für Objekterkennung und Segmentierung.

Für LLMs sind die Datasets gigantisch: The Pile (825 GB Text), RefinedWeb (5 Billionen Tokens), RedPajama. Die Kuration dieser Datensätze — Qualitätsfilterung, Deduplizierung, Toxizitätsbereinigung — ist mindestens so wichtig wie ihr Umfang.

Die kritische Erkenntnis: Datasets sind nie neutral. Sie spiegeln die Perspektiven, Vorurteile und Auslassungen ihrer Ersteller wider. Datasheets for Datasets (Gebru et al., 2018) schlugen vor, jeden Datensatz mit einer standardisierten Dokumentation zu versehen — analog zu Beipackzetteln für Medikamente. Die Fragen: Wer hat die Daten gesammelt? Zu welchem Zweck? Welche Bevölkerungsgruppen sind über- oder unterrepräsentiert?

Basis