Curated Dataset
Ein Curated Dataset ist ein handverlesener, sorgfältig aufbereiteter Datensatz — das Gegenteil der rohen, ungefilterten Datenmengen, die aus dem Internet gecrawlt werden. Die Kuratierung entscheidet maßgeblich über die Qualität des darauf trainierten Modells.
ImageNet (2009, Fei-Fei Li, Stanford) war der erste große kuratierte Datensatz, der Deep Learning ermöglichte: 14 Millionen Bilder, manuell in über 20.000 Kategorien sortiert von Crowdworkern auf Amazon Mechanical Turk. Der Aufwand war immens — und das Ergebnis revolutionär.
Für LLMs hat sich die Erkenntnis durchgesetzt, dass Datenqualität die Datenquantität schlägt. Llama 2 wurde auf einem sorgfältig kuratierten Mix trainiert und übertraf Modelle, die undifferenziert mehr Daten nutzten. LIMA (Zhou et al., 2023) zeigte, dass manchmal 1.000 sorgfältig kuratierte Beispiele für effektives Feintuning reichen.
Kuratierung umfasst mehrere Schritte: Deduplizierung (identische und nahezu identische Inhalte entfernen), Qualitätsfilterung (Perplexity-basiert, Classifier-basiert), Toxizitätsbereinigung (Hassrede, explizite Inhalte), Sprachidentifikation, Formatbereinigung und thematische Balancierung.
Die Ironie: Je leistungsfähiger KI-Modelle werden, desto wichtiger wird die menschliche Arbeit der Datenkuratierung. Andrew Ngs „Data-Centric AI"-Bewegung betont genau das: Statt immer größere Modelle zu bauen, sollte der Fokus auf der systematischen Verbesserung der Trainingsdaten liegen.