📊 Daten & Verarbeitung Standard

Curated Dataset

Ein Curated Dataset ist ein handverlesener, sorgfältig aufbereiteter Datensatz — das Gegenteil der rohen, ungefilterten Datenmengen, die aus dem Internet gecrawlt werden. Die Kuratierung entscheidet maßgeblich über die Qualität des darauf trainierten Modells. ImageNet (2009, Fei-Fei Li, Stanford) war der erste große kuratierte Datensatz, der Deep Learning ermöglichte: 14 Millionen Bilder, manuell in über 20.000 Kategorien sortiert von Crowdworkern auf Amazon Mechanical Turk. Der Aufwand war immens — und das Ergebnis revolutionär. Für LLMs hat sich die Erkenntnis durchgesetzt, dass Datenqualität die Datenquantität schlägt. Llama 2 wurde auf einem sorgfältig kuratierten Mix trainiert und übertraf Modelle, die undifferenziert mehr Daten nutzten. LIMA (Zhou et al., 2023) zeigte, dass manchmal 1.000 sorgfältig kuratierte Beispiele für effektives Feintuning reichen. Kuratierung umfasst mehrere Schritte: Deduplizierung (identische und nahezu identische Inhalte entfernen), Qualitätsfilterung (Perplexity-basiert, Classifier-basiert), Toxizitätsbereinigung (Hassrede, explizite Inhalte), Sprachidentifikation, Formatbereinigung und thematische Balancierung. Die Ironie: Je leistungsfähiger KI-Modelle werden, desto wichtiger wird die menschliche Arbeit der Datenkuratierung. Andrew Ngs „Data-Centric AI"-Bewegung betont genau das: Statt immer größere Modelle zu bauen, sollte der Fokus auf der systematischen Verbesserung der Trainingsdaten liegen.

Quellen & Referenzen

Quality

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Curated Dataset

Quellen & Referenzen

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Curated Dataset

Quellen & Referenzen

Verwandte Begriffe

Fehler melden

Die KI Woche als App