Corpus
Ein Corpus (Plural: Corpora) ist eine strukturierte Sammlung von Texten, die als Trainings- oder Evaluierungsgrundlage für NLP-Systeme dient. Corpora sind das Rohmaterial, aus dem Sprachmodelle ihr Wissen beziehen.
Die Geschichte der Corpora in der Computerlinguistik reicht bis in die 1960er Jahre zurück. Der Brown Corpus (1961, 1 Million Wörter) war die erste systematische Sammlung englischer Texte für linguistische Analyse. Der British National Corpus (100 Millionen Wörter) folgte in den 1990ern. Heute umfassen die Trainingsdaten von LLMs Billionen von Tokens — Größenordnungen jenseits der klassischen Corpora.
Die Zusammensetzung eines Corpus bestimmt, was ein Modell kann und weiß — und was nicht. GPT-3 wurde auf einem Mix aus Common Crawl (Internet), WebText, Books und Wikipedia trainiert. Die Gewichtung dieser Quellen beeinflusst Sprachstil, Weltwissen und Bias des Modells direkt.
Spezialisierte Corpora existieren für zahlreiche Domänen: PubMed (biomedizinische Literatur), S2ORC (akademische Papers), The Pile (diverse englische Quellen), CC-100 (100 Sprachen), mC4 (multilingual). Für die deutsche Sprache sind Oscar, Leipzig Corpora Collection und DWDS wichtige Ressourcen.
Die Qualität schlägt die Quantität. Llama 2 wurde gezielt mit höherwertigen Daten trainiert und übertraf Modelle, die auf mehr, aber schlechteren Daten basierten. Datenkuratierung — Deduplizierung, Qualitätsfilterung, Toxizitätsbereinigung — ist die unsichtbare Grundlage moderner LLM-Leistung.