Corpus Linguistics
Corpus Linguistics (Korpuslinguistik) ist die empirische Erforschung von Sprache anhand großer Textsammlungen (Corpora). Sie liefert die linguistische und methodologische Grundlage für das Training moderner Sprachmodelle.
Die Disziplin entstand in den 1960ern mit dem Brown Corpus — 1 Million Wörter systematisch gesammelter englischer Texte. Die Grundidee: Sprache wird nicht durch Introspektion oder Grammatikregeln verstanden, sondern durch die Analyse realer Sprachverwendung. Häufigkeitsverteilungen, Kollokationen (welche Wörter treten gemeinsam auf?), Kontext und Variation werden quantitativ untersucht.
Die Verbindung zu NLP ist direkt. n-Gramm-Statistiken, die aus Corpora berechnet werden, waren jahrzehntelang die Basis von Sprachmodellen. TF-IDF, eine Kernmetrik der Information Retrieval, ist ein korpuslinguistisches Werkzeug. Word2Vec und GloVe lernen Wortbedeutungen aus Kookurrenz-Statistiken in Corpora.
LLMs haben die Beziehung umgekehrt: Statt Corpora manuell zu analysieren, „lesen" Sprachmodelle ganze Corpora und internalisieren die Muster automatisch. Aber die Korpuslinguistik bleibt relevant: für die Evaluation von Modellen (stimmen die gelernten Muster mit linguistischen Erkenntnissen überein?), die Erkennung von Bias (welche Stereotype spiegeln die Trainingsdaten wider?) und die Kuration von Trainingsdaten.
Für die deutsche Sprache sind DWDS (Digitales Wörterbuch der deutschen Sprache), COSMAS II (IDS Mannheim), die Leipzig Corpora Collection und DeReKo zentrale Ressourcen.