📜 Geschichte & Meilensteine Standard

Corpus Linguistics

Corpus Linguistics (Korpuslinguistik) ist die empirische Erforschung von Sprache anhand großer Textsammlungen (Corpora). Sie liefert die linguistische und methodologische Grundlage für das Training moderner Sprachmodelle. Die Disziplin entstand in den 1960ern mit dem Brown Corpus — 1 Million Wörter systematisch gesammelter englischer Texte. Die Grundidee: Sprache wird nicht durch Introspektion oder Grammatikregeln verstanden, sondern durch die Analyse realer Sprachverwendung. Häufigkeitsverteilungen, Kollokationen (welche Wörter treten gemeinsam auf?), Kontext und Variation werden quantitativ untersucht. Die Verbindung zu NLP ist direkt. n-Gramm-Statistiken, die aus Corpora berechnet werden, waren jahrzehntelang die Basis von Sprachmodellen. TF-IDF, eine Kernmetrik der Information Retrieval, ist ein korpuslinguistisches Werkzeug. Word2Vec und GloVe lernen Wortbedeutungen aus Kookurrenz-Statistiken in Corpora. LLMs haben die Beziehung umgekehrt: Statt Corpora manuell zu analysieren, „lesen" Sprachmodelle ganze Corpora und internalisieren die Muster automatisch. Aber die Korpuslinguistik bleibt relevant: für die Evaluation von Modellen (stimmen die gelernten Muster mit linguistischen Erkenntnissen überein?), die Erkennung von Bias (welche Stereotype spiegeln die Trainingsdaten wider?) und die Kuration von Trainingsdaten. Für die deutsche Sprache sind DWDS (Digitales Wörterbuch der deutschen Sprache), COSMAS II (IDS Mannheim), die Leipzig Corpora Collection und DeReKo zentrale Ressourcen.

Quellen & Referenzen

Language

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Corpus Linguistics

Quellen & Referenzen

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Corpus Linguistics

Quellen & Referenzen

Verwandte Begriffe

Fehler melden

Die KI Woche als App