BLEU Score
Der BLEU Score (Bilingual Evaluation Understudy) ist seit 2002 die am weitesten verbreitete automatische Metrik für maschinelle Übersetzung — und zugleich eine der umstrittensten.
Entwickelt von Kishore Papineni et al. bei IBM Research, vergleicht BLEU die Übersetzung einer Maschine mit einer oder mehreren menschlichen Referenzübersetzungen. Der Score misst, wie viele n-Gramme (Wortfolgen der Länge 1 bis 4) in der Maschinenübersetzung auch in der Referenz vorkommen. Ein perfekter Match ergibt 1.0, keine Übereinstimmung 0.0.
Die Stärke: BLEU ist schnell berechenbar, reproduzierbar und korreliert auf Systemebene (Vergleich ganzer Übersetzungssysteme) oft brauchbar mit menschlicher Qualitätseinschätzung.
Die Schwächen sind beträchtlich. BLEU bestraft Umformulierungen, die inhaltlich korrekt, aber lexikalisch anders sind als die Referenz. „Das Auto ist rot" und „Der rote Wagen" sagen dasselbe, ergeben aber einen niedrigen BLEU-Score. Die Metrik ignoriert semantische Korrektheit komplett: Ein Satz mit vertauschtem Subjekt und Objekt („Der Hund beißt den Mann" vs. „Der Mann beißt den Hund") kann dennoch einen hohen BLEU erzielen.
Modernere Metriken wie BERTScore (nutzt kontextualisierte Embeddings), COMET (trainiert auf menschlichen Bewertungen) und BLEURT setzen sich in der Forschung zunehmend durch. Für menschlich wirkende, generative KI-Ausgaben ist BLEU als Qualitätsmaßstab weitgehend ungeeignet — bei LLM-Evaluierung hat die menschliche Bewertung oder der paarweise Vergleich (Arena-Methode) den Vorzug.