ELMo
ELMo (Embeddings from Language Models), 2018 von Matthew Peters et al. (Allen Institute for AI) vorgestellt, war der Vorläufer von BERT und der Startschuss für kontextualisierte Wortrepräsentationen.
Das Problem vor ELMo: Word2Vec und GloVe erzeugten statische Embeddings — das Wort „Bank" hatte immer denselben Vektor, egal ob „Sitzbank" oder „Geldbank" gemeint war. Der Kontext ging verloren.
ELMos Innovation: Statt ein festes Embedding pro Wort zu berechnen, nutzte es ein vortrainiertes bidirektionales LSTM-Sprachmodell, um Embeddings zu erzeugen, die vom Kontext des Satzes abhängen. „Ich sitze auf der Bank" und „Ich überweise Geld bei der Bank" ergeben für „Bank" verschiedene Vektoren.
Technisch: ELMo konkatenierte die Hidden States aller LSTM-Schichten und lernte eine gewichtete Kombination. Die intuition: Untere Schichten erfassen syntaktische Muster (Wortart, Grammatik), obere Schichten semantische Muster (Bedeutung, Kontext).
Die Ergebnisse waren beeindruckend: ELMo verbesserte State-of-the-Art in sechs NLP-Aufgaben gleichzeitig — einfach durch die Verwendung besserer Wortrepräsentationen, ohne die Modellarchitektur für die Downstream-Aufgabe zu ändern.
ELMo wurde schnell von BERT (Oktober 2018) überholt, das den Transformer statt des LSTM nutzte und bidirektional über den gesamten Kontext arbeitete statt nur über zwei unidirektionale Richtungen. Trotzdem war ELMo konzeptionell wegweisend: Es zeigte, dass vortrainierte, kontextualisierte Repräsentationen universell nützlich sind — die zentrale Einsicht der „Pre-train, then Fine-tune"-Ära.