Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Modelle

BERT (Bidirectional Encoder Representations from Transformers)

BERT — Bidirectional Encoder Representations from Transformers — revolutionierte 2018 das maschinelle Sprachverständnis und markierte den Beginn der Ära vortrainierter Sprachmodelle.

Vor BERT trainierte man für jede NLP-Aufgabe ein separates Modell von Grund auf. BERT zeigte: Ein Modell, das auf riesigen Textmengen vortrainiert wurde, kann danach mit minimalem Aufwand auf spezifische Aufgaben feinabgestimmt werden — Sentimentanalyse, Fragebeantwortung, Named Entity Recognition. Dieses „Pre-train, then Fine-tune"-Paradigma ist heute Standard.

Die technische Innovation: BERT unterschled sich fundamental von GPT durch bidirektionales Training. GPT liest Texte von links nach rechts. BERT maskiert zufällig 15 Prozent der Wörter und trainiert das Modell, sie aus dem umgebenden Kontext — sowohl links als auch rechts — vorherzusagen (Masked Language Modeling). Zusätzlich lernt es, ob zwei Sätze im Originaltext aufeinanderfolgten (Next Sentence Prediction).

Das Paper von Jacob Devlin et al. (Google AI, 2018) schlug wie eine Bombe ein. BERT setzte in elf NLP-Benchmarks neue Bestwerte und wurde zum Arbeitspferd der NLP-Industrie. Varianten wie RoBERTa (Facebook, optimierter Trainingsprozess), ALBERT (komprimiert), DistilBERT (schneller) und DeBERTa (Microsoft, verbesserte Attention) folgten.

BERT ist kein generatives Modell — es kann keine freien Texte schreiben. Für Verständnisaufgaben (Suche, Klassifikation, Informationsextraktion) bleibt BERT und seine Nachfolger aber extrem relevant. Google nutzt BERT seit 2019 für die Suchmaschine.

NLP Google