Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Deep Learning

Attention Mechanism

Der Attention Mechanism — 2017 im Paper „Attention Is All You Need" von Vaswani et al. zum zentralen Konstruktionsprinzip erhoben — ist die technologische Grundlage, auf der die gesamte aktuelle KI-Revolution aufbaut. GPT, BERT, Claude, Gemini, Stable Diffusion: Alle nutzen Attention.

Das Grundprinzip lässt sich intuitiv erklären. Wenn ein Mensch den Satz „Der Hund, den ich letztes Jahr aus dem Tierheim geholt habe, bellt laut" liest, weiß er sofort, dass „bellt" sich auf „Hund" bezieht — über sieben Wörter Distanz hinweg. Frühere Architekturen (RNNs) verarbeiteten Sequenzen Wort für Wort und verloren bei langen Abständen den Zusammenhang. Der Attention Mechanism erlaubt es dem Modell, bei jeder Position den gesamten Kontext zu berücksichtigen.

Technisch berechnet der Mechanismus für jedes Token drei Vektoren: Query (Was suche ich?), Key (Was biete ich an?) und Value (Welche Information trage ich?). Durch den Vergleich von Queries und Keys entsteht eine Gewichtungsmatrix, die bestimmt, wie viel Information von welcher Position fließt.

Die Eleganz liegt in der Parallelisierbarkeit. RNNs mussten sequentiell Wort für Wort verarbeiten — das ließ sich auf GPUs schlecht beschleunigen. Attention-Berechnungen sind Matrix-Multiplikationen, die massiv parallel auf GPUs laufen. Ohne diese Eigenschaft wären die heutigen Modellgrößen (Hunderte Milliarden Parameter) rechnerisch nicht machbar.

Das Paper, verfasst bei Google Brain, ist mit über 100.000 Zitierungen eines der einflussreichsten der Informatikgeschichte.

NLP Transformer