Attention Map
Eine Attention Map ist eine Visualisierung, die zeigt, welchen Teilen einer Eingabe ein neuronales Netz bei seiner Entscheidung besondere Aufmerksamkeit gewidmet hat — eine Art Röntgenblick in das Innere des Modells.
Bei einem Transformer-Sprachmodell zeigt die Attention Map für jedes Token, wie stark es mit jedem anderen Token interagiert. Für den Satz „Paris ist die Hauptstadt von Frankreich" hätte das Token „Hauptstadt" hohe Attention-Werte auf „Paris" und „Frankreich" — das Modell „versteht" die inhaltliche Beziehung.
Bei Bildmodellen (Vision Transformers, CNNs mit Grad-CAM) erzeugen Attention Maps Heatmaps über das Bild: leuchtende Regionen zeigen, wo das Modell hinschaut. Soll es ein Foto als „Hund" klassifizieren, sollte die Heatmap den Hund hervorheben, nicht den Hintergrund. Wenn die Heatmap stattdessen auf irrelevante Bildregionen zeigt, ist das ein Warnsignal für ein schlecht lernendes Modell.
Attention Maps sind ein wichtiges Werkzeug der Explainable AI (XAI). In der medizinischen Bildgebung können sie Ärzten zeigen, welche Bildregionen das Modell zur Diagnose herangezogen hat. In der NLP-Analyse können sie Verzerrungen aufdecken — wenn ein Sentiment-Modell mehr auf Geschlecht als auf den Inhalt achtet, wird das in der Attention Map sichtbar.
Die Interpretation hat allerdings Grenzen. Jain und Wallace (2019) zeigten, dass Attention-Gewichte nicht immer kausal für die Entscheidung sind — ein Modell kann eine „richtig aussehende" Attention Map produzieren und trotzdem aus anderen Gründen die richtige Antwort geben.