Attention Head
Ein Attention Head ist ein einzelner „Aufmerksamkeitskopf" innerhalb des Multi-Head Attention Mechanismus, der das Herzstück jeder Transformer-Architektur bildet.
Die Idee: Ein einzelner Attention-Mechanismus kann nur eine Art von Beziehung zwischen Wörtern (Tokens) gleichzeitig erfassen. Multi-Head Attention löst das, indem es mehrere Attention Heads parallel rechnen lässt — jeder Kopf lernt, auf einen anderen Aspekt der Eingabe zu achten.
Konkret: In einem Satz wie „Die Katze, die auf der Matte saß, hat Hunger" könnte ein Head die grammatische Subjekt-Verb-Beziehung tracken (Katze → hat), ein anderer die lokale Beziehung (Matte → saß), ein dritter die Position im Satz. GPT-3 hat 96 Attention Heads pro Schicht, verteilt auf 96 Schichten — das sind über 9.000 individuelle Köpfe, die verschiedene Muster erfassen.
Die Forschung zur Interpretierbarkeit hat gezeigt, dass einzelne Heads erstaunlich spezialisierte Rollen übernehmen können. Clark et al. (2019) identifizierten Heads in BERT, die zuverlässig auf das direkte Objekt eines Verbs zeigen, auf koreferente Pronomen oder auf den Satzanfang. Andere Heads scheinen keine klar interpretierbare Funktion zu haben — was die Frage aufwirft, ob alle Heads tatsächlich benötigt werden.
Tatsächlich zeigt Pruning-Forschung (Voita et al., 2019), dass viele Heads entfernt werden können, ohne die Modellleistung wesentlich zu beeinträchtigen. Das hat praktische Bedeutung: Weniger Heads bedeuten schnellere Inferenz und geringere Kosten.