Alignment Tax
Der Begriff Alignment Tax beschreibt den Preis, den man zahlt, wenn man ein KI-Modell sicher und wertekonform (aligned) macht — in Form von Leistungseinbußen, höheren Kosten oder eingeschränkter Funktionalität.
Das Konzept wurde von Paul Christiano (ehemals OpenAI, jetzt Alignment Research Center) geprägt. Seine zentrale These: Wenn Alignment teuer ist, werden Akteure es unterlassen. Damit Safety sich durchsetzt, muss die Alignment Tax möglichst niedrig sein — idealerweise bei Null.
In der Praxis zeigt sich die Tax auf mehreren Ebenen. RLHF-Training (das Verfahren, das ChatGPT „hilfreich und harmlos" macht) ist rechenintensiv und verteuert die Modellentwicklung erheblich. Sicherheitsfilter verlangsamen die Inferenz und schränken die Einsatzmöglichkeiten ein. Ein ungefiltertes Modell kann technisch gesehen mehr — aber zu welchem Preis?
Die Debatte spitzt sich an der „capable but dangerous vs. safe but limited"-Dichotomie zu. Meta veröffentlichte LLaMA als offenes Modell mit minimalen Einschränkungen — die Community feierte es als leistungsstark. Anthropic investierte massiv in Constitutional AI und Alignment — und wurde dafür kritisiert, Claude sei „zu vorsichtig".
Die Forschung arbeitet daran, die Alignment Tax zu senken. Ansätze wie Constitutional AI oder DPO (Direct Preference Optimization) zeigen, dass Alignment günstiger und performanter werden kann. Das Ziel: Sichere Modelle, die genauso leistungsfähig sind wie unsichere.