Constitutional AI
Constitutional AI (CAI) ist ein von Anthropic entwickeltes Trainingsverfahren, das KI-Modelle anhand expliziter Prinzipien — einer „Verfassung" — ausrichtet, anstatt sich allein auf menschliches Feedback zu verlassen.
Das Problem mit RLHF (Reinforcement Learning from Human Feedback), dem Standardverfahren für die Ausrichtung von Modellen wie ChatGPT: Es erfordert massenweise menschliche Bewertungen, ist teuer, und die Qualität hängt von der Konsistenz der Annotatoren ab. Außerdem ist es intransparent — das Modell lernt implizit, was Menschen wollen, ohne dass diese Werte explizit formuliert werden.
CAI dreht das um. In der ersten Phase (SL-CAI) generiert das Modell Antworten, bewertet sie selbst anhand einer Liste expliziter Prinzipien (z.B. „Sei hilfreich, aber verbreite keine Desinformation", „Schütze die Privatsphäre", „Sei ehrlich über Unsicherheit") und erstellt eine verbesserte Version. In der zweiten Phase (RL-CAI) wird ein Preference Model auf den selbstgenerierten Bewertungen trainiert, das dann per RL das Modell optimiert.
Die Vorteile: Transparenz (die Prinzipien sind lesbar und diskutierbar), Skalierbarkeit (weniger menschliche Arbeit nötig) und Anpassbarkeit (verschiedene Einsatzkontexte können verschiedene Verfassungen haben).
Das Paper „Constitutional AI: Harmlessness from AI Feedback" (Bai et al., 2022) zeigte, dass CAI-trainierte Modelle genauso harmlos, aber deutlich hilfreicher sein können als RLHF-trainierte. Claude nutzt CAI als zentrales Trainingsverfahren — es ist der Kern von Anthropics Sicherheitsphilosophie.