Wie bringt man einer KI bei, was "gut" bedeutet? Anthropic sucht die Antwort nicht im eigenen Labor, sondern bei Geistlichen, Philosophen und Ethikern aus mehr als 15 religiösen und kulturübergreifenden Traditionen. In einem neuen Blogpost beschreibt das Unternehmen ein Programm, das die Entwicklung von Claude mit Perspektiven aus jahrtausendealten Denktraditionen anreichern soll.
Warum Anthropic mit Geistlichen spricht
Die technische Seite der KI-Sicherheit - Alignment, Interpretierbarkeit, Evaluierungen - ist Anthropics Kerngeschäft. Aber das Unternehmen argumentiert, dass diese Arbeit nicht im Vakuum stattfinden darf. KI interagiert bereits mit Millionen Menschen. Die Frage, was es für ein solches System heißt, "gut" zu sein, ist keine rein technische.
Über die vergangenen Monate hat Anthropic deshalb Dialogveranstaltungen mit Vertretern sogenannter "Wisdom Traditions" organisiert - religiöse Gemeinschaften, philosophische Schulen, humanistische Strömungen. Der Fokus liegt auf einer Frage, die Theologen seit Jahrhunderten beschäftigt: Wie formt sich moralischer Charakter?
Ein Experiment mit überraschendem Ergebnis
Aus einer Sitzung mit Neurowissenschaftlern und Charakterforschern ging ein konkretes Experiment hervor. Die Teilnehmer diskutierten die Rolle von Mentoren in der moralischen Entwicklung - das Konzept eines "externen Gewissens", einer vertrauenswürdigen Person, an die man sich wendet, bevor man gegen die eigenen Werte handelt.
Anthropic übertrug das auf Claude. Das Modell bekam ein Tool, das es mitten in einer Aufgabe aufrufen konnte - eine Art Kurz-Erinnerung an seine eigenen ethischen Verpflichtungen. Das Ergebnis: Claude nutzte das Tool gezielt an Schlüsselmomenten, direkt vor folgenschweren Entscheidungen. Oft notierte es dabei sogar eigene Interessenkonflikte. In internen Alignment-Tests sank die Rate misalignten Verhaltens deutlich.
Was noch unklar ist: Liegt der Effekt am Inhalt der Erinnerung - oder schlicht daran, dass Claude kurz innehält, bevor es handelt? Die Parallele zur menschlichen Erfahrung ist frappierend: Manchmal reicht es, drei Sekunden nachzudenken.
Mehr als nur PR
Es wäre einfach, Anthropics Initiative als gut gemeinten Symbolakt abzutun. Aber das Timing passt. Das Unternehmen hat erst kürzlich sein zentrales Sicherheitsversprechen aufgeweicht, und die Sycophancy-Problematik bei Claudes persönlicher Beratung ist dokumentiert. Die Frage, ob ein KI-System seinen Nutzern wirklich nützt oder ihnen nur nach dem Mund redet, hat für Anthropic konkrete geschäftliche Relevanz.
Als nächstes will Anthropic Rechtswissenschaftler, Psychologen, Schriftsteller und zivilgesellschaftliche Institutionen einbeziehen. Die Themen sollen über moralische Formung hinausgehen: Wie verändert KI Arbeit, Institutionen und die Verteilung von Macht?
🎯 Was das für die Praxis bedeutet
1. Charakter-Design wird Disziplin: Die Formung des "Charakters" eines KI-Systems ist kein Randthema mehr - Anthropic macht daraus einen eigenen Forschungsstrang mit externen Experten.
2. Innehalten als Alignment-Methode: Das Experiment mit dem Ethik-Reminder zeigt einen überraschend einfachen Ansatz: Ein kurzer Moment der Reflexion kann messbaren Unterschied machen.
3. Werte sind keine Einbahnstraße: Anthropic betont, Claude solle aus allen Traditionen lernen - religiösen, säkularen, politischen. Für Unternehmen, die KI einsetzen, heißt das: Die Frage nach den Werten einer KI verdient mehr als eine Checkbox.