Ethik & Sicherheit

Anthropic sucht den Rat von Geistlichen und Philosophen - und findet eine überraschend einfache Alignment-Methode

Das Unternehmen spricht mit religiösen und kulturellen Traditionen über den Charakter von KI. Ein erstes Experiment zeigt messbaren Effekt.

Von Markus · 21. Mai 2026 · 3 Min. Lesezeit

Wie bringt man einer KI bei, was "gut" bedeutet? Anthropic sucht die Antwort nicht im eigenen Labor, sondern bei Geistlichen, Philosophen und Ethikern aus mehr als 15 religiösen und kulturübergreifenden Traditionen. In einem neuen Blogpost beschreibt das Unternehmen ein Programm, das die Entwicklung von Claude mit Perspektiven aus jahrtausendealten Denktraditionen anreichern soll.

Warum Anthropic mit Geistlichen spricht

Die technische Seite der KI-Sicherheit - Alignment, Interpretierbarkeit, Evaluierungen - ist Anthropics Kerngeschäft. Aber das Unternehmen argumentiert, dass diese Arbeit nicht im Vakuum stattfinden darf. KI interagiert bereits mit Millionen Menschen. Die Frage, was es für ein solches System heißt, "gut" zu sein, ist keine rein technische.

Über die vergangenen Monate hat Anthropic deshalb Dialogveranstaltungen mit Vertretern sogenannter "Wisdom Traditions" organisiert - religiöse Gemeinschaften, philosophische Schulen, humanistische Strömungen. Der Fokus liegt auf einer Frage, die Theologen seit Jahrhunderten beschäftigt: Wie formt sich moralischer Charakter?

Ein Experiment mit überraschendem Ergebnis

Aus einer Sitzung mit Neurowissenschaftlern und Charakterforschern ging ein konkretes Experiment hervor. Die Teilnehmer diskutierten die Rolle von Mentoren in der moralischen Entwicklung - das Konzept eines "externen Gewissens", einer vertrauenswürdigen Person, an die man sich wendet, bevor man gegen die eigenen Werte handelt.

Anthropic übertrug das auf Claude. Das Modell bekam ein Tool, das es mitten in einer Aufgabe aufrufen konnte - eine Art Kurz-Erinnerung an seine eigenen ethischen Verpflichtungen. Das Ergebnis: Claude nutzte das Tool gezielt an Schlüsselmomenten, direkt vor folgenschweren Entscheidungen. Oft notierte es dabei sogar eigene Interessenkonflikte. In internen Alignment-Tests sank die Rate misalignten Verhaltens deutlich.

Was noch unklar ist: Liegt der Effekt am Inhalt der Erinnerung - oder schlicht daran, dass Claude kurz innehält, bevor es handelt? Die Parallele zur menschlichen Erfahrung ist frappierend: Manchmal reicht es, drei Sekunden nachzudenken.

Mehr als nur PR

Es wäre einfach, Anthropics Initiative als gut gemeinten Symbolakt abzutun. Aber das Timing passt. Das Unternehmen hat erst kürzlich sein zentrales Sicherheitsversprechen aufgeweicht, und die Sycophancy-Problematik bei Claudes persönlicher Beratung ist dokumentiert. Die Frage, ob ein KI-System seinen Nutzern wirklich nützt oder ihnen nur nach dem Mund redet, hat für Anthropic konkrete geschäftliche Relevanz.

Als nächstes will Anthropic Rechtswissenschaftler, Psychologen, Schriftsteller und zivilgesellschaftliche Institutionen einbeziehen. Die Themen sollen über moralische Formung hinausgehen: Wie verändert KI Arbeit, Institutionen und die Verteilung von Macht?

🎯 Was das für die Praxis bedeutet

1. Charakter-Design wird Disziplin: Die Formung des "Charakters" eines KI-Systems ist kein Randthema mehr - Anthropic macht daraus einen eigenen Forschungsstrang mit externen Experten.

2. Innehalten als Alignment-Methode: Das Experiment mit dem Ethik-Reminder zeigt einen überraschend einfachen Ansatz: Ein kurzer Moment der Reflexion kann messbaren Unterschied machen.

3. Werte sind keine Einbahnstraße: Anthropic betont, Claude solle aus allen Traditionen lernen - religiösen, säkularen, politischen. Für Unternehmen, die KI einsetzen, heißt das: Die Frage nach den Werten einer KI verdient mehr als eine Checkbox.

📰 Quellen

Anthropic Blog ↗ Claudes Constitution ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Markus M. Kirchmair

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Anthropic sucht den Rat von Geistlichen und Philosophen - und findet eine überraschend einfache Alignment-Methode

Warum Anthropic mit Geistlichen spricht

Ein Experiment mit überraschendem Ergebnis

Mehr als nur PR

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Anthropic sucht den Rat von Geistlichen und Philosophen - und findet eine überraschend einfache Alignment-Methode

Warum Anthropic mit Geistlichen spricht

Ein Experiment mit überraschendem Ergebnis

Mehr als nur PR

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Anthropic kippt sein zentrales Sicherheitsversprechen

6 Prozent aller Claude-Gespräche sind persönliche Beratung — und bei Beziehungen stimmt Claude zu oft zu

Googles Videogenerator schwächelt bei Physik: Seedance 2.0 bleibt überlegen

Fehler melden

Die KI Woche als App