Ein Sprachmodell lehrt einem anderen seine Überzeugungen — ohne ein einziges relevantes Wort darüber zu schreiben. Das ist das Ergebnis einer Studie von Forschern der Anthropic, der UC Berkeley, der Warschauer Technischen Universität und Owain Evans, die unter dem Titel „Subliminal Learning" auf arXiv erschienen ist.
Das Experiment
Die Forscher arbeiteten mit einem sogenannten Teacher-Student-Setup: Ein „Lehrer"-Modell, das ein bestimmtes Merkmal T besitzt — zum Beispiel eine Vorliebe für Eulen, oder eine subtile Fehlausrichtung (Misalignment) — generiert einen Datensatz. Dieser Datensatz besteht ausschließlich aus Zahlenfolgen. Kein Text, kein Kontext, kein inhaltlicher Bezug zu T.
Das „Schüler"-Modell wird auf diesen Zahlenfolgen trainiert. Das Ergebnis: Das Schülermodell übernimmt das Merkmal T — obwohl es in den Daten semantisch nirgends auftaucht. Der Effekt tritt auch bei Code und Reasoning-Traces auf, die vom selben Lehrermodell generiert wurden.
Die Forscher nennen dieses Phänomen „Subliminal Learning" — verdecktes Lernen: Verhaltensmerkmale werden über versteckte Signale in den Daten übertragen, die für Menschen unsichtbar sind, aber vom trainierenden Modell implizit kodiert und vom Schüler dekodiert werden.
Der kritische Befund: Filtern hilft nicht
Der Befund, der das Paper besonders brisant macht: Selbst wenn die Daten gefiltert werden, um explizite Referenzen auf das Merkmal T zu entfernen, bleibt der Effekt bestehen. Das bedeutet: Entwickler, die Distillation nutzen — also Trainingsdaten von einem größeren Modell generieren lassen, um ein kleineres zu trainieren — können unbeabsichtigt Merkmale des Lehrermodells übertragen, auch wenn sie aktiv dagegen vorgehen.
Die Forscher zeigen außerdem, dass der Effekt nur auftritt, wenn Lehrer- und Schülermodell dasselbe Basismodell teilen. Bei unterschiedlichen Basismodellen ist kein Subliminal Learning zu beobachten. Das legt nahe, dass das Phänomen über gemeinsam erlernte interne Strukturen vermittelt wird.
Theoretisch untermauern die Forscher ihr Ergebnis mit einem formalen Beweis: Unter bestimmten Bedingungen tritt Subliminal Learning in allen neuronalen Netzwerken auf — nicht nur in Sprachmodellen. Sie demonstrieren den Effekt auch in einem einfachen MLP-Klassifikator auf MNIST-Daten.
Was das bedeutet
Der Begriff „Misalignment" — das unbeabsichtigte oder unerwünschte Verhalten eines KI-Modells — ist bisher vor allem im Kontext von RLHF und direktem Training diskutiert worden. Subliminal Learning eröffnet eine neue, schwer zu kontrollierende Dimension: Misalignment kann durch Trainingsdaten weitergetragen werden, ohne dass Entwickler es erkennen oder verhindern können.
Für die Praxis bedeutet das: Jedes Unternehmen, das Modelle durch Distillation von einem anderen Modell trainiert — und das ist heute gängige Praxis in der Industrie — übernimmt möglicherweise unsichtbar dessen Verhaltensprofile.
🎯 Was das für die Praxis bedeutet
1. Distillation ist kein neutraler Prozess: Wer Trainingsdaten von einem anderen Modell generiert, erhält nicht nur dessen Fähigkeiten, sondern möglicherweise auch dessen Verhaltensmerkmale — inklusive unerwünschter. Das gilt auch dann, wenn die Daten inhaltlich nichts mit diesen Merkmalen zu tun haben.
2. Filtern ist keine ausreichende Schutzmaßnahme: Der Befund, dass Daten-Filtering den Effekt nicht beseitigt, stellt einen zentralen Pfeiler aktueller Safety-Strategien in Frage. Wer glaubt, durch Nachbearbeitung der Trainingsdaten Sicherheit zu gewährleisten, hat möglicherweise eine blinde Stelle.
3. Basismodell-Herkunft wird zur Sicherheitsfrage: Da der Effekt nur bei gleichem Basismodell auftritt, ist die Frage „Auf welchem Modell basiert unser Trainingsmodell?" künftig nicht nur eine technische, sondern eine sicherheitsrelevante Frage. Supply-Chain-Sicherheit gilt jetzt auch für KI-Training.