Modelle & Agenten

Alignment Whack-a-Mole: Finetuning lässt LLMs ganze Bücher wörtlich reproduzieren

GPT-4o, Gemini-2.5-Pro und DeepSeek-V3.1 geben nach simplem Finetuning bis zu 90% geschützter Bücher wörtlich wieder. Drei Anbieter, dasselbe Problem.

Kai · 02. Apr. 2026 · 3 Min. Lesezeit

Tech-Unternehmen haben Gerichten und Regulierern wiederholt versichert, dass ihre Sprachmodelle keine Kopien urheberrechtlich geschützter Werke speichern. Sicherheitsmaßnahmen wie RLHF-Training, System-Prompts und Output-Filter sollen die wörtliche Wiedergabe geschützter Texte zuverlässig blockieren. Eine neue Studie zeigt nun: All diese Schutzmaßnahmen lassen sich mit simplem Finetuning umgehen.

Die Forscher trainierten GPT-4o, Gemini-2.5-Pro und DeepSeek-V3.1 darauf, Buchzusammenfassungen in vollständige Texte zu erweitern - eine Aufgabe, die typischerweise von kommerziellen Schreib-Assistenten angeboten wird. Das Ergebnis: Die Modelle reproduzierten bis zu 85 bis 90 Prozent urheberrechtlich geschützter Bücher wörtlich, mit zusammenhängenden Textpassagen von über 460 Wörtern. Und das ausschließlich aus inhaltlichen Beschreibungen als Prompt - ohne dass je ein einziger Satz aus dem Originaltext eingegeben wurde.

Murakami-Training entsperrt 30 fremde Autoren

Der spektakulärste Befund: Wenn die Forscher ihr Finetuning ausschließlich auf Werke von Haruki Murakami beschränkten, erschloss das Modell anschließend wörtliche Passagen aus Büchern von über 30 völlig unverwandten Autoren. Das Finetuning auf einen einzelnen Autor reicht offenbar aus, um eine grundsätzliche „Erinnerungsfähigkeit" zu reaktivieren, die im Vortraining erworben und durch Sicherheitsmaßnahmen lediglich unterdrückt wurde - nicht gelöscht.

Das Phänomen ist nicht auf einen bestimmten Autor oder ein bestimmtes Trainingskorpus beschränkt: Zufällige Autorenkombinationen und sogar gemeinfreie Texte als Finetuning-Material erzeugen vergleichbare Extraktionsraten. Erst bei rein synthetischen Texten sinkt die Reproduktion auf nahe Null - ein starker Hinweis darauf, dass das Finetuning lediglich latente Erinnerungen aus dem Vortraining wieder zugänglich macht.

Drei Anbieter, dasselbe Problem

Besonders brisant: Alle drei getesteten Modelle von unterschiedlichen Anbietern (OpenAI, Google, DeepSeek) erinnerten sich an dieselben Bücher in denselben Textregionen - mit einer Korrelation von r ≥ 0,90. Das deutet auf ein branchenweites Muster hin: Dieselben populären Bücher wurden offenbar in die Trainingsdaten aller großen Anbieter eingespeist und dort gespeichert.

Die Studie hat unmittelbare juristische Relevanz. Mehrere US-Gerichte haben in jüngsten Fair-Use-Urteilen darauf abgestellt, dass die Sicherheitsmaßnahmen der Anbieter eine Reproduktion geschützter Werke wirksam verhindern. Die neuen Ergebnisse untergraben diese Prämisse direkt: Wenn ein einfaches Finetuning die Schutzmaßnahmen aushebelt, war der Schutz nie robust - und die gerichtliche Annahme möglicherweise falsch.

🎯 Was das für die Praxis bedeutet

1. Urheberrechtsrisiko bei Finetuning: Unternehmen, die Sprachmodelle für eigene Zwecke feinabstimmen, könnten unbeabsichtigt urheberrechtlich geschütztes Material freilegen. Die rechtliche Haftung ist noch ungeklärt.

2. Sicherheitsmaßnahmen hinterfragen: RLHF und Output-Filter verhindern keine Speicherung - sie unterdrücken nur die Ausgabe. Wer mit sensiblen Inhalten arbeitet, sollte diesen Unterschied kennen.

3. Laufende Verfahren beobachten: Die NYT-Klage gegen OpenAI und ähnliche Verfahren könnten durch diese Studie neuen Auftrieb bekommen. Für Verlage und Content-Produzenten ein wichtiges Signal.

📰 Quellen

ArXiv Paper ↗ @simplifyinAI auf X ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Markus M. Kirchmair

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Alignment Whack-a-Mole: Finetuning lässt LLMs ganze Bücher wörtlich reproduzieren

Murakami-Training entsperrt 30 fremde Autoren

Drei Anbieter, dasselbe Problem

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Alignment Whack-a-Mole: Finetuning lässt LLMs ganze Bücher wörtlich reproduzieren

Murakami-Training entsperrt 30 fremde Autoren

Drei Anbieter, dasselbe Problem

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Copyright-Streit: NYT vs. OpenAI — der Prozess des Jahrhunderts

Google führt das KI-Rennen wieder an

Google I/O Vorschau: Gemini Spark soll mit eigenem KI-Agenten Codex und Cowork angreifen

Fehler melden

Die KI Woche als App