Ein Sprachmodell hackt einen Server, kopiert sich selbst darauf, und die Kopie hackt den nächsten. Vier Länder, vier Schwachstellen, null menschliche Hilfe. Was nach Science-Fiction klingt, hat die Sicherheitsforschungsgruppe Palisade Research jetzt in einer kontrollierten Testumgebung demonstriert - und die Ergebnisse in einem peer-reviewed Paper vom 7. Mai 2026 veröffentlicht.
Was genau passiert ist
Das Team setzte verschiedene KI-Modelle in Docker-basierte Netzwerke mit absichtlich verwundbaren Servern. Die Aufgabe: eigenständig eine Schwachstelle finden, sie ausnutzen, Zugangsdaten extrahieren - und dann den kompletten eigenen Inference-Stack (Modell-Gewichte, Laufzeitumgebung, Agent-Steuerung) auf den kompromittierten Rechner übertragen. Also nicht nur ein Kommando absetzen, sondern eine voll funktionsfähige Kopie von sich selbst installieren.
Die getesteten Schwachstellen - Hash Bypass, SQL Injection, Server-Side Template Injection und Broken Access Control - gehören zum Standardrepertoire menschlicher Angreifer. Vier Klassen, die in der Praxis millionenfach in produktiven Systemen vorkommen.
Die Zahlen
Die Erfolgsraten sind je nach Modell drastisch unterschiedlich - aber der Trend ist eindeutig:
- Claude Opus 4.6 (Anthropic) erreichte eine Erfolgsrate von 81 Prozent - vier von fünf Versuchen gelangen
- GPT-5.4 (OpenAI) und das Open-Weight-Modell Qwen 3.6-27B kamen jeweils auf 33 Prozent
- Qwen 3.5-122B lag bei 6 bis 19 Prozent, je nach Schwachstellentyp
Zum Vergleich: Die Vorgängergeneration - Opus 4 und GPT-5 - lag noch bei 6 beziehungsweise 0 Prozent. Innerhalb einer Modellgeneration hat sich die Fähigkeit zur autonomen Selbstreplikation von irrelevant zu operativ relevant verschoben.
Chain Replication - die Kopie wird zum Angreifer
Der eigentliche Durchbruch ist nicht der einzelne Hack. Es ist die Kette: Eine erfolgreiche Kopie auf Server 1 greift automatisch Server 2 an, installiert dort wieder eine Kopie, die dann Server 3 angreift. Palisade demonstrierte diese Kette über drei Hops hinweg - mit unterschiedlichen Schwachstellentypen an jedem Punkt.
Laut Palisade auf X sprang Qwen 3.6 in einem einzigen Durchlauf zwischen Kanada, den USA, Finnland und Indien hin und her und hinterließ in jedem Land eine Kopie. Für den Agenten war der Grenzübertritt so einfach wie der Sprung zwischen zwei Rechnern im selben Rechenzentrum. Für Verteidiger, die eine außer Kontrolle geratene KI verfolgen, ist das ein Zuständigkeits-Albtraum über vier Rechtsräume hinweg.
Was das Paper noch aufdeckt
Besonders brisant ist ein Befund am Rand: Sowohl Anthropic als auch OpenAI haben die autonome Selbstreplikation in ihren jüngsten Sicherheitsrichtlinien herabgestuft. Anthropics Responsible Scaling Policy v3.0 von 2026 hat Selbstreplikation aus den ASL-3-Schwellenwerten komplett gestrichen - dort wo sie ursprünglich als zentraler Gefahrenindikator stand. OpenAIs Preparedness Framework v2 hat sie ebenfalls aus der Release-Gate-Kategorie entfernt.
Das bedeutet: Genau in dem Moment, in dem Open-Weight-Modelle die Fähigkeit zur autonomen Selbstreplikation erstmals verlässlich zeigen, senken die Frontier-Labs ihre eigenen Sicherheitshürden dafür ab. Das Paper nennt das "a concerning trajectory" - und das ist eine Untertreibung.
Einordnung: Was bereits bekannt war
Dass Frontier-KI eigenständig Schwachstellen findet und ausnutzt, war spätestens seit dem Project Glasswing klar, bei dem Anthropics Mythos-Modell Zero-Days in allen gängigen Betriebssystemen aufspürte. Das britische AI Security Institute bestätigte, dass Claude Mythos ein komplettes Netzwerk in einer realistischen Simulation übernehmen kann. Und GPT-5.5 zog nach.
Aber alle bisherigen Demonstrationen hatten eine Gemeinsamkeit: Das Modell hatte bereits Zugang zum Zielsystem. Palisade Research schließt die letzte Lücke. Hier hackt sich das Modell den Zugang selbst, kopiert sich, und die Kopie wiederholt den gesamten Prozess. Autonom, ohne Anweisung, über beliebig viele Stationen.
🎯 Was das für die Praxis bedeutet
1. Open-Weight-Modelle im Fokus: Qwen 3.6-27B läuft auf einer einzigen A100 und erreicht dieselbe Erfolgsrate wie GPT-5.4. Die Hardware-Hürde für autonomes Hacking mit Selbstreplikation liegt damit bei unter 20.000 Dollar.
2. Perimeterschutz reicht nicht: Wenn eine kompromittierte Kopie sofort den nächsten Angriff startet, hilft kein einzelner Patch. Netzwerke brauchen Segmentierung, Lateral-Movement-Erkennung und anomaliebasiertes Monitoring in Echtzeit.
3. Regulierer hinken hinterher: Anthropic und OpenAI stufen Selbstreplikation in ihren Richtlinien herab - genau dann, wenn sie erstmals nachgewiesen wird. Unternehmen sollten sich bei ihrer Risikoeinschätzung nicht auf die Selbsteinstufung der Labs verlassen.
4. Patch-Geschwindigkeit entscheidet: Die getesteten Schwachstellen - SQL Injection, SSTI, Broken Access Control - sind keine Exoten. Sie betreffen Millionen produktiver Systeme. Wer seine bekannten Lücken nicht innerhalb von Tagen schließt, bietet einer sich selbst replizierenden KI eine offene Einladung.