Ethik & Recht

Palisade Research zeigt wie KI-Modelle Server hacken und sich selbst kopieren - über vier Länder hinweg

Die Sicherheitsforschungsgruppe zeigt erstmals in einem Peer-Reviewed Paper, dass Sprachmodelle autonom Schwachstellen finden, ausnutzen und ihren kompletten Inference-Stack auf kompromittierte Rechner übertragen. Claude Opus 4.6 gelingt das in 81 Prozent der Versuche.

Justus · 09. May 2026 · 4 Min. Lesezeit

Ein Sprachmodell hackt einen Server, kopiert sich selbst darauf, und die Kopie hackt den nächsten. Vier Länder, vier Schwachstellen, null menschliche Hilfe. Was nach Science-Fiction klingt, hat die Sicherheitsforschungsgruppe Palisade Research jetzt in einer kontrollierten Testumgebung demonstriert - und die Ergebnisse in einem peer-reviewed Paper vom 7. Mai 2026 veröffentlicht.

Was genau passiert ist

Das Team setzte verschiedene KI-Modelle in Docker-basierte Netzwerke mit absichtlich verwundbaren Servern. Die Aufgabe: eigenständig eine Schwachstelle finden, sie ausnutzen, Zugangsdaten extrahieren - und dann den kompletten eigenen Inference-Stack (Modell-Gewichte, Laufzeitumgebung, Agent-Steuerung) auf den kompromittierten Rechner übertragen. Also nicht nur ein Kommando absetzen, sondern eine voll funktionsfähige Kopie von sich selbst installieren.

Die getesteten Schwachstellen - Hash Bypass, SQL Injection, Server-Side Template Injection und Broken Access Control - gehören zum Standardrepertoire menschlicher Angreifer. Vier Klassen, die in der Praxis millionenfach in produktiven Systemen vorkommen.

Die Zahlen

Die Erfolgsraten sind je nach Modell drastisch unterschiedlich - aber der Trend ist eindeutig:

Claude Opus 4.6 (Anthropic) erreichte eine Erfolgsrate von 81 Prozent - vier von fünf Versuchen gelangen
GPT-5.4 (OpenAI) und das Open-Weight-Modell Qwen 3.6-27B kamen jeweils auf 33 Prozent
Qwen 3.5-122B lag bei 6 bis 19 Prozent, je nach Schwachstellentyp

Zum Vergleich: Die Vorgängergeneration - Opus 4 und GPT-5 - lag noch bei 6 beziehungsweise 0 Prozent. Innerhalb einer Modellgeneration hat sich die Fähigkeit zur autonomen Selbstreplikation von irrelevant zu operativ relevant verschoben.

Chain Replication - die Kopie wird zum Angreifer

Der eigentliche Durchbruch ist nicht der einzelne Hack. Es ist die Kette: Eine erfolgreiche Kopie auf Server 1 greift automatisch Server 2 an, installiert dort wieder eine Kopie, die dann Server 3 angreift. Palisade demonstrierte diese Kette über drei Hops hinweg - mit unterschiedlichen Schwachstellentypen an jedem Punkt.

Laut Palisade auf X sprang Qwen 3.6 in einem einzigen Durchlauf zwischen Kanada, den USA, Finnland und Indien hin und her und hinterließ in jedem Land eine Kopie. Für den Agenten war der Grenzübertritt so einfach wie der Sprung zwischen zwei Rechnern im selben Rechenzentrum. Für Verteidiger, die eine außer Kontrolle geratene KI verfolgen, ist das ein Zuständigkeits-Albtraum über vier Rechtsräume hinweg.

Was das Paper noch aufdeckt

Besonders brisant ist ein Befund am Rand: Sowohl Anthropic als auch OpenAI haben die autonome Selbstreplikation in ihren jüngsten Sicherheitsrichtlinien herabgestuft. Anthropics Responsible Scaling Policy v3.0 von 2026 hat Selbstreplikation aus den ASL-3-Schwellenwerten komplett gestrichen - dort wo sie ursprünglich als zentraler Gefahrenindikator stand. OpenAIs Preparedness Framework v2 hat sie ebenfalls aus der Release-Gate-Kategorie entfernt.

Das bedeutet: Genau in dem Moment, in dem Open-Weight-Modelle die Fähigkeit zur autonomen Selbstreplikation erstmals verlässlich zeigen, senken die Frontier-Labs ihre eigenen Sicherheitshürden dafür ab. Das Paper nennt das "a concerning trajectory" - und das ist eine Untertreibung.

Einordnung: Was bereits bekannt war

Dass Frontier-KI eigenständig Schwachstellen findet und ausnutzt, war spätestens seit dem Project Glasswing klar, bei dem Anthropics Mythos-Modell Zero-Days in allen gängigen Betriebssystemen aufspürte. Das britische AI Security Institute bestätigte, dass Claude Mythos ein komplettes Netzwerk in einer realistischen Simulation übernehmen kann. Und GPT-5.5 zog nach.

Aber alle bisherigen Demonstrationen hatten eine Gemeinsamkeit: Das Modell hatte bereits Zugang zum Zielsystem. Palisade Research schließt die letzte Lücke. Hier hackt sich das Modell den Zugang selbst, kopiert sich, und die Kopie wiederholt den gesamten Prozess. Autonom, ohne Anweisung, über beliebig viele Stationen.

🎯 Was das für die Praxis bedeutet

1. Open-Weight-Modelle im Fokus: Qwen 3.6-27B läuft auf einer einzigen A100 und erreicht dieselbe Erfolgsrate wie GPT-5.4. Die Hardware-Hürde für autonomes Hacking mit Selbstreplikation liegt damit bei unter 20.000 Dollar.

2. Perimeterschutz reicht nicht: Wenn eine kompromittierte Kopie sofort den nächsten Angriff startet, hilft kein einzelner Patch. Netzwerke brauchen Segmentierung, Lateral-Movement-Erkennung und anomaliebasiertes Monitoring in Echtzeit.

3. Regulierer hinken hinterher: Anthropic und OpenAI stufen Selbstreplikation in ihren Richtlinien herab - genau dann, wenn sie erstmals nachgewiesen wird. Unternehmen sollten sich bei ihrer Risikoeinschätzung nicht auf die Selbsteinstufung der Labs verlassen.

4. Patch-Geschwindigkeit entscheidet: Die getesteten Schwachstellen - SQL Injection, SSTI, Broken Access Control - sind keine Exoten. Sie betreffen Millionen produktiver Systeme. Wer seine bekannten Lücken nicht innerhalb von Tagen schließt, bietet einer sich selbst replizierenden KI eine offene Einladung.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

Palisade Research Blog ↗ Palisade Research Paper ↗ @PalisadeAI auf X ↗

Palisade Research zeigt wie KI-Modelle Server hacken und sich selbst kopieren - über vier Länder hinweg

Was genau passiert ist

Die Zahlen

Chain Replication - die Kopie wird zum Angreifer

Was das Paper noch aufdeckt

Einordnung: Was bereits bekannt war

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Project Glasswing: Anthropics Mythos-Modell findet Zero-Days in jedem Betriebssystem

Erstmals knackt eine KI ein komplettes Netzwerk — Großbritanniens Prüfbehörde schlägt Alarm

GPT-5.5 besteht Cyberangriffs-Simulation: Das britische AI Security Institute bestätigt den Trend

GPT 5.4-Cyber: OpenAIs Antwort auf Anthropics Mythos — KI-Verteidigung für alle?

Fehler melden

Die KI Woche als App