Wirtschaft & Gesellschaft

Anthropic kippt sein zentrales Sicherheitsversprechen

Das sicherheitsbewussteste KI-Unternehmen der Welt streicht seine Kernzusage — weil Wettbewerber vorpreschen und die Regulierung ausbleibt. METR warnt vor dem Frosch-Effekt.

Laura · 25. Feb 2026 · 3 Min. Lesezeit

Anthropic, das Unternehmen, das sich seit seiner Gründung als moralischer Kompass der KI-Branche positioniert hat, vollzieht die wohl bedeutsamste Kehrtwende seiner Geschichte. In der dritten Version seiner Responsible Scaling Policy (RSP) streicht das Unternehmen sein zentrales Sicherheitsversprechen: die Zusage von 2023, niemals ein KI-System zu trainieren, solange man nicht im Voraus garantieren kann, dass die eigenen Sicherheitsmaßnahmen ausreichen.

„Wir hatten nicht das Gefühl, dass es jemandem hilft, wenn wir aufhören, KI-Modelle zu trainieren", sagte Chief Science Officer Jared Kaplan gegenüber TIME. „Wenn Wettbewerber vorpreschen, ergibt es keinen Sinn, einseitige Verpflichtungen einzugehen."

Was sich konkret ändert

Das alte Versprechen war simpel und verbindlich: Erreicht ein Modell eine bestimmte Gefahrenstufe (gemessen an den sogenannten AI Safety Levels, kurz ASL), wird die Entwicklung gestoppt, bis passende Schutzmaßnahmen stehen. Dieses Prinzip machte Anthropic zum Vorzeigeunternehmen der Branche.

Die neue RSP v3 ersetzt diesen harten Schwellenwert durch ein flexibleres System: Statt binärer Stopp-Mechanismen gibt es jetzt regelmäßige Risikoberichte alle drei bis sechs Monate, externe Prüfung durch unabhängige Gutachter und sogenannte Frontier Safety Roadmaps - ambitionierte Forschungsfahrpläne für künftige Sicherheitsmaßnahmen.

Chris Painter, Leiter der Politikabteilung beim KI-Evaluierungslabor METR, sieht die Änderung mit gemischten Gefühlen. Anthropic gehe in den „Triage-Modus", weil die Methoden zur Risikobewertung nicht mit dem Tempo der technologischen Fähigkeiten mithalten könnten. „Das ist ein weiterer Beleg dafür, dass die Gesellschaft auf die potenziell katastrophalen Risiken von KI nicht vorbereitet ist", sagte Painter gegenüber TIME.

Warum jetzt?

Die Gründe für den Kurswechsel sind vielschichtig. Die erhoffte Regulierung - ob auf nationaler oder internationaler Ebene - ist nicht gekommen. Die Trump-Administration fährt einen dezidierten Laissez-faire-Kurs bei der KI-Entwicklung. Gleichzeitig hat sich die Wissenschaft der KI-Evaluierung als komplizierter erwiesen als gedacht: Was Anthropic 2023 als klare rote Linie vorschwebte, entpuppte sich in der Praxis als „unscharfer Gradient".

Hinzu kommt das Wettbewerbsmoment. Anthropic reitet gerade auf einer Erfolgswelle - mit einer Bewertung von 380 Milliarden Dollar, einem Jahresumsatz, der sich verzehnfacht, und Claude Code als Publikumsliebling. Die alte Selbstbeschränkung drohte, das Unternehmen genau dann auszubremsen, wenn es am stärksten ist.

Das Frosch-Problem

Painter warnt vor einem „Frosch-Effekt" (dem berühmten Frosch im langsam erhitzen Wasser): Ohne klare binäre Schwellenwerte - hier sicher, dort gefährlich - könnten die Risiken schleichend zunehmen, ohne dass ein einzelner Moment den Alarm auslöst. Die Gefahren summieren sich unmerklich, bis es zu spät ist.

Gleichzeitig prognostiziert Anthropic in der RSP v3 selbst, dass KI-Systeme bereits Anfang 2027 die Arbeit ganzer Forschungsteams in sicherheitskritischen Bereichen vollständig automatisieren könnten. „One year left" - wie es ein Nutzer auf X zusammenfasst.

🎯 Was das für die Praxis bedeutet

1. Anthropics Kurswechsel zeigt: Selbst das sicherheitsbewussteste Unternehmen der Branche kann seine Versprechen nicht halten, wenn der Wettbewerb und die politische Realität dagegen arbeiten. Freiwillige Selbstverpflichtungen sind kein Ersatz für verbindliche Regulierung.

2. Die neuen Risikoberichte und externen Prüfungen setzen trotzdem einen neuen Transparenzstandard. Unternehmen, die Claude einsetzen, sollten diese Berichte aktiv verfolgen und in ihre eigene Risikobewertung einbeziehen.

3. Die Zeitlinie „Anfang 2027" für autonome Forschungsfähigkeiten ist keine Panikmache, sondern Anthropics eigene Einschätzung. Wer seine KI-Strategie auf zwei bis drei Jahre Vorlaufzeit stützt, könnte böse überrascht werden.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

TIME Exclusive ↗ Anthropic RSP v3 ↗ @kimmonismus auf X ↗

Anthropic kippt sein zentrales Sicherheitsversprechen

Was sich konkret ändert

Warum jetzt?

Das Frosch-Problem

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Amodeis neuer Essay: Die Adoleszenz der Technologie

Exodus der KI-Vordenker: Warum Spitzenforscher OpenAI, Anthropic und xAI verlassen

Drei KI-Köpfe, eine Warnung: Hassabis, Altman und Amodei beim India AI Summit

Fehler melden

Die KI Woche als App