Sicherheit

AI Safety

AI Safety ist das technische Gegenstück zur eher philosophischen KI-Ethik: ein Ingenieursfeld, das konkrete Methoden entwickelt, um KI-Systeme zuverlässig, kontrollierbar und robust zu machen.

Das Feld gliedert sich in mehrere Teilbereiche. Robustheit gegen Angriffe: Adversarial Attacks zeigen, dass selbst leistungsstarke Modelle durch minimale Eingabemanipulationen zu falschen Ergebnissen gebracht werden können — ein aufgeklebter Sticker bringt eine Bilderkennungs-KI dazu, ein Stoppschild als Vorfahrtsschild zu erkennen.

Vermeidung schädlicher Ausgaben: Jailbreaking-Techniken umgehen regelmäßig die Sicherheitsfilter großer Sprachmodelle. Das Wettrüsten zwischen Red-Teamern (die Schwachstellen suchen) und Safety-Teams (die sie stopfen) ist ein permanenter Prozess.

Kontrolle über fortgeschrittenere Systeme: Je leistungsfähiger KI wird, desto schwieriger wird die Kontrolle. Das Konzept der „Corrigibility" — die Fähigkeit, ein System abzuschalten oder zu korrigieren, selbst wenn es dagegen optimieren könnte — ist ein offenes Forschungsproblem.

Organisatorisch hat AI Safety enormen Aufschwung erlebt. OpenAI, Anthropic und DeepMind unterhalten eigene Safety-Teams. Das 2023 gegründete UK AI Safety Institute war die erste staatliche Institution, die sich explizit der KI-Sicherheit widmet. Auf dem AI Safety Summit in Bletchley Park unterzeichneten 28 Staaten die erste internationale Erklärung zum Thema.

Risk Control

AI Safety

Verwandte Begriffe

Fehler melden

Die KI Woche als App