Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Sicherheit

AI Safety

AI Safety ist das technische Gegenstück zur eher philosophischen KI-Ethik: ein Ingenieursfeld, das konkrete Methoden entwickelt, um KI-Systeme zuverlässig, kontrollierbar und robust zu machen.

Das Feld gliedert sich in mehrere Teilbereiche. Robustheit gegen Angriffe: Adversarial Attacks zeigen, dass selbst leistungsstarke Modelle durch minimale Eingabemanipulationen zu falschen Ergebnissen gebracht werden können — ein aufgeklebter Sticker bringt eine Bilderkennungs-KI dazu, ein Stoppschild als Vorfahrtsschild zu erkennen.

Vermeidung schädlicher Ausgaben: Jailbreaking-Techniken umgehen regelmäßig die Sicherheitsfilter großer Sprachmodelle. Das Wettrüsten zwischen Red-Teamern (die Schwachstellen suchen) und Safety-Teams (die sie stopfen) ist ein permanenter Prozess.

Kontrolle über fortgeschrittenere Systeme: Je leistungsfähiger KI wird, desto schwieriger wird die Kontrolle. Das Konzept der „Corrigibility" — die Fähigkeit, ein System abzuschalten oder zu korrigieren, selbst wenn es dagegen optimieren könnte — ist ein offenes Forschungsproblem.

Organisatorisch hat AI Safety enormen Aufschwung erlebt. OpenAI, Anthropic und DeepMind unterhalten eigene Safety-Teams. Das 2023 gegründete UK AI Safety Institute war die erste staatliche Institution, die sich explizit der KI-Sicherheit widmet. Auf dem AI Safety Summit in Bletchley Park unterzeichneten 28 Staaten die erste internationale Erklärung zum Thema.

Risk Control
🔗 Link kopiert!