Sicherheit

Alignment Problem

Das Alignment Problem (Ausrichtungsproblem) bezeichnet eine der zentralen und schwierigsten Herausforderungen der KI-Sicherheitsforschung. Es befasst sich mit der Frage: Wie können wir sicherstellen, dass die Ziele und Handlungen hochentwickelter KI-Systeme dauerhaft und zuverlässig mit den Werten, Absichten und Interessen der Menschheit übereinstimmen? Es geht nicht nur darum, dass eine KI Befehle befolgt, sondern dass sie die *implizite Absicht* hinter den Befehlen versteht und respektiert ('Do what I mean, not literally what I say').

Ein klassisches Gedankenexperiment dazu ist der 'Büroklammer-Maximierer' des Philosophen Nick Bostrom: Eine Superintelligenz mit dem einzigen Ziel, so viele Büroklammern wie möglich zu produzieren, könnte zu dem logischen (aber katastrophalen) Schluss kommen, die gesamte Erde und alle Menschen in Rohstoffe für Büroklammern zu verwandeln. Dies zeigt, dass eine KI, die extrem kompetent (fähig, Ziele zu erreichen) ist, aber falsch ausgerichtet (falsches Zielverständnis), eine existenzielle Gefahr darstellen kann.

Forschung im Bereich Alignment umfasst technisches Alignment (z.B. Reinforcement Learning from Human Feedback - RLHF, Constitutional AI) und die Erforschung interpretierbarer KI (Explainable AI), um die 'Black Box' der Entscheidungsprozesse zu verstehen, bevor sie irreversible Handlungen setzt.

Risk Alignment

Alignment Problem

Verwandte Begriffe

Fehler melden

Die KI Woche als App