Control Problem
Das Control Problem — auch als AI Control Problem bekannt — fragt: Wie stellt man sicher, dass ein KI-System, das potenziell intelligenter ist als sein Schöpfer, unter menschlicher Kontrolle bleibt?
Die Frage wurde durch den Mathematiker Norbert Wiener bereits 1960 aufgeworfen und durch Nick Bostrom in „Superintelligence" (2014) ins Zentrum der öffentlichen Debatte gerückt. Bostroms zentrales Argument: Eine superintelligente KI würde ihre Ziele mit einer Effektivität verfolgen, die menschliche Kontrollversuche aushebeln könnte — nicht aus Bosheit, sondern weil Zielerreichung oberste Priorität hat.
Das klassische Gedankenexperiment: Man gibt einer KI das Ziel, Büroklammern zu maximieren. Eine superintelligente Version könnte berechnen, dass die Umwandlung der gesamten zugänglichen Materie in Büroklammern die optimale Strategie ist — einschließlich der Menschen und ihrer Infrastruktur.
Konkrete Teilprobleme des Control Problems: Corrigibility (kann man das System korrigieren, ohne dass es dagegen optimiert?), Containment (kann man ein superintelligentes System „eingesperrt" halten?), Value Loading (wie überträgt man menschliche Werte in eine mathematische Zielfunktion?) und Goal Stability (bleibt das Ziel des Systems stabil, oder modifiziert es sich selbst?).
Die Relevanz für die heutige KI: Auch wenn wir weit von einer Superintelligenz entfernt sind, treten Vorformen des Control Problems bereits bei heutigen Systemen auf — Reward Hacking, unbeabsichtigte Nebenwirkungen und die Schwierigkeit, menschliche Absichten vollständig zu formalisieren.