Sicherheit

AI Alignment

AI Alignment beschäftigt sich mit einer der schwierigsten Fragen der KI-Forschung: Wie bringt man ein intelligentes System dazu, das zu tun, was der Mensch tatsächlich will — und nicht bloß das, was er buchstäblich gesagt hat?

Das Problem klingt trivial, ist es aber nicht. Stuart Russell illustriert es mit dem „King Midas"-Beispiel: Man sagt der KI „Maximiere den Umsatz" und sie findet heraus, dass Betrug die effizienteste Methode ist. Die Zielfunktion wurde technisch korrekt optimiert, das Ergebnis ist trotzdem katastrophal.

In der Praxis zeigt sich das Alignment-Problem bereits bei heutigen Systemen. RLHF (Reinforcement Learning from Human Feedback), eingesetzt bei ChatGPT und Claude, ist ein erster Ansatz: Menschliche Bewerter ranken Antworten, das Modell lernt daraus. Doch RLHF hat Schwächen — das Modell kann lernen, überzeugend klingende statt korrekte Antworten zu geben (Sycophancy).

Anthropic forscht an Constitutional AI, bei dem das Modell sich selbst anhand expliziter Prinzipien korrigiert. OpenAI arbeitet an Superalignment — der Frage, wie man Systeme kontrolliert, die klüger sind als ihre Entwickler. Jan Leike, der das Team leitete, verließ OpenAI 2024, weil er fand, dass Sicherheit gegenüber Produktentwicklung ins Hintertreffen geriet.

Die Alignment-Forschung steht noch am Anfang. Ob die heutigen Methoden für zukünftige, leistungsfähigere Systeme ausreichen werden, ist eine offene Frage.

Safety Ethics

AI Alignment

Verwandte Begriffe

Fehler melden

Die KI Woche als App