Actor-Critic
Actor-Critic ist eine Architektur des Reinforcement Learning, die zwei getrennte Netzwerke kombiniert — und damit die Stärken zweier Lernstrategien vereint.
Der Actor (Akteur) ist das Netzwerk, das Entscheidungen trifft: es erhält den aktuellen Zustand der Umgebung und wählt eine Aktion. Der Critic (Kritiker) bewertet diese Entscheidung, indem er schätzt, wie viel langfristige Belohnung für die gewählte Aktion zu erwarten ist. Der Actor lernt, bessere Aktionen zu wählen; der Critic lernt, Aktionen genauer zu bewerten.
Dieses Zusammenspiel löst ein grundlegendes Problem des Reinforcement Learning. Reine Policy-Gradient-Methoden (nur Actor, kein Critic) leiden unter hoher Varianz — das Lernen ist instabil. Reine Value-basierte Methoden (nur Critic, kein Actor) funktionieren schlecht in Umgebungen mit kontinuierlichem Aktionsraum, etwa bei Robotersteuerung.
Die bekannteste Variante ist A3C (Asynchronous Advantage Actor-Critic), 2016 von DeepMind vorgestellt. A3C trainiert mehrere Actor-Critic-Paare parallel in verschiedenen Kopien der Umgebung und beschleunigte das Training massiv. PPO (Proximal Policy Optimization), Grundlage des RLHF-Trainings bei ChatGPT, ist ebenfalls eine Actor-Critic-Methode.
In der Praxis steckt hinter vielen KI-Erfolgen — von Spielen über Robotik bis zur Sprachmodellanpassung — eine Form der Actor-Critic-Architektur.