Deep Q-Network (DQN)
Das Deep Q-Network (DQN) war 2013 die Architektur, mit der DeepMind zeigte, dass ein neuronales Netz Atari-Spiele allein aus Pixeln auf übermenschlichem Niveau spielen kann — ein Meilenstein, der das Reinforcement Learning revolutionierte.
Der Ansatz: Ein Convolutional Neural Network sieht die Spielbilder (Pixel) und lernt, für jeden Spielzustand und jede mögliche Aktion den erwarteten langfristigen Gewinn (Q-Value) vorherzusagen. Die Aktion mit dem höchsten Q-Value wird gewählt.
Die technischen Innovationen, die DQN stabil machten: Experience Replay — statt sequentiell aus den letzten Erfahrungen zu lernen (was korrelierte, instabile Updates erzeugt), speichert DQN Erfahrungen in einem Puffer und sampelt daraus zufällig. Target Network — ein separates, periodisch aktualisiertes Netz stabilisiert die Q-Value-Ziele.
Das Ergebnis war spektakulär. DQN übertraf menschliche Spieler in 29 von 49 Atari-Spielen — mit genau derselben Architektur und denselben Hyperparametern für alle Spiele. Kein domänenspezifisches Wissen, keine manuell definierten Features, nur Pixel und Score.
Mnih et al. veröffentlichten 2015 das Paper in Nature — ein Signal, dass Deep Reinforcement Learning in der breiteren Wissenschaft angekommen war. Google übernahm DeepMind 2014 für geschätzte 500 Millionen Dollar — wesentlich motiviert durch die DQN-Ergebnisse.
DQN war der Startschuss für AlphaGo (2016), AlphaZero (2017) und die Anwendung von Deep RL auf robotische Steuerung, Chip-Design und LLM-Alignment (PPO, RLHF).