Deep Q-Network (DQN)

Das Deep Q-Network (DQN) war 2013 die Architektur, mit der DeepMind zeigte, dass ein neuronales Netz Atari-Spiele allein aus Pixeln auf übermenschlichem Niveau spielen kann — ein Meilenstein, der das Reinforcement Learning revolutionierte.

Der Ansatz: Ein Convolutional Neural Network sieht die Spielbilder (Pixel) und lernt, für jeden Spielzustand und jede mögliche Aktion den erwarteten langfristigen Gewinn (Q-Value) vorherzusagen. Die Aktion mit dem höchsten Q-Value wird gewählt.

Die technischen Innovationen, die DQN stabil machten: Experience Replay — statt sequentiell aus den letzten Erfahrungen zu lernen (was korrelierte, instabile Updates erzeugt), speichert DQN Erfahrungen in einem Puffer und sampelt daraus zufällig. Target Network — ein separates, periodisch aktualisiertes Netz stabilisiert die Q-Value-Ziele.

Das Ergebnis war spektakulär. DQN übertraf menschliche Spieler in 29 von 49 Atari-Spielen — mit genau derselben Architektur und denselben Hyperparametern für alle Spiele. Kein domänenspezifisches Wissen, keine manuell definierten Features, nur Pixel und Score.

Mnih et al. veröffentlichten 2015 das Paper in Nature — ein Signal, dass Deep Reinforcement Learning in der breiteren Wissenschaft angekommen war. Google übernahm DeepMind 2014 für geschätzte 500 Millionen Dollar — wesentlich motiviert durch die DQN-Ergebnisse.

DQN war der Startschuss für AlphaGo (2016), AlphaZero (2017) und die Anwendung von Deep RL auf robotische Steuerung, Chip-Design und LLM-Alignment (PPO, RLHF).

Algorithm

Deep Q-Network (DQN)

Verwandte Begriffe

Fehler melden

Die KI Woche als App