Environment
Im Reinforcement Learning (RL) ist die Environment (Umgebung, auch Env) das System, mit dem der Agent interagiert — die „Welt", in der er handelt und aus der er lernt.
Die Standardformalisierung: Der Agent beobachtet einen Zustand (State), führt eine Aktion (Action) aus, erhält eine Belohnung (Reward) und beobachtet den neuen Zustand. Die Environment definiert die Regeln: welche Zustände möglich sind, wie Aktionen Zustände verändern und welche Belohnungen vergeben werden. Formal ist das ein MDP (Markov Decision Process).
Simulierte Environments sind der Standard für RL-Forschung. OpenAI Gym / Gymnasium bietet Standardumgebungen von CartPole (Stange balancieren) über Atari-Spiele bis MuJoCo (physikalische Robotersimulation). DeepMind Lab simuliert 3D-Welten. Unity ML-Agents erlaubt das Training in Spiel-Engines.
Der Sim-to-Real-Gap: In der Simulation trainierte Agenten versagen oft in der realen Welt, weil die Simulation physikalische Details nicht perfekt abbildet. Domain Randomization — das zufällige Variieren von Simulationsparametern (Reibung, Beleuchtung, Objektgröße) — hilft dem Agenten, robuster gegenüber realen Bedingungen zu werden.
Multi-Agent Environments (mehrere Agenten interagieren) und Partially Observable Environments (der Agent sieht nicht den vollständigen Zustand) sind komplexere Varianten, die realistischere Szenarien modellieren. Die Königsdisziplin: Open-ended Environments, in denen sich die Umgebung selbst verändert und neue Herausforderungen erzeugt.