Exploration vs Exploitation
Exploration vs. Exploitation ist das fundamentale Dilemma des Reinforcement Learning: Soll der Agent Bewährtes wiederholen (Exploitation) oder Neues ausprobieren (Exploration)?
Das Beispiel: Ein Restaurantbesucher kennt ein gutes italienisches Restaurant (Exploitation: sichere gute Mahlzeit). Soll er stattdessen ein neues, unbekanntes Restaurant testen (Exploration: möglicherweise besser oder schlechter)? Wer nur exploitiert, verpasst bessere Optionen. Wer nur exploriert, nutzt nie das Gelernte.
Mathematisch formalisiert als Multi-Armed Bandit Problem: K Spielautomaten (Banditen) mit unbekannten Auszahlungswahrscheinlichkeiten. Bei jedem Zug muss der Agent entscheiden, welchen Automaten er spielt. Die optimale Strategie balanciert Informationsgewinn (Exploration) und Gewinnmaximierung (Exploitation).
epsilon-Greedy ist die einfachste Strategie: Mit Wahrscheinlichkeit (1-ε) wähle die beste bekannte Aktion, mit Wahrscheinlichkeit ε wähle zufällig. UCB (Upper Confidence Bound) formalisiert die Unsicherheit: Wenig getestete Aktionen bekommen einen Bonus, der mit mehr Tests schrumpft. Thompson Sampling nutzt Bayessche Statistik für eine elegankte Balance.
In der Praxis ist Exploration vs. Exploitation allgegenwärtig. A/B-Testing (wie viel Traffic für das Experiment?), Empfehlungssysteme (bekannte vs. neue Inhalte), Roboterlernen (sichere vs. unbekannte Bewegungen) und sogar LLM-Sampling (Temperature steuert die Balance zwischen wahrscheinlichsten und kreativen Tokens).