Behavioral Cloning
Behavioral Cloning ist der einfachste Ansatz im Imitation Learning: Ein KI-System lernt ein Verhalten, indem es einen menschlichen Experten beobachtet und dessen Aktionen direkt nachahmt — im Wesentlichen überwachtes Lernen auf Demonstrations-Daten.
Das Prinzip: Ein Mensch fährt ein Auto, der Zustand (Kamerabild, Geschwindigkeit, Lenkwinkel) und die zugehörige Aktion (Lenkung, Bremse, Gas) werden aufgezeichnet. Das Modell lernt die Zuordnung Zustand → Aktion. Nvidia demonstrierte 2016 mit DAVE-2, dass ein Ende-zu-Ende trainiertes CNN allein aus Kamerabildern eine passable Lenkstrategie lernen kann.
Das grundlegende Problem: Compounding Error. Sobald das Modell einen kleinen Fehler macht, gerät es in einen Zustand, den es im Training nie gesehen hat — und macht dort einen größeren Fehler, der wiederum zu einem noch unbekannteren Zustand führt. Die Abweichung vom gelernten Verhalten kaskadiert.
Stéphane Ross und Drew Bagnell formalisierten dieses Problem 2011 und entwickelten DAgger (Dataset Aggregation) als Lösung: Das Modell sammelt selbst Erfahrungen, und der menschliche Experte korrigiert die problematischen Zustände — der Datensatz wächst iterativ.
Trotz seiner Schwächen bleibt Behavioral Cloning wegen seiner Einfachheit beliebt. Teslas Full Self-Driving basiert auf einer fortgeschrittenen Form des Ansatzes. Auch in der Robotik (Google RT-2) und bei LLM-Feintuning (Instruction Tuning als eine Form von Behavioral Cloning) ist das Prinzip präsent.