Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Training

DPO (Direct Preference Optimization)

DPO (Direct Preference Optimization) ist ein Trainingsverfahren, das 2023 als elegante Alternative zu RLHF (Reinforcement Learning from Human Feedback) aufkam und die Art, wie Sprachmodelle auf menschliche Präferenzen ausgerichtet werden, vereinfacht.

Das Problem mit RLHF: Es erfordert drei separate Schritte — ein Reward Model trainieren, per RL (typischerweise PPO) das Sprachmodell optimieren und dabei ein Referenzmodell als Constraint nutzen. Jeder Schritt ist rechenintensiv und instabil. PPO-Training ist notorisch schwer zu tunen.

DPO, vorgestellt von Rafael Rafailov et al. (Stanford, 2023), komprimiert den gesamten Prozess in ein einziges überwachtes Lernziel. Statt ein Reward Model zu trainieren und dann RL draufzusetzen, optimiert DPO die Log-Wahrscheinlichkeit der bevorzugten Antwort gegenüber der abgelehnten direkt — ohne explizites Reward Model, ohne RL-Loop.

Mathematisch zeigten die Autoren, dass die optimale Policy unter dem RLHF-Objective als geschlossene Lösung darstellbar ist. DPO optimiert dieses Ziel direkt, ohne den Umweg über ein separates Reward Model.

Die Vorteile: DPO ist stabiler, benötigt weniger Hyperparameter-Tuning und braucht deutlich weniger Rechenressourcen als RLHF. Die Ergebnisse sind vergleichbar oder besser. Varianten wie IPO (Identity Preference Optimization) und ORPO (Odds Ratio Preference Optimization) haben das Verfahren weiter verbessert.

In der Praxis hat DPO schnell Verbreitung gefunden. Viele Open-Source-Modelle (Zephyr, Mistral-Finetunes) nutzen DPO statt RLHF für ihre Alignment-Phase. Es senkt die Einstiegshürde für Alignment erheblich.

Method