⚙️ Training & Optimierung Standard

DPO (Direct Preference Optimization)

DPO (Direct Preference Optimization) ist ein Trainingsverfahren, das 2023 als elegante Alternative zu RLHF (Reinforcement Learning from Human Feedback) aufkam und die Art, wie Sprachmodelle auf menschliche Präferenzen ausgerichtet werden, vereinfacht. Das Problem mit RLHF: Es erfordert drei separate Schritte — ein Reward Model trainieren, per RL (typischerweise PPO) das Sprachmodell optimieren und dabei ein Referenzmodell als Constraint nutzen. Jeder Schritt ist rechenintensiv und instabil. PPO-Training ist notorisch schwer zu tunen. DPO, vorgestellt von Rafael Rafailov et al. (Stanford, 2023), komprimiert den gesamten Prozess in ein einziges überwachtes Lernziel. Statt ein Reward Model zu trainieren und dann RL draufzusetzen, optimiert DPO die Log-Wahrscheinlichkeit der bevorzugten Antwort gegenüber der abgelehnten direkt — ohne explizites Reward Model, ohne RL-Loop. Mathematisch zeigten die Autoren, dass die optimale Policy unter dem RLHF-Objective als geschlossene Lösung darstellbar ist. DPO optimiert dieses Ziel direkt, ohne den Umweg über ein separates Reward Model. Die Vorteile: DPO ist stabiler, benötigt weniger Hyperparameter-Tuning und braucht deutlich weniger Rechenressourcen als RLHF. Die Ergebnisse sind vergleichbar oder besser. Varianten wie IPO (Identity Preference Optimization) und ORPO (Odds Ratio Preference Optimization) haben das Verfahren weiter verbessert. In der Praxis hat DPO schnell Verbreitung gefunden. Viele Open-Source-Modelle (Zephyr, Mistral-Finetunes) nutzen DPO statt RLHF für ihre Alignment-Phase. Es senkt die Einstiegshürde für Alignment erheblich.

Quellen & Referenzen

Method

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Markus M. Kirchmair

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

DPO (Direct Preference Optimization)

Quellen & Referenzen

Die KI Woche als App

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

DPO (Direct Preference Optimization)

Quellen & Referenzen

Verwandte Begriffe

Fehler melden

Die KI Woche als App