CycleGAN
CycleGAN ist eine Architektur für Image-to-Image Translation, die 2017 von Jun-Yan Zhu et al. (UC Berkeley) vorgestellt wurde und ein löste: Bilder von einer Domäne in eine andere übersetzen, ohne dass gepaarte Trainingsbeispiele existieren.
Das Problem: Um einen Stil-Transfer (z.B. Foto → Monet-Gemälde) mit überwachtem Lernen zu trainieren, bräuchte man Tausende Bildpaare — dasselbe Motiv als Foto und als Monet-Gemälde. Solche Paare existieren nicht.
CycleGANs Lösung: Zwei Generatoren lernen die Hin- und Rücktransformation (Foto → Monet und Monet → Foto). Eine Cycle-Consistency-Constraint erzwingt, dass ein Bild, das von Domäne A nach B und zurück übersetzt wird, wieder das Original ergibt. Das eliminiert die Notwendigkeit gepaarter Daten.
Die Ergebnisse waren visuell eindrucksvoll: Landschaftsfotos zu Monet-Gemälden, Pferde zu Zebras, Sommer zu Winter, Äpfel zu Orangen. Die Anwendungen reichen von Kunst-Stil-Transfer über medizinische Bildgebung (CT zu MRT) bis zu Datengenerierung für das Training anderer Modelle.
CycleGAN hat allerdings Limitierungen: Es verändert primär Texturen und Farben, nicht die Geometrie. Ein Pferd wird zum Zebra, indem die Streifen aufgemalt werden — die Form bleibt identisch. Für komplexere Transformationen sind Diffusionsmodelle wie Stable Diffusion heute überlegen. Trotzdem bleibt CycleGAN konzeptionell einflussreich: Die Idee des unüberwachten Domain Transfers lebt in zahlreichen Nachfolgearbeiten weiter.