Verarbeitung

Denoising

Denoising ist der Prozess, Rauschen aus Daten zu entfernen — und zugleich ein fundamentales Trainingsprinzip, das modernen generativen KI-Modellen zugrunde liegt.

Im klassischen Sinne: Signal von Rauschen trennen. In Bildern: Körnung, Sensorartefakte und Kompressionsartefakte entfernen. In Audio: Hintergrundrauschen unterdrücken. In Text: Tippfehler, OCR-Fehler und Formatierungsartefakte bereinigen.

Denoising Autoencoders (Vincent et al., 2008) lernten, verrauschte Eingaben in saubere Ausgaben zu übersetzen — ein einfaches, aber mächtiges Trainingsprinzip. Die Idee: Durch das Lösen der Entauschungsaufgabe lernt das Modell die wesentliche Struktur der Daten.

Diffusionsmodelle — die Architektur hinter Stable Diffusion, DALL-E 3 und Midjourney — treiben dieses Prinzip auf die Spitze. Beim Training wird schrittweise Rauschen zu einem Bild addiert, bis nur noch zufälliges Gaussches Rauschen übrig ist. Das Modell lernt dann, den umgekehrten Prozess durchzuführen: aus reinem Rauschen Schritt für Schritt ein Bild zu rekonstruieren. Bei der Generierung startet das Modell mit zufälligem Rauschen und entrauscht es zu einem Bild — geleitet durch den Textprompt.

Die mathematische Formulierung (Denoising Score Matching, Song & Ermon, 2019; DDPM, Ho et al., 2020) erwies sich als stabiler und leichter trainierbar als GANs. Der Erfolg von Diffusionsmodellen hat gezeigt, dass Denoising weit mehr ist als ein Preprocessing-Schritt — es ist ein fundamentales Paradigma der generativen KI.

Audio Image

Denoising

Fehler melden

Die KI Woche als App