Problem

Concept Drift

Concept Drift beschreibt das Phänomen, dass sich die statistische Beziehung zwischen Eingabedaten und Vorhersageziel über die Zeit verändert — und damit ein einmal trainiertes Modell schleichend ungenauer wird.

Ein konkretes Beispiel: Ein Spam-Filter, der 2020 trainiert wurde, hat die Spam-Muster von 2020 gelernt. Spammer ändern aber permanent ihre Taktik — 2024 nutzen sie KI-generierte Texte, die grammatisch korrekt sind und personalisiert wirken. Das Modell erkennt diese neuen Muster nicht, weil sie im Training nicht vorkamen.

Concept Drift tritt in drei Varianten auf. Gradual Drift: Die Verteilung ändert sich langsam over time (saisonale Nachfrageänderungen). Sudden Drift: Eine abrupte Veränderung (eine Pandemie ändert über Nacht die Kaufmuster). Recurring Drift: Periodische Muster, die sich wiederholen (Weihnachtseinkäufe).

Die Erkennung erfolgt durch Monitoring: Ist die Verteilung der Eingabedaten (Input Drift) oder die Modellleistung auf den neuesten Labels (Performance Drift) signifikant anders als im Training? Tools wie Evidently AI, WhyLabs und NannyML automatisieren diese Überwachung.

Gegenmaßnahmen: Regelmäßiges Retraining mit aktuellen Daten, Online Learning (das Modell lernt kontinuierlich aus dem Datenstrom), und Ensemble-Methoden, die alte und neue Modelle kombinieren.

Concept Drift ist der Grund, warum ML-Modelle in Produktion keine „Set and Forget"-Systeme sind — sie erfordern kontinuierliche Überwachung und Wartung, ein Punkt, den viele Unternehmen bei der initialen Begeisterung übersehen.

Production

Concept Drift

Verwandte Begriffe

Fehler melden

Die KI Woche als App