Methode

Ensemble

Ensemble Learning kombiniert mehrere ML-Modelle, um eine Vorhersage zu erzeugen, die besser ist als die jedes einzelnen Modells. Das Prinzip: Verschiedene Modelle machen verschiedene Fehler — durch Zusammenführung mitteln sich die Fehler heraus.

Drei Hauptstrategien: Bagging (Bootstrap Aggregating) trainiert mehrere Modelle auf verschiedenen Teilmengen der Daten und mittelt die Vorhersagen. Random Forest ist das prominenteste Beispiel. Boosting trainiert Modelle sequentiell, wobei jedes neue Modell die Fehler des vorherigen korrigiert. XGBoost, LightGBM und CatBoost sind die dominierenden Vertreter. Stacking trainiert ein Meta-Modell, das lernt, die Vorhersagen mehrerer Basis-Modelle optimal zu kombinieren.

Condrorcet's Jury-Theorem (1785) lieferte die theoretische Grundlage: Wenn jeder einzelne Richter öfter als in 50% der Fälle richtig urteilt und die Urteile unabhängig sind, steigt die Wahrscheinlichkeit einer korrekten Mehrheitsentscheidung mit der Anzahl der Richter gegen 1. Übertragen auf ML: Mehr diverse Modelle = bessere Ensemble-Vorhersage.

In der Praxis dominieren Ensembles bei tabellarischen Daten: Bei Kaggle-Wettbewerben gewinnen fast immer Gradient-Boosting-Ensembles. Bei Bildern und Text haben einzelne große neuronale Netze die Oberhand — Ensemble von LLMs ist möglich (Mixture of Agents), aber rechenintensiv.

Die Erkenntnis: Ensemble Learning ist keine Magie, sondern angewandte Statistik — die systematische Nutzung der Tatsache, dass Diversität die Vorhersagequalität verbessert.

Machine Learning

Ensemble

Verwandte Begriffe

Fehler melden

Die KI Woche als App