Preprocessing

Feature Selection

Feature Selection ist der Prozess, aus einer Vielzahl verfügbarer Merkmale die relevantesten auszuwählen — unnötige Features zu entfernen, um die Modellleistung zu verbessern, Overfitting zu reduzieren und die Interpretierbarkeit zu erhöhen.

Warum nicht einfach alle Features verwenden? Mehr Features bedeutet nicht automatisch bessere Modelle. Der Curse of Dimensionality macht Modelle mit steigender Feature-Zahl anfälliger für Overfitting. Irrelevante Features fügen Rauschen hinzu. Korrelierte Features erzeugen Multikollinearität, die lineare Modelle destabilisiert. Und: Weniger Features bedeuten schnelleres Training und Inferenz.

Drei Methodenklassen: Filter-Methoden bewerten Features ohne Modelltraining: Korrelation mit dem Zielwert, Chi²-Test, Mutual Information, Varianz-Schwellenwert. Schnell, aber ohne Berücksichtigung von Feature-Interaktionen. Wrapper-Methoden trainieren Modelle mit verschiedenen Feature-Subsets: Forward Selection (schrittweise Features hinzufügen), Backward Elimination (schrittweise Features entfernen), Recursive Feature Elimination (RFE). Genauer, aber rechenintensiv. Embedded-Methoden integrieren Feature Selection ins Modelltraining: L1-Regularisierung (Lasso) drückt unwichtige Feature-Gewichte auf Null. Baum-basierte Modelle (Random Forest, XGBoost) liefern Feature Importance als Nebenprodukt.

SHAP (SHapley Additive exPlanations) hat sich als Standard für Feature-Importance-Analyse etabliert: Es quantifiziert den Beitrag jedes Features zur Vorhersage basierend auf spieltheoretischen Konzepten.

In der Praxis: Für tabellarische Daten mit Hunderten Features ist Feature Selection entscheidend. Für Deep Learning mit unstrukturierten Daten (Bilder, Text) ist es weniger relevant — das Netz lernt seine Features selbst.

Optimization

Feature Selection

Verwandte Begriffe

Fehler melden

Die KI Woche als App