Feature Engineering
Feature Engineering ist die Kunst, aus Rohdaten aussagekräftige Eingabevariablen für ein ML-Modell zu konstruieren — und war traditionell der Teil des ML-Prozesses, der am meisten menschliche Kreativität, Domänenwissen und Erfahrung erforderte.
Ein konkretes Beispiel: Ein Modell soll vorhersagen, ob ein Kredit zurückgezahlt wird. Die Rohdaten enthalten Transaktionshistorien. Ein erfahrener Data Scientist könnte daraus Features ableiten: Verhältnis von Ausgaben zu Einkommen, Schwankungsbreite des Kontostands, Häufigkeit von Überziehungen, Regelmäßigkeit von Gehaltseingängen, Anteil von Luxus- vs. Grundbedarfsausgaben.
Der Einfluss auf die Modellqualität ist enorm. Andrew Ng formulierte: „Applied machine learning is basically feature engineering." Kaggle-Grandmaster berichten, dass clevere Features wichtiger sind als die Wahl des Algorithmus.
Deep Learning hat Feature Engineering teilweise automatisiert: Ein CNN lernt selbst, welche Bildmerkmale relevant sind. Ein Transformer lernt kontextualisierte Text-Repräsentationen. LLMs erzeugen aus Features eigene interne Repräsentationen. Trotzdem bleibt Feature Engineering für tabellarische Daten entscheidend — Gradient-Boosting-Modelle (XGBoost, LightGBM) mit handgefertigten Features übertreffen Deep Learning bei tabellarischen Aufgaben konsistent.
Automatisiertes Feature Engineering (AutoML) durch Tools wie Featuretools, tsfresh oder TPOT generiert Features systematisch, ersetzt aber das Domänenwissen nicht vollständig. Die Kombination aus domänenspezifischen Features und automatisch generierten Interaktionsfeatures liefert oft die besten Ergebnisse.