Feature Extraction
Feature Extraction ist der Prozess, aus Rohdaten die relevanten Merkmale zu berechnen, die ein ML-Modell für seine Vorhersage nutzt — der erste Schritt der Datenaufbereitung, der die Brücke zwischen der realen Welt und der mathematischen Modellwelt schlägt.
Traditionelle Feature Extraction war manuell. In Computer Vision: SIFT (Scale-Invariant Feature Transform), HOG (Histogram of Oriented Gradients) und LBP (Local Binary Patterns) extrahierten handgefertigte Features aus Bildern. In Audio: MFCCs (Mel-Frequency Cepstral Coefficients) sind der Standard für Sprachverarbeitung. In Text: TF-IDF, n-Gramme, Part-of-Speech-Tags.
Deep Learning hat die Feature Extraction automatisiert: Ein CNN lernt selbst, welche visuellen Merkmale relevant sind. Ein Transformer lernt kontextualisierte Text-Features. Diese gelernten Features übertreffen handgefertigte in fast allen Bereichen — der Grund für den Siegeszug des Deep Learning.
Transfer Learning nutzt vortrainierte Modelle als Feature Extractors: Man nimmt ein auf ImageNet trainiertes ResNet, entfernt die letzten Klassifikationsschichten und verwendet die vorletzten Schichten als Feature-Vektor für eine neue Aufgabe. Das funktioniert auch mit BERT (Text-Features), CLIP (multimodale Features) und Whisper (Audio-Features).
Feature Extraction vs. Feature Engineering: Extraction berechnet Features aus den Daten (meist automatisch durch das Modell). Engineering konstruiert neue Features aus bestehenden (meist manuell mit Domänenwissen). Beides ist für optimale Modellleistung relevant.