Classifier
Ein Classifier (Klassifikator) ist ein Algorithmus oder Modell, das die Aufgabe der Klassifikation ausführt — es weist Eingabedaten einer von mehreren vordefinierten Kategorien zu.
Die Familie der Klassifikatoren ist groß und vielfältig. Lineare Klassifikatoren (logistische Regression, lineare SVMs) trennen Klassen durch Hyperebenen im Feature-Raum. Baumbasierte Klassifikatoren (Decision Trees, Random Forests, Gradient Boosting) partitionieren den Feature-Raum durch eine Kaskade von Wenn-Dann-Regeln. Neuronale Klassifikatoren (CNNs für Bilder, Transformer für Text) lernen hierarchische Repräsentationen und dominieren bei unstrukturierten Daten.
Die Wahl des richtigen Klassifikators hängt von mehreren Faktoren ab. Datenmenge: Neuronale Netze brauchen typischerweise mehr Daten als baumbasierte Methoden. Interpretierbarkeit: Ein Decision Tree ist direkt erklärbar, ein tiefes CNN ist eine Black Box. Geschwindigkeit: Eine logistische Regression hat Inferenz in Mikrosekunden, ein Large Language Model braucht Sekunden.
Das No-Free-Lunch-Theorem (Wolpert, 1996) besagt formal, dass kein Klassifikator über alle möglichen Probleme hinweg der beste ist. In der Praxis zeigt sich allerdings: Für tabellarische Daten gewinnen Gradient-Boosting-Ensembles fast immer, für Bilder CNNs oder Vision Transformer, für Text BERT-artige oder LLM-basierte Modelle.
Ensemble-Methoden kombinieren mehrere Klassifikatoren: Bagging (Random Forest), Boosting (XGBoost) und Stacking trainnieren diverse Modelle und aggregieren ihre Vorhersagen durch Abstimmung oder Averaging.