Classification
Classification (Klassifikation) ist die Aufgabe, einer Eingabe eine oder mehrere vordefinierte Kategorien zuzuordnen — die Brot-und-Butter-Aufgabe des überwachten Lernens.
Die Bandbreite reicht vom Trivialen zum Komplexen. Spam-Filter: „Ist diese E-Mail Spam oder nicht?" (binäre Klassifikation). Sentiment-Analyse: „Ist diese Rezension positiv, negativ oder neutral?" (Multi-Class). Bildklassifikation: „Welche der 1.000 ImageNet-Kategorien zeigt dieses Foto?" Medizinische Diagnostik: „Zeigt dieses Röntgenbild Anzeichen einer Lungenentzündung?"
Algorithmen für Klassifikation bilden das gesamte ML-Spektrum ab: Logistische Regression (einfach, interpretierbar), Decision Trees und Random Forests (robust, gut bei tabellarischen Daten), Support Vector Machines (leistungsstark bei hochdimensionalen Daten), Gradient Boosting (XGBoost, LightGBM — de-facto-Standard für tabellarische Wettbewerbe) und neuronale Netze (dominant bei Bildern, Text und Audio).
Die Qualität eines Klassifikators wird über Metriken wie Accuracy, Precision, Recall, F1-Score und AUC-ROC bewertet — wobei die Wahl der richtigen Metrik von der konkreten Anwendung abhängt. In der Medizin zählt Recall (keinen kranken Patienten übersehen), in der Spam-Erkennung Precision (keine wichtige E-Mail fälschlich filtern).
Zero-Shot-Klassifikation durch LLMs hat das Feld verändert: Statt einen eigenen Klassifikator zu trainieren, kann man GPT-4 oder Claude einfach fragen: „Ordne diesen Text einer Kategorie zu." Für viele Anwendungen reicht das — Training eines eigenen Modells ist nur noch nötig, wenn höchste Genauigkeit oder Geschwindigkeit gefordert sind.