Binary Classification
Binary Classification ist die einfachste Form des überwachten Lernens: Das Modell ordnet eine Eingabe einer von genau zwei Klassen zu. Ja oder Nein, 0 oder 1, Positiv oder Negativ.
Die Aufgabenstellung ist universell. Ist diese E-Mail Spam? Hat dieses Röntgenbild einen Tumor? Wird dieser Kunde kündigen? Ist diese Transaktion betrügerisch? Trotz der scheinbaren Einfachheit steckt hinter robusten binären Klassifikatoren erhebliche Komplexität.
Technisch gibt das Modell typischerweise eine Wahrscheinlichkeit aus (z.B. 0.87 für „Spam"). Ein Schwellenwert (Threshold) — häufig 0.5 — entscheidet über die finale Klasse. Die Wahl dieses Schwellenwerts ist in der Praxis eine bewusste Entscheidung: In der medizinischen Diagnostik verschiebt man ihn nach unten (mehr false positives, dafür weniger false negatives), weil ein übersehener Tumor gefährlicher ist als ein falscher Alarm.
Die Auswertung erfolgt über die Confusion Matrix mit ihren vier Feldern: True Positives, True Negatives, False Positives, False Negatives. Daraus berechnen sich Precision, Recall, F1-Score und die ROC-Kurve. Das Accuracy Paradox zeigt, dass bei unbalancierten Klassen die nackte Trefferquote trügerisch ist.
Algorithmen für binäre Klassifikation reichen von der logistischen Regression (ein Standardmodell seit den 1950ern) über Support Vector Machines und Random Forests bis zu tiefen neuronalen Netzen. Die Wahl hängt von Datenmenge, Interpretierbarkeit und Leistungsanforderungen ab.