Statistik

Distribution

Distribution (Verteilung) beschreibt, wie die Werte einer Variablen oder eines Datensatzes verteilt sind — die statistische Grundlage, auf der Machine Learning aufbaut.

Die Normalverteilung (Gaussche Glockenkurve) ist die bekannteste: Werte häufen sich um den Mittelwert, symmetrisch abfallend. Viele natürliche Phänomene folgen dieser Verteilung: Körpergröße, Messfehler, IQ-Werte. Xavier-Gewichtsinitialisierung nutzt eine Normalverteilung, um neuronale Netze zu initialisieren.

Im ML ist die Verteilung der Trainingsdaten fundamental. Wenn die Verteilung im Training anders ist als in der Anwendung (Distribution Shift), versagt das Modell. Ein Gesichtserkennungsmodell, trainiert auf westlichen Gesichtern, funktioniert schlecht bei asiatischen Gesichtern — ein Mismatch der Verteilung.

Wichtige Verteilungen im ML-Kontext: Uniform (gleichmäßig, z.B. für zufällige Initialisierung). Bernoulli (binär, z.B. für Dropout). Multinomial (kategorisch, z.B. für die Softmax-Ausgabe). Poisson (Zähldaten, z.B. für Ereignishäufigkeiten). Power Law (Zipfsches Gesetz, z.B. für Worthäufigkeiten in natürlicher Sprache).

Out-of-Distribution (OOD) Detection — das Erkennen von Eingaben, die nicht zur Trainingsverteilung gehören — ist ein aktives Forschungsfeld. Ein Modell sollte bei OOD-Eingaben idealerweise „Ich weiß nicht" sagen, statt eine falsche Vorhersage mit hoher Konfidenz zu produzieren.

Data

Distribution

Verwandte Begriffe

Fehler melden

Die KI Woche als App