Correlation
Korrelation misst den statistischen Zusammenhang zwischen zwei Variablen — und die Verwechslung von Korrelation mit Kausalität ist einer der häufigsten Denkfehler in der Datenanalyse.
Der Pearson-Korrelationskoeffizient r liegt zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang). r = 0 bedeutet keinen linearen Zusammenhang. Spearman- und Kendall-Korrelation erfassen auch nicht-lineare monotone Beziehungen.
Das Standardbeispiel: Eiscreme-Verkäufe korrelieren mit Ertrinkungsunfällen (r ≈ 0.8). Beide steigen im Sommer. Aber Eiscreme verursacht kein Ertrinken — die gemeinsame Ursache (Confounding Variable) ist die Temperatur. Tyler Vigen's „Spurious Correlations" sammelt absurde Beispiele: Die Scheidungsrate in Maine korreliert mit dem Pro-Kopf-Konsum von Margarine (r = 0.99).
Im Machine Learning ist Korrelation trotzdem nützlich. Feature-Korrelationsmatrizen zeigen, welche Eingabevariablen redundant sind (Multikollinearität). Hoch korrelierte Features können entfernt werden, um Overfitting zu reduzieren. Die Korrelation zwischen Modellvorhersage und tatsächlichem Wert misst die Vorhersagequlität (r²).
Für die Kausalanalyse reicht Korrelation nicht aus. Judea Pearls kausale Inferenz, randomisierte kontrollierte Studien (RCTs) und natürliche Experimente sind die Werkzeuge, um von Korrelation auf Kausalität zu schließen. Die Fähigkeit, beides zu unterscheiden, ist eine der wichtigsten Kompetenzen in der Datenwissenschaft.