Convolution
Convolution (Faltung) ist die mathematische Operation, die Convolutional Neural Networks (CNNs) ihren Namen gibt — und der Schlüssel dazu, warum Computer Bilder verstehen können.
Intuitiv: Ein kleiner Filter (Kernel, typisch 3×3 Pixel) gleitet über ein Bild und berechnet an jeder Position eine gewichtete Summe. Je nach Gewichten erkennt der Filter unterschiedliche Merkmale: horizontale Kanten, vertikale Kanten, Farbübergänge, Texturen. Ein CNN stapelt viele solcher Filter in Schichten: Die ersten Schichten lernen einfache Merkmale (Kanten), tiefere Schichten lernen komplexe (Gesichter, Autos, Tiere).
Mathematisch ist eine 2D-Faltung definiert als (I * K)(i,j) = Σ_m Σ_n I(i+m, j+n) × K(m,n), wobei I das Bild und K der Kernel ist. Die Schlüsseleigenschaften: Parameterteilung (derselbe Filter wird über das gesamte Bild angewendet, drastisch weniger Parameter als vollvernetzte Schichten), Translationsäquivarianz (ein Objekt wird erkannt, egal wo im Bild es sich befindet) und lokale Konnektivität (jedes Neuron sieht nur einen kleinen Ausschnitt).
Yann LeCun zeigte 1989 mit LeNet, dass Convolutions handgeschriebene Ziffern robust erkennen können. AlexNet (2012) demonstrierte, dass tiefe CNNs die Bildklassifikation revolutionieren. Seitdem dominieren Convolutions die Bildverarbeitung — erst 2020 zeigten Vision Transformers (ViT), dass es auch ohne geht.
Convolutions sind nicht auf Bilder beschränkt: 1D-Convolutions verarbeiten Zeitreihen und Audio, 3D-Convolutions verarbeiten Videos und medizinische Volumendaten.