Convolutional Layer
Ein Convolutional Layer (Faltungsschicht) ist die Grundbaueinheit eines CNN — eine Schicht, die eine Reihe lernbarer Filter auf die Eingabe anwendet und dabei Merkmalskarten (Feature Maps) erzeugt.
Jeder Convolutional Layer enthält eine festgelegte Anzahl von Filtern (typisch 32, 64, 128, 256). Jeder Filter lernt während des Trainings, ein bestimmtes visuelles Muster zu erkennen. Die Ausgabe eines Filters für eine Eingabe ist eine Feature Map — ein Bild, das zeigt, wo das gelernte Muster in der Eingabe vorkommt.
In der Praxis hat ein typisches CNN eine Hierarchie von Convolutional Layers. Die erste Schicht erkennt einfache Merkmale: Kanten, Farbgradienten, Texturen. Die zweite Schicht kombiniert diese zu Mustern: Ecken, Kreise, einfache Formen. Tiefere Schichten erkennen zunehmend komplexe Konzepte: Augen, Räder, Buchstaben. Die letzten Schichten erfassen ganze Objekte und Szenen.
Zwischen Convolutional Layers sitzen typischerweise Aktivierungsfunktionen (ReLU) und Pooling-Layers. Max-Pooling reduziert die räumliche Auflösung und macht die Erkennung robuster gegenüber kleinen Verschiebungen. Batch Normalization stabilisiert das Training. Residual Connections (Skip Connections, He et al., 2015) ermöglichten erstmals Netze mit über 100 Schichten (ResNet).
Die Hyperparameter eines Convolutional Layers — Filtergröße, Anzahl der Filter, Stride (Schrittweite), Padding (Auffüllung) — bestimmen maßgeblich die Architektur. Moderne Architekturen wie EfficientNet und ConvNeXt haben das Design systematisch optimiert und zeigen, dass CNNs auch nach der ViT-Revolution konkurrenzfähig bleiben.