Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Architektur

Dense Layer

Ein Dense Layer (auch Fully Connected Layer oder Linear Layer) ist die einfachste Schicht in einem neuronalen Netz: Jedes Neuron der Schicht ist mit jedem Neuron der vorherigen Schicht verbunden.

Mathematisch berechnet ein Dense Layer: y = f(Wx + b), wobei W die Gewichtsmatrix ist, x der Eingabevektor, b der Bias und f eine Aktivierungsfunktion (ReLU, Sigmoid, Tanh). Es ist schlicht eine Matrixmultiplikation gefolgt von einer nichtlinearen Funktion.

In der Praxis dient der Dense Layer mehreren Zwecken. Als Klassifikations-Kopf: Am Ende eines CNN oder Transformer erzeugt ein Dense Layer die finale Vorhersage (z.B. 1000 Neuronen für 1000 ImageNet-Klassen). Als Hidden Layer: In einfachen Feedforward-Netzen bilden gestapelte Dense Layers das gesamte Netz. Als Projektionsschicht: Dense Layers transformieren Embeddings zwischen verschiedenen Dimensionalitäten.

Die Schwäche: Die Parameterzahl explodiert. Ein Dense Layer mit 1024 Eingängen und 1024 Ausgängen hat über eine Million Parameter (1024 × 1024 Gewichte + 1024 Bias). Bei Bildern wäre ein voll verbundener Layer für jedes Pixel katastrophal — deshalb nutzt man dort Convolutional Layers, die Parameter teilen und lokale Muster erfassen.

In modernen Transformer-Architekturen sind die Feed-Forward-Netzwerke (FFN) innerhalb jedes Transformer-Blocks Dense Layers — typischerweise zwei Dense Layers mit einer Aktivierungsfunktion dazwischen. Mixture-of-Experts (MoE) ersetzt den einzelnen FFN durch mehrere spezialisierte Dense Layers, von denen nur wenige pro Token aktiviert werden.

Basic