Feedforward Neural Network
Ein Feedforward Neural Network (auch Multi-Layer Perceptron, MLP) ist die einfachste Form eines neuronalen Netzes: Die Daten fließen in eine Richtung — von der Eingabe über versteckte Schichten zur Ausgabe, ohne Rückkopplungen oder Zyklen.
Die Architektur: Input Layer (Eingabeschicht: Rohdaten als Vektor) → Hidden Layers (versteckte Schichten: jedes Neuron berechnet eine gewichtete Summe, addiert einen Bias und wendet eine Aktivierungsfunktion an) → Output Layer (Ausgabeschicht: die Vorhersage).
Mathematisch: Jede Schicht berechnet y = f(Wx + b), wobei W die Gewichtsmatrix, x der Eingabevektor, b der Bias und f die Aktivierungsfunktion (ReLU, Sigmoid, Tanh) ist. Ein tiefes Feedforward-Netz stapelt viele solcher Schichten.
Historischer Meilenstein: Das Universal Approximation Theorem (Cybenko, 1989; Hornik, 1991) bewies, dass ein Feedforward-Netz mit einer einzigen ausreichend breiten versteckten Schicht jede stetige Funktion beliebig genau approximieren kann. Aber: Das Theorem sagt nichts darüber, wie viele Neuronen nötig sind oder wie man die Gewichte findet — das bleibt ein Optimierungsproblem.
In modernen Transformer-Architekturen ist das Feedforward-Netz eine Kernkomponente: In jedem Transformer-Block folgt nach der Self-Attention-Schicht ein Feedforward-Block (zwei Dense Layers mit einer Aktivierungsfunktion). Mixture-of-Experts ersetzt diesen einzelnen FFN-Block durch mehrere spezialisierte FFN-Experten.
Die Einschränkung: Feedforward-Netze haben kein „Gedächtnis" — sie verarbeiten jeden Eingabevektor unabhängig. Für sequentielle Daten (Text, Audio) wurden RNNs und später Transformer entwickelt.