Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Architektur

Capsule Network

Capsule Networks, 2017 von Geoffrey Hinton, Sara Sabour und Nicholas Frosst vorgestellt, sind ein architektonischer Ansatz, der die grundlegende Schwäche von CNNs adressieren sollte: die fehlende räumliche Beziehungserfassung.

Ein CNN erkennt, ob bestimmte Merkmale in einem Bild vorhanden sind — aber nicht, in welcher räumlichen Beziehung sie zueinander stehen. Ein Gesicht aus zwei Augen, einer Nase und einem Mund wird erkannt, egal ob diese Teile in der richtigen Anordnung sind oder wild durcheinander gewürfelt. Das Ergebnis: CNNs können durch geschickt arrangierte Teile getäuscht werden (Adversarial Examples).

Capsule Networks lösen das durch „Kapseln" — Gruppen von Neuronen, die nicht nur die Präsenz eines Merkmals kodieren, sondern auch seine Pose (Position, Rotation, Skalierung). Durch ein „Dynamic Routing"-Verfahren lernen Kapseln, wie Teile zu Ganzen zusammengesetzt werden: Augen + Nase + Mund in der richtigen Anordnung = Gesicht.

Der theoretische Vorteil: bessere Robustheit gegenüber Viewpoint-Änderungen und geringerer Datenbedarf, weil das Modell die Kompositionsstruktur von Objekten versteht.

In der Praxis haben Capsule Networks sich bisher nicht durchgesetzt. Sie sind rechenintensiv, schwer zu skalieren und konnten auf großen Benchmarks (ImageNet) nicht mit modernen CNNs oder Vision Transformers mithalten. Hinton selbst betrachtet die aktuelle Implementierung als vorläufig — die Grundidee der Teil-Ganzes-Beziehung bleibt ein wichtiger Forschungsansatz.

Computer Vision Research