Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Feld

Computer Vision

Computer Vision (maschinelles Sehen) ist das KI-Teilgebiet, das Computern beibringt, Bilder und Videos zu verstehen — Objekte erkennen, Szenen interpretieren, Bewegungen analysieren, 3D-Strukturen rekonstruieren.

Die Geschichte des Feldes reicht zurück bis 1966, als Marvin Minsky einem Studenten die „Sommer-Aufgabe" gab, die visuelle Wahrnehmung eines Computers zu programmieren. Die Aufgabe erwies sich als eines der schwierigsten Probleme der KI und beschäftigt die Forschung seit fast 60 Jahren.

Der Durchbruch kam 2012 mit AlexNet: Alex Krizhevsky trainierte ein tiefes CNN auf der ImageNet-Datenbank und halbierte die Fehlerrate gegenüber allen bisherigen Ansätzen. Dieses Ergebnis leitete die Deep-Learning-Revolution ein. In den folgenden Jahren überholte Computer Vision die menschliche Leistung bei der Bildklassifikation (ResNet, 2015) und erreichte beeindruckende Ergebnisse bei Objekterkennung (YOLO, Faster R-CNN) und semantischer Segmentierung.

Die Vision-Transformer-Revolution (ViT, Dosovitskiy et al., 2020) zeigte, dass die Transformer-Architektur — bisher nur im NLP erfolgreich — auch für Bilder funktioniert. CLIP, DALL-E, SAM (Segment Anything), und multimodale Modelle wie GPT-4V und Gemini treiben die Konvergenz von Sprachverständnis und Bildverständnis voran.

Anwendungen sind allgegenwärtig: autonomes Fahren, medizinische Bildanalyse, Gesichtserkennung, Qualitätskontrolle in der Fertigung, Augmented Reality, Satellitenbildanalyse. Die Fähigkeit, visuelle Informationen automatisch zu verarbeiten, transformiert praktisch jede Branche.

Vision Images