Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
🧠 Modelle & Architekturen Standard

Vision Transformer (ViT)

Der Vision Transformer wendet die reine Transformer-Architektur (ursprünglich für Text) auf Bilder an. Man zerlegt das Bild in kleine Quadrate ('Patches'), behandelt sie wie Wörter in einem Satz und füttert sie in einen Transformer. ViTs haben CNNs in vielen Bereichen als State-of-the-Art abgelöst.
Vision
🔗 Link kopiert!