Menschen sehen in Echtzeit in hoher Auflösung und hoher Bildrate — und ignorieren dabei instinktiv irrelevante Bildbereiche. KI-Videomodelle verarbeiten dagegen jeden Pixel in jedem Frame gleich. AutoGaze von UC Berkeley und NVIDIA ändert das: Ein leichtgewichtiges Modul, das redundante Video-Patches entfernt, bevor sie überhaupt den Vision Transformer erreichen.
Bis zu 100× weniger Tokens, 19× schneller
AutoGaze analysiert jeden Frame und wählt autogressiv eine minimale Menge an Multi-Scale-Patches aus, die — zusammen mit Patches vorheriger Frames — den aktuellen Frame rekonstruieren können. Das Ergebnis: 4× bis 100× weniger visuelle Tokens bei weniger als 0,5 % Performance-Verlust. Vision Transformers werden bis zu 19× schneller, MLLMs bis zu 10×.
Der entscheidende Unterschied zu bisherigen Ansätzen: AutoGaze arbeitet vor dem Vision Transformer, nicht erst im Sprachmodell. Bisherige Token-Pruning-Methoden reduzierten Tokens erst in der LLM-Schicht — der ViT blieb der Flaschenhals. AutoGaze eliminiert die Redundanz bevor der teure ViT-Forward-Pass stattfindet.
4K-Video mit 1.000 Frames
Durch die drastische Token-Reduktion können MLLMs erstmals auf 4K-Auflösung mit 1.000 Frames skaliert werden. Auf HLVid, dem neuen High-Resolution Long-Form Video Benchmark der Autoren, übertrifft ein mit AutoGaze skaliertes MLLM das Baseline-Modell um 10,1 %. Modell, Code und Benchmark sind offen verfügbar.
🎯 Was das für die Praxis bedeutet
1. Videoanalyse wird praktikabel: 19× Speedup macht Echtzeit-Videoanalyse auf Standard-Hardware möglich — relevant für Überwachung, Qualitätskontrolle und autonome Systeme.
2. Plug-and-Play-Architektur: AutoGaze ist ein vorgeschaltetes Modul, das mit bestehenden ViTs und MLLMs kombiniert werden kann — kein Neutraining des Hauptmodells nötig.
3. Hochauflösende Videos endlich nutzbar: Bisher mussten KI-Modelle Videos auf niedrige Auflösung und wenige Frames reduzieren. AutoGaze hebt diese Einschränkung auf.