Menschen sehen in Echtzeit in hoher Auflösung und hoher Bildrate — und ignorieren dabei instinktiv irrelevante Bildbereiche. KI-Videomodelle verarbeiten dagegen jeden Pixel in jedem Frame gleich. AutoGaze von UC Berkeley und NVIDIA ändert das: Ein leichtgewichtiges Modul, das redundante Video-Patches entfernt, bevor sie überhaupt den Vision Transformer erreichen.

Bis zu 100× weniger Tokens, 19× schneller

AutoGaze analysiert jeden Frame und wählt autogressiv eine minimale Menge an Multi-Scale-Patches aus, die — zusammen mit Patches vorheriger Frames — den aktuellen Frame rekonstruieren können. Das Ergebnis: 4× bis 100× weniger visuelle Tokens bei weniger als 0,5 % Performance-Verlust. Vision Transformers werden bis zu 19× schneller, MLLMs bis zu 10×.

Der entscheidende Unterschied zu bisherigen Ansätzen: AutoGaze arbeitet vor dem Vision Transformer, nicht erst im Sprachmodell. Bisherige Token-Pruning-Methoden reduzierten Tokens erst in der LLM-Schicht — der ViT blieb der Flaschenhals. AutoGaze eliminiert die Redundanz bevor der teure ViT-Forward-Pass stattfindet.

4K-Video mit 1.000 Frames

Durch die drastische Token-Reduktion können MLLMs erstmals auf 4K-Auflösung mit 1.000 Frames skaliert werden. Auf HLVid, dem neuen High-Resolution Long-Form Video Benchmark der Autoren, übertrifft ein mit AutoGaze skaliertes MLLM das Baseline-Modell um 10,1 %. Modell, Code und Benchmark sind offen verfügbar.

🎯 Was das für die Praxis bedeutet

1. Videoanalyse wird praktikabel: 19× Speedup macht Echtzeit-Videoanalyse auf Standard-Hardware möglich — relevant für Überwachung, Qualitätskontrolle und autonome Systeme.

2. Plug-and-Play-Architektur: AutoGaze ist ein vorgeschaltetes Modul, das mit bestehenden ViTs und MLLMs kombiniert werden kann — kein Neutraining des Hauptmodells nötig.

3. Hochauflösende Videos endlich nutzbar: Bisher mussten KI-Modelle Videos auf niedrige Auflösung und wenige Frames reduzieren. AutoGaze hebt diese Einschränkung auf.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
Baifeng Shi auf X ↗ AutoGaze Paper ↗ AutoGaze Website ↗
Teilen: