Modelle & Technologie

AutoGaze: 100-mal weniger Tokens für Videoanalyse — bei besserer Qualität

Das Modul von UC Berkeley und NVIDIA entfernt redundante Video-Patches, bevor sie den Vision Transformer erreichen. Ergebnis: 19-facher Speedup und erstmals 4K-Videos mit 1.000 Frames in MLLMs.

Kai · 25. Mar 2026 · 2 Min. Lesezeit

Menschen sehen in Echtzeit in hoher Auflösung und hoher Bildrate - und ignorieren dabei instinktiv irrelevante Bildbereiche. KI-Videomodelle verarbeiten dagegen jeden Pixel in jedem Frame gleich. AutoGaze von UC Berkeley und NVIDIA ändert das: Ein leichtgewichtiges Modul, das redundante Video-Patches entfernt, bevor sie überhaupt den Vision Transformer erreichen.

Bis zu 100× weniger Tokens, 19× schneller

AutoGaze analysiert jeden Frame und wählt autogressiv eine minimale Menge an Multi-Scale-Patches aus, die - zusammen mit Patches vorheriger Frames - den aktuellen Frame rekonstruieren können. Das Ergebnis: 4× bis 100× weniger visuelle Tokens bei weniger als 0,5 % Performance-Verlust. Vision Transformers werden bis zu 19× schneller, MLLMs bis zu 10×.

Der entscheidende Unterschied zu bisherigen Ansätzen: AutoGaze arbeitet vor dem Vision Transformer, nicht erst im Sprachmodell. Bisherige Token-Pruning-Methoden reduzierten Tokens erst in der LLM-Schicht - der ViT blieb der Flaschenhals. AutoGaze eliminiert die Redundanz bevor der teure ViT-Forward-Pass stattfindet.

4K-Video mit 1.000 Frames

Durch die drastische Token-Reduktion können MLLMs erstmals auf 4K-Auflösung mit 1.000 Frames skaliert werden. Auf HLVid, dem neuen High-Resolution Long-Form Video Benchmark der Autoren, übertrifft ein mit AutoGaze skaliertes MLLM das Baseline-Modell um 10,1 %. Modell, Code und Benchmark sind offen verfügbar.

🎯 Was das für die Praxis bedeutet

1. Videoanalyse wird praktikabel: 19× Speedup macht Echtzeit-Videoanalyse auf Standard-Hardware möglich - relevant für Überwachung, Qualitätskontrolle und autonome Systeme.

2. Plug-and-Play-Architektur: AutoGaze ist ein vorgeschaltetes Modul, das mit bestehenden ViTs und MLLMs kombiniert werden kann - kein Neutraining des Hauptmodells nötig.

3. Hochauflösende Videos endlich nutzbar: Bisher mussten KI-Modelle Videos auf niedrige Auflösung und wenige Frames reduzieren. AutoGaze hebt diese Einschränkung auf.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

Baifeng Shi auf X ↗ AutoGaze Paper ↗ AutoGaze Website ↗

AutoGaze: 100-mal weniger Tokens für Videoanalyse — bei besserer Qualität

Bis zu 100× weniger Tokens, 19× schneller

4K-Video mit 1.000 Frames

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Gemini Spark Beta: Googles persönlicher KI-Agent zwischen Komfort und Datenschutz

MDASH: Microsofts 100-Agenten-System findet 16 Windows-Schwachstellen

Helix 02: Figures humanoide Roboter arbeiten jetzt autonome 8-Stunden-Schichten

Fehler melden

Die KI Woche als App