Google hat auf der I/O 2026 mit Gemini Omni sein bisher ambitioniertestes Multimodal-Modell vorgestellt. Texte, Bilder, Audio, Video - alles aus einem Modell. Klingt beeindruckend. Doch wer sich die generierten Videos genauer ansieht, stellt fest: Bei der physikalischen Glaubwürdigkeit hat Google ein ernstes Problem.

In den Tagen nach dem Launch häufen sich auf X Vergleichsvideos, die Googles Videogenerator neben Seedance 2.0 von ByteDance zeigen. Das Ergebnis ist dabei wiederholt dasselbe: Googles Ausgaben sehen zwar visuell hochwertig aus, aber Bewegungen wirken oft steif und unrealistisch. Objekte verhalten sich nicht so, wie man es aus der echten Welt kennt.

Wo genau Googles Physik versagt

Die Schwächen fallen besonders bei komplexen Szenen auf: Haare bewegen sich zu gleichmäßig, Wasser spritzt in vorhersehbaren Mustern, Stoff fällt wie Pappe. Ein Nutzer demonstriert, wie ein Ball in einer Omni-generierten Szene die Oberfläche durchdringt, statt darauf zu prallen. Ein anderer zeigt einen gehenden Menschen, dessen Gewichtsverlagerung schlicht nicht stimmt - der Körper gleitet, statt zu gehen.

Das grundlegende Problem: Googles Modell hat keine echte Vorstellung von Schwerkraft, Trägheit oder Reibung. Es generiert Bewegung auf Basis statistischer Muster aus Trainingsdaten - und das reicht für einfache Szenen. Sobald mehrere physikalische Kräfte gleichzeitig wirken, bricht die Illusion zusammen.

Seedance 2.0: Was ByteDance anders macht

ByteDances Seedance 2.0 wird in der Community regelmäßig als Referenz für physikalischen Realismus genannt. Das Modell versteht offenbar dreidimensionalen Raum besser: Hintergrundparallaxe stimmt, Schatten fallen in natürlicher Länge, und vor allem bewegen sich Figuren glaubwürdig. Eiskunstlauf, wehender Stoff, Trümmer nach einer Kollision - Seedance liefert hier Ergebnisse, die deutlich näher an der Realität liegen.

Der Unterschied liegt vermutlich in der Architektur. Seedance setzt auf räumliche Konsistenz als Kernprinzip. Das Modell wurde so trainiert, dass es die physikalischen Eigenschaften von Objekten - Gewicht, Materialverhalten, Kollisionsdynamik - über die gesamte Szene hinweg aufrechterhält. Google hingegen hat bei Omni den Fokus auf Vielseitigkeit gelegt: ein Modell für alles, von Text über Bild bis Video. Der Preis dafür scheint ein Kompromiss bei der Bewegungsqualität zu sein.

Ein Branchenproblem mit Ansage

Fairerweise: Kein aktueller Videogenerator beherrscht Physik perfekt. Die gesamte Branche kämpft mit der sogenannten "Sim-to-Real-Lücke" - dem Unterschied zwischen dem Nachahmen visueller Muster und dem tatsächlichen Verstehen physikalischer Gesetze. Aktuelle Forschung an Universitäten experimentiert bereits mit physikalischen Simulatoren, die direkt in den Generierungsprozess integriert werden sollen. Bis solche Ansätze in Produktionsmodellen ankommen, bleibt die Physik-Simulation eine der härtesten Nüsse der KI-Videogenerierung.

🎯 Was das für die Praxis bedeutet

1. Seedance 2.0 für Bewegungsszenen: Wer realistische Bewegungen, Kollisionen oder Stoffdynamik braucht, fährt aktuell mit ByteDances Modell besser als mit Googles Omni.

2. Omni für multimodale Projekte: Googles Stärke liegt in der Vielseitigkeit. Für Projekte, bei denen Text, Bild und Video aus einem Guss kommen sollen, bleibt Omni eine starke Wahl - solange keine komplexe Physik gefragt ist.

3. Ergebnisse immer prüfen: Kein Videogenerator liefert aktuell zuverlässige Physik. Vor der Verwendung in professionellen Kontexten sollte jede Szene auf unrealistische Bewegungen geprüft werden.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
@JSFILMZ0412 auf X ↗ @Ratul_AI auf X ↗ @heygentlewhale auf X ↗ @HitPawofficial auf X ↗
Teilen: