Modelle & Technologie

Gemini Omni: Google testet neues Video-Modell mit lesbarem Text

UI-Leaks zeigen Remix-Funktionen, Objekt-Ersetzung und ein Template-System. Das Modell läuft intern auf dem Veo-Stack - und könnte zur I/O 2026 offiziell starten.

Kai · 11. May 2026 · 4 Min. Lesezeit

In der Gemini-App taucht seit wenigen Tagen ein neues Video-Modell auf, das Google offenbar unter dem Namen "Gemini Omni" testet. Erste Screenshots zeigen ein In-App-Popup mit der Einladung, Videos direkt im Chat zu bearbeiten, zu remixen und aus fertigen Templates zu generieren. Eine offizielle Ankündigung gibt es bisher nicht - doch die Hinweise verdichten sich, dass Google zur I/O 2026 am 19. und 20. Mai den nächsten großen Sprung in der Videogenerierung präsentieren wird.

Lesbarer Text in KI-Videos: Der Durchbruch

Das wohl beeindruckendste Beispiel ist ein sechs Sekunden langes Video, in dem ein Professor eine trigonometrische Beweisung auf einer Kreidetafel notiert. Die Formel Sin²(x) + Cos²(x) = 1 ist durchgehend lesbar, die Kreide bewegt sich flüssig, und die Handbewegungen passen exakt zum geschriebenen Text. Bisherige KI-Videomodelle scheitern regelmäßig an der konsistenten Darstellung von Schrift - hier funktioniert sie fehlerfrei.

Unter der Haube: Veo-Technologie als Fundament

Ein Blick in die Metadaten der generierten Videos verrät mehr, als Google vermutlich preisgeben wollte. In den JSON-Daten findet sich der Eintrag "VideoMode": "VEO_MODE" - ein klares Signal, dass Gemini Omni auf dem bestehenden Veo-Stack aufbaut. Ob es sich um eine weiterentwickelte Version von Veo 3.1 handelt oder um ein komplett neues Modell, bleibt offen. In der Community kursieren Begriffe wie "Veo 4" und eine mögliche "Pro"-Variante.

Mehr als nur generieren: Bearbeiten, Remixen, Ersetzen

Die geleakten Funktionen gehen deutlich über reine Videogenerierung hinaus. Nutzer berichten von fortgeschrittenen Bearbeitungswerkzeugen direkt in der Gemini-Oberfläche: Wasserzeichen sollen sich entfernen lassen, einzelne Objekte in einem bestehenden Video können durch andere ersetzt werden, und ein Template-System erlaubt den schnellen Einstieg über vorgefertigte Szenarien. Der bisherige Ansatz "Prompt rein, Video raus" weicht damit einem iterativen Workflow, bei dem sich das Ergebnis Schritt für Schritt verfeinern lässt.

Spürbar bessere Audio- und Prompttreue

Neben der visuellen Qualität fällt Testern vor allem die verbesserte Audiogenerierung auf. Stimmen klingen natürlicher, Umgebungsgeräusche passen besser zur Szene, und die Lippensynchronisation soll einen deutlichen Sprung gemacht haben. Bereits Veo 3 brachte 2025 native Audiogenerierung in KI-Videos - Omni scheint diesen Vorsprung auszubauen. Auch die Prompttreue wird als merklich besser beschrieben: Was man beschreibt, landet tatsächlich im Video.

Timing: Alles deutet auf Google I/O

Die Leaks kommen nicht zufällig eine Woche vor Googles Entwicklerkonferenz. UI-Strings im Gemini-Code zeigen den Hinweis "Powered by Omni" neben dem internen Codenamen "Toucan", der für den aktuellen Veo-3.1-Workflow steht. Das legt nahe, dass "Omni" den bisherigen Videogenerator ablösen oder zumindest deutlich erweitern soll. Auf Reddit berichten Nutzer bereits von In-App-Popups, die zum Ausprobieren des neuen Modells einladen - ein typisches Muster bei stufenweisen Google-Rollouts.

Die zentrale Frage bleibt: Handelt es sich bei Omni um ein einzelnes Modell, das Video, Bild und Audio in einem Durchgang erzeugt - ähnlich dem "Omni"-Konzept, das OpenAI mit GPT-4o populär machte? Oder ist es eher ein neues Branding für eine aufgebohrte Veo-Version mit zusätzlichen Editing-Features? Die Antwort dürfte am 19. Mai kommen.

🎯 Was das für die Praxis bedeutet

1. Content-Produktion beschleunigen: Wer bisher externe Video-Tools für Text-Overlays oder erklärende Clips nutzt, sollte Gemini Omni sofort nach dem offiziellen Launch testen. Lesbarer Text in generierten Videos eliminiert einen der größten Schmerzpunkte.

2. Editing-Workflow beobachten: Die Kombination aus Generierung und nachträglicher Bearbeitung in einem Tool könnte separate Software wie Runway oder Pika für einfache Anpassungen überflüssig machen.

3. Google I/O einplanen: Am 19. und 20. Mai werden vermutlich Preise, API-Zugang und genaue Funktionsumfänge bekannt. Wer Video-Produktion mit KI plant, sollte mit konkreten Entscheidungen bis dahin warten.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

@chetaslua auf X ↗ @synthwavedd auf X ↗ @testingcatalog auf X ↗ @testingcatalog auf X ↗ Reddit r/GeminiAI ↗

Gemini Omni: Google testet neues Video-Modell mit lesbarem Text

Lesbarer Text in KI-Videos: Der Durchbruch

Unter der Haube: Veo-Technologie als Fundament

Mehr als nur generieren: Bearbeiten, Remixen, Ersetzen

Spürbar bessere Audio- und Prompttreue

Timing: Alles deutet auf Google I/O

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

NotebookLM macht Kino: Google verwandelt Dokumente in cinematic KI-Videos

Veo in Google Ads: Aus Bildern werden automatisch Werbevideos

Gemini vor der I/O: Overlay, File-Export und Skills machen die App zur Systemschicht

Fehler melden

Die KI Woche als App