Design & Multimedia

Gemini Omni: Googles Alleskönner versteht und erzeugt Video, Bild und Audio

Das neue Multimodal-Modell kombiniert Geminis Weltwissen mit generativen Medienfähigkeiten - und macht Videoproduktion per Textprompt möglich.

Mira · 19. Mai 2026 · 4 Min. Lesezeit

Neben Gemini 3.5 Flash hat Google auf der I/O 2026 ein zweites Modell vorgestellt, das mindestens genauso viel Aufmerksamkeit verdient: Gemini Omni. Wo bisherige KI-Modelle entweder Text verstehen oder Bilder erzeugen konnten, macht Omni beides gleichzeitig - und erweitert das Spektrum auf Video, Audio und beliebige Kombinationen davon.

Was Gemini Omni kann

DeepMind-CEO Demis Hassabis beschreibt Omni als den Moment, in dem Geminis Fähigkeit zu denken auf die Fähigkeit zu erschaffen trifft. Das Modell nimmt laut Google beliebige Eingaben entgegen - Text, Bilder, Videos, Audiodateien oder jede Kombination daraus - und erzeugt daraus hochwertige Videos, die auf Geminis Weltwissen basieren. Und: Man kann die generierten Videos anschließend per Konversation bearbeiten, Szene für Szene.

Konkret heißt das: Jede Anweisung baut auf der vorherigen auf. Charaktere bleiben konsistent, die Physik bleibt plausibel, und die Szene erinnert sich an das, was vorher passiert ist. Man kann die Umgebung verändern, den Kamerawinkel wechseln, den Stil anpassen oder spezifische Details korrigieren - ohne den roten Faden zu verlieren.

Physik, Weltwissen und kreatives Storytelling

Omni geht über reine Bildgenerierung hinaus. Das Modell hat ein verbessertes intuitives Verständnis physikalischer Kräfte wie Schwerkraft, kinetische Energie und Fluiddynamik. In einer Demo zeigt Google eine Murmel, die über eine Kettenreaktion-Bahn rollt - mit durchgängig glaubhafter Physik.

Noch beeindruckender: Omni verbindet Geminis enzyklopädisches Weltwissen mit der Videogenerierung. In einem Beispiel erzeugt das Modell aus dem Prompt "Claymation-Erklärvideo über Proteinfaltung" ein inhaltlich korrektes Stop-Motion-Erklärvideo - ganz ohne externes Material. Ein anderer Prompt fordert alle 26 Buchstaben des Alphabets als ungewöhnliche Gegenstände auf einem Tisch, synchronisiert mit ruhiger Musik. Omni liefert.

Multimodale Eingabe als neuer Standard

Das vielleicht disruptivste Feature: Omni akzeptiert beliebige Referenzen als Eingabe. Ein Foto, ein Videoclip, ein Text und eine Audiodatei lassen sich zu einem einzigen, kohärenten Output verbinden. Ein Nutzer könnte etwa ein eigenes Foto hochladen, einen Videoclip als Stilreferenz hinzufügen und eine Audiodatei als Soundtrack einbinden - Omni kombiniert alles zu einem fertigen Video.

In der Gemini-App wird das besonders zugänglich: Man kann Fotos oder Videos aus der Kamerarolle hochladen, vorgefertigte Templates mit einem Klick anwenden und professionelle Ergebnisse erzielen, ohne teure Ausrüstung oder technisches Vorwissen. In Google Flow, dem neuen KI-Kreativstudio, erlaubt Omni zusätzlich iterative Bearbeitung per Konversation und verbesserte Charakterkonsistenz über mehrere Szenen hinweg.

Verfügbarkeit und Einordnung

Gemini Omni Flash - das erste Modell der Omni-Familie - ist ab sofort in der Gemini-App, Google Flow und YouTube Shorts verfügbar. Zugang haben alle KI-Abo-Stufen weltweit (AI Plus, Pro und Ultra). Weitere Output-Modalitäten wie Bild- und Audiogenerierung sollen folgen.

Der Markt für KI-Videogenerierung ist in den letzten Monaten stark in Bewegung geraten. OpenAIs Sora, einst als Durchbruch gefeiert, wurde von chinesischen Modellen wie Kling, Hailuo und Wan massiv unter Druck gesetzt und wird mittlerweile eingestellt. In dieses Vakuum stößt Google mit Omni - und bringt dabei einen entscheidenden Vorteil mit: Das Modell generiert nicht nur, sondern versteht. Es kann existierende Videos analysieren, inhaltlich korrekte Fortsetzungen erzeugen und den physikalischen Kontext wahren. Dazu kommt Geminis Weltwissen als Fundament, das reine Diffusionsmodelle nicht bieten können.

🎯 Was das für die Praxis bedeutet

1. Videoproduktion ohne Equipment: Kleine Teams und Einzelunternehmer können jetzt per Textprompt professionelle Videos erzeugen und iterativ bearbeiten - ohne Kamera, Schnittprogramm oder Produktionsteam.

2. Content-Erstellung beschleunigt sich dramatisch: Erklävideos, Produktvorstellungen und Social-Media-Content lassen sich in Minuten statt Tagen produzieren. YouTube Shorts direkt aus Gemini heraus erzeugen wird zum neuen Standard.

3. Kreativbranche unter Druck: Für Videografen, Animatoren und Postproduktionshäuser verschärft sich der Disruptionsdruck, der mit Bildgeneratoren wie Nano Banana begonnen hat, nochmals deutlich.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

Google Keyword Blog ↗ Google AI Subscriptions ↗ Demo von Demis Hassabis auf X ↗ Demo von Josh Woodward auf X ↗ Google AI-Ankündigung auf X ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Markus M. Kirchmair

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Gemini Omni: Googles Alleskönner versteht und erzeugt Video, Bild und Audio

Was Gemini Omni kann

Physik, Weltwissen und kreatives Storytelling

Multimodale Eingabe als neuer Standard

Verfügbarkeit und Einordnung

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Gemini Omni: Googles Alleskönner versteht und erzeugt Video, Bild und Audio

Was Gemini Omni kann

Physik, Weltwissen und kreatives Storytelling

Multimodale Eingabe als neuer Standard

Verfügbarkeit und Einordnung

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Google führt das KI-Rennen wieder an

Google I/O Vorschau: Gemini Spark soll mit eigenem KI-Agenten Codex und Cowork angreifen

Googles Videogenerator schwächelt bei Physik: Seedance 2.0 bleibt überlegen

Fehler melden

Die KI Woche als App