Vor einigen Monaten schockierte Google DeepMind die Fachwelt mit Project Genie, einem Weltmodell, das aus simplen Eingaben interaktive 2D- und 3D-Umgebungen erzeugt. Jetzt folgt der nächste Schritt: die Verschmelzung der generativen KI mit der realen Welt. Auf der Entwicklerkonferenz Google I/O stellte das Unternehmen eine Erweiterung namens "Maps Imagery Grounding" vor, die Googles Fundus an Street-View-Panoramen in begehbare, interaktive Spielwelten verwandelt (mehr Details finden sich auf der offiziellen Produktseite von Google DeepMind).
Wie Miriam Daniel, General Manager von Google Maps, auf X erklärte, dient die Street-View-Datenbank mit ihren über 280 Milliarden Bildern aus mehr als 110 Ländern dabei als geometrisches und visuelles Gerüst. Nutzer können in der Benutzeroberfläche einfach eine Stecknadel auf Google Maps setzen, ein Thema wie "Steinzeit", "Wüstenlandschaft" oder "Tiefsee" wählen und eine Spielfigur beschreiben. Genie 3 generiert daraufhin eine dreidimensionale Version dieses Ortes, in die man direkt eintauchen kann.
Hinter den Kulissen arbeitet ein leistungsfähiges Weltmodell. Genie 3 berechnet die Spielwelten mit 24 Bildern pro Sekunde bei einer Auflösung von 720p. Die Interaktion ist auf 60-Sekunden-Sessions begrenzt, doch der entscheidende Unterschied zu herkömmlichen Videogeneratoren liegt in der räumlichen Konsistenz. Wenn sich der Spieler umdreht und wieder zurückgeht, bleibt die Welt unverändert bestehen - die KI erinnert sich an die Geometrie des Raumes. Dies markiert einen gewaltigen Schritt hin zu persistenten, von KI generierten Räumen, wie sie auch Start-ups wie Moonlake AI für zukünftige Spieleplattformen anstreben.
Die Gaming- und Unterhaltungsbranche ist fasziniert von den Möglichkeiten, doch der eigentliche Treiber hinter der Entwicklung ist ein anderer. Google positioniert Genie 3 als Werkzeug für das Training autonomer Agenten und Roboter. Waymo nutzt eine modifizierte Version, das sogenannte Waymo World Model, um extrem seltene oder gefährliche Verkehrsszenarien zu simulieren. Statt selbstfahrende Autos realen Risiken auszusetzen, können die Fahrzeuge in lebensechten, von Street-View-Daten gespeisten Simulationen trainieren. Auch Amir, Entwickler im Android-XR-Team bei Google, verwies auf das Potenzial für zukünftige Spatial-Computing-Anwendungen, bei denen echte Räume flexibel erweitert und bespielt werden können.
Trotz der Fortschritte bleibt das System experimentell. Die Physik-Interaktion ist noch weit von einer exakten Simulation entfernt, weshalb die Welten eher dem Stil eines Videospiels ähneln. Zudem ist die Maps-Grounding-Funktion vorerst auf Standorte in den USA begrenzt und steht ausschließlich Abonnenten von Google AI Ultra zur Verfügung.
🎯 Was das für die Praxis bedeutet
1. Neue Trainingsumgebungen für KI: Entwickler von autonomen Systemen und Robotik erhalten Zugriff auf unendliche, geographisch korrekte Simulationen zur Absicherung ihrer Agenten.
2. Interaktives Prototyping im Tourismus: Stadtplaner und Tourismusverbände können reale Orte spielerisch und in verschiedenen historischen oder fantastischen Epochen erlebbar machen.
3. Vierte Dimension für Spatial Computing: Für XR-Entwickler deutet sich ein Werkzeug an, das physische Räume flexibel in fantasievolle, aber geometrisch exakte Spielwelten übersetzt.