Neue, unangekündigte KI-Bildmodelle versetzen die Tech-Community derzeit in helle Aufregung. Auf der bekannten Testplattform Arena sind über Nacht drei neue Codenamen aufgetaucht, die Nutzer für "Blindtests" auswählen können: gaffertape-alpha, maskingtape-alpha und packingtape-alpha. Die bisherigen Ergebnisse sind so beeindruckend, dass sich Szene-Insider sicher sind: Hier testet OpenAI inkognito die nächste Generation seiner Bildgenerierungs-Architektur – also möglicherweise GPT-Image-2.
Ein Sprung in der Textdarstellung
Eine der größten Schwächen bisheriger Bild-Modelle, von Midjourney bis DALL-E 3, ist die korrekte und konsistente Darstellung von Text. Die neuen "Tape"-Modelle scheinen diesen Flaschenhals überwinden zu haben. Wie der Entwickler Blake Robbins in beeindruckenden Beispielen auf X demonstrierte, ist insbesondere "gaffertape-alpha" in der Lage, komplett ausgefüllte ärztliche Formulare holografisch exakt nachzubauen – inklusive authentischer, leserlicher Handschrift und fehlerfreiem Layout. Solche Fähigkeiten öffnen die Tür weit auf für Workflows, in denen KI Layouts für Print, Webdesigen oder Typografie erstellt.
"World Knowledge": Wenn die KI Minecraft in Manhattan spielt
Die zweite große Überraschung: Die neuen Modelle zeigen ein tiefes, inhärentes Verständnis davon, wie die "Welt" aussieht und wie Software-Schnittstellen funktionieren. X-Nutzer dokumentierten, wie die Modelle detaillierte Twitch-Dashboards, funktionierende VS-Code-Iterationen oder topografische Landkarten generieren, ohne dabei an Schärfe zu verlieren (siehe X-Post).
Power-User berichten sogar von Prompts wie "Minecraft in aus der Ich-Perspektive in Manhattan", die von maskingtape-alpha sofort realistisch und plastisch adaptiert werden. Wie Nutzer @flowersslop anmerkt, lässt das neue Modell bisherige Marktführer in Sachen Detailreichtum regelrecht "wie DALL-E von gestern" aussehen.Noch kein physikalisches Wunder
Ganz fehlerfrei sind aber auch Maskingtape & Co. noch nicht. An der klassischen Physik-Logik beißen sich KI-Bildgeneratoren traditionell die Zähne aus. Ein Test mit einem Zauberwürfel vor einem Spiegel zeigte, dass das Modell zwar makellose Texturen erschuf, das Spiegelbild allerdings eine Rückseite reflektierte, die so gar nicht möglich wäre. Die räumlich-physikalische Logik bleibt also die Achillesferse.
Ob OpenAI die Modelle noch im Frühjahr der breiten Öffentlichkeit präsentiert und welcher der drei Tape-Kandidaten sich im Arena-Ranking durchsetzt, bleibt nun abzuwarten.
🎯 Was das für die Praxis bedeutet
1. Text-Integration in Designs: Grafik- und Marketing-Teams werden Modelle nutzen können, um ganze Flyer, Social-Media-Assets oder komplexe UI-Designs samt Fehlerfreiem Text zu generieren. Generative KI rückt näher an Tools wie Figma.
2. Neue Benchmark für Start-ups: Midjourney und etablierte Vektor-Generatoren müssen ihr Text-Verständnis massiv ausbauen, um konkurrenzfähig zu bleiben, wenn OpenAI diesen Standard veröffentlicht.
3. Halluzinationen bleiben: Für detailgenaue technische oder geometrische Visualisierungen (wie Produkt-Renders) muss eine menschliche End-Kontrolle zwingend erhalten bleiben, da Schatten und Spiegelungen noch Physikfehler aufweisen.