Microsofts hauseigene KI-Bildschmiede drückt aufs Tempo. Mit MAI-Image-2 rückt das Unternehmen auf Platz 3 des Arena.ai-Leaderboards für Text-zu-Bild-Generierung vor — hinter nur noch zwei Laboren weltweit. Das Modell kommt aus der Superintelligence-Abteilung von Mustafa Suleyman und ist ab sofort im MAI Playground testbar.
Fotorealismus, Text-Rendering und Detailtiefe
Laut dem offiziellen Microsoft-AI-Blog wurde MAI-Image-2 in Zusammenarbeit mit Fotografen, Designern und visuellen Geschichtenerzählern entwickelt. Die drei Kerneigenschaften, die Microsoft hervorhebt:
- Fotorealismus: Natürliches Licht, akkurate Hauttöne und Umgebungen, die bewohnt und authentisch wirken sollen — weniger Nachbearbeitung nötig.
- Text-Rendering: Konsistente Erzeugung von Infografiken, Slides und Diagrammen mit lesbarem Text im Bild — ein notorisches Schwachpunkt bisheriger Modelle.
- Detailreiche Szenen: Das Modell soll surreale Konzepte, aufwendige Kompositionen und anspruchsvolle Welten zuverlässig umsetzen.
Rollout auf Copilot und Bing
Die Verfügbarkeit ist gestaffelt: Über den MAI Playground lässt sich das Modell sofort testen. Auf Copilot und Bing Image Creator hat der Rollout laut Microsoft begonnen. Ein API-Zugang steht ausgewählten Unternehmenskunden zur Verfügung und soll über Microsoft Foundry bald für alle Entwickler geöffnet werden.
Bemerkenswert ist der explizite Verweis auf die Superintelligence-Abteilung: Im Blogpost heißt es, vom Microsoft-AI-Superintelligence-Team sei noch deutlich mehr zu erwarten. Zusammen mit dem operativen GB200-Cluster von NVIDIA signalisiert Microsoft, dass die Modellentwicklung unter Suleyman deutlich ambitionierter wird als bisher sichtbar.
🎯 Was das für die Praxis bedeutet
1. Text im Bild funktioniert endlich: Wer regelmäßig KI-Bilder für Marketing, Social Media oder Präsentationen generiert, kennt das Problem unleserlicher Schrift. MAI-Image-2 verspricht hier einen echten Qualitätssprung — ein konkreter Test über den MAI Playground lohnt sich.
2. Die Modell-Eigenentwicklung zahlt sich aus: Dass Microsoft neben der OpenAI-Partnerschaft eigene Frontier-Modelle baut, bestätigt den Trend zur Modellvielfalt. Für Unternehmen bedeutet das perspektivisch mehr Auswahl und niedrigere Kosten.
3. Bildgenerierung als API-Commodity: Mit dem angekündigten offenen API-Zugang über Microsoft Foundry dürfte sich der Wettbewerbsdruck auf spezialisierte Bildgenerierungsdienste wie Midjourney oder Leonardo weiter verschärfen.