Das Bildgenerierungsunternehmen Ideogram hat heute die Gewichte seines neuesten Modells Ideogram 4.0 öffentlich zugänglich gemacht. Der Schritt ist bemerkenswert, weil Ideogram damit als eines der wenigen kommerziellen KI-Bildunternehmen den Kern seiner Technologie freigibt - allerdings mit einer wichtigen Einschränkung: Die Gewichte stehen unter einer nicht-kommerziellen Lizenz, der Code dagegen unter Apache 2.0.
Das Repository auf GitHub trägt die Beschreibung "Open image model at the forefront of design". Das trifft den Kern: Ideogram 4.0 wurde nicht als Allzweckmodell entwickelt, sondern explizit für professionelle Designarbeit.
9,3 Milliarden Parameter - und ein ungewöhnlicher Text-Encoder
Technisch setzt Ideogram 4.0 auf einen Single-Stream Diffusion Transformer mit 34 Schichten und 9,3 Milliarden Parametern, der von Grund auf neu trainiert wurde. Was das Modell von anderen Bildgeneratoren unterscheidet: Als Text-Encoder kommt Qwen3-VL-8B-Instruct zum Einsatz - ein multimodales Sprachmodell, das hier ausschließlich im Text-Modus arbeitet. Statt nur die Ausgabeschicht zu nutzen, zapft Ideogram 4.0 die versteckten Zustände aus 13 Zwischenschichten des Encoders an und verknüpft sie zu einem reichhaltigeren Steuerungssignal.
Das Ergebnis: Das Modell versteht Prompts präziser als viele Vorgänger - vor allem bei Textlayout, Typografie und komplexen Designkompositionen, die mehrere voneinander abhängige Elemente enthalten.
Strukturiertes JSON-Prompting: Wo andere mit Freitext arbeiten
Das auffälligste Merkmal von Ideogram 4.0 ist seine Trainingsgrundlage: Das Modell wurde ausschließlich auf strukturierten JSON-Captions trainiert. Statt freiem Text gibt man dem Modell maschinenlesbare Objekte mit, die einzelne Bildelemente und ihre Position beschreiben.
Das erlaubt drei Funktionen, die für professionelle Designarbeit entscheidend sind:
- Layout-Kontrolle per Bounding Box: Elemente lassen sich mit Koordinaten [y_min, x_min, y_max, x_max] an exakten Positionen im Bild platzieren - wie in einer Design-Software.
- Exakte Farbpaletten: Hex-Codes für Farben ermöglichen konsistente Markenfarben über Generierungen hinweg.
- Mehrzeilige Typografie: Textelemente in Bildern bleiben lesbar, korrekt gesetzt und schriftbild-treu - ein bekanntes Schwachpunkt vieler Bildmodelle.
Open Weights statt Open Source - ein wichtiger Unterschied
Die Veröffentlichung verdient eine terminologische Klarstellung: Der Inference-Code auf GitHub steht unter Apache 2.0 und ist damit tatsächlich Open Source. Die Modell-Gewichte selbst unterliegen jedoch der "Ideogram Non-Commercial Model Agreement" - kommerzielle Nutzung erfordert einen separaten Vertrag mit Ideogram. Wer die Gewichte für Produkte oder Dienstleistungen einsetzen will, muss direkt mit dem Unternehmen verhandeln.
Für Forscher, Hobbyisten und Entwickler, die Prototypen bauen, steht das Modell damit vollständig offen. Für den Produktiveinsatz gelten andere Regeln.
Hardware-Anforderungen und Integration
Ideogram stellt quantisierte Checkpoints bereit, die den Einstieg auch ohne Rechenzentrum ermöglichen: Die NF4-Variante läuft auf einer GPU mit 24 GB VRAM, die FP8-Version für hochwertigere Ausgaben benötigt entsprechend mehr. ComfyUI unterstützt Ideogram 4.0 nativ, sodass lokale Workflow-Pipelines direkt einsatzbereit sind. Ein einzelner Satz Gewichte deckt alle Seitenverhältnisse ab - von Quer-Bannern bis zu mobilen Hochformaten - ohne gesonderte LoRAs oder Modellvarianten.
Ideogram 4.0 ist außerdem über die Ideogram-Weboberfläche, die API und per MCP-Integration für KI-Agenten zugänglich. Nachbearbeitungsfunktionen wie Hintergrund entfernen, Upscaling, Magic Fill und Remix stehen wo verfügbar direkt im Anschluss bereit.
🎯 Was das für die Praxis bedeutet
1. Designteams mit Automatisierungsbedarf: Wer Poster, Produktkampagnen oder Print-on-Demand-Vorlagen in großen Mengen erzeugen will, bekommt mit dem JSON-Prompting erstmals ein Bildmodell, das Positionen und Farben tatsächlich zuverlässig einhält.
2. Entwickler für lokale KI-Tools: Dank NF4-Quantisierung und ComfyUI-Support ist Ideogram 4.0 auf Consumer-Hardware lauffähig - der Einstieg für eigene Anwendungen ist damit deutlich niedrigschwelliger als bei vergleichbaren Modellen.
3. Kommerzielle Nutzung braucht einen Vertrag: Wer die Gewichte in Produkten einsetzen will, muss mit Ideogram direkt verhandeln. Reine Forschung und nicht-kommerzielle Experimente sind dagegen frei.


