Ein KI-Bildgenerator, der auf einem iPhone läuft. Ohne Cloud. Ohne API-Kosten. In unter zehn Sekunden.
Das Caltech-Startup PrismML hat Bonsai Image 4B veröffentlicht – ein Bildgenerierungsmodell, das durch extreme Gewichtskomprimierung auf lokalen Geräten arbeitet. Statt 16 Bit pro Gewicht nutzt es nur 1 oder 1,7 Bit. Das Ergebnis: Ein Modell, das auf einem iPhone 17 Pro Max ein 512×512-Bild in 9,4 Sekunden erzeugt – komplett offline, komplett privat.
Was 1-Bit-Gewichte bedeuten – und warum das radikal ist
In einem normalen KI-Modell wird jedes Gewicht (sozusagen jeder „Einstellregler" im neuronalen Netz) als 16-Bit-Gleitkommazahl gespeichert. Das erlaubt sehr feine Abstufungen, frisst aber enorm viel Speicher. Bonsai Image dreht an diesem Regler radikal: Statt 65.536 möglicher Werte pro Gewicht gibt es nur noch zwei (−1 oder +1) in der 1-Bit-Variante, beziehungsweise drei (−1, 0 oder +1) in der ternären Variante.
Das bedeutet konkret: Der Kern des Modells – der sogenannte Diffusion Transformer (der Teil, der bei jedem Generierungsschritt wiederholt durchlaufen wird) – schrumpft von 7,75 GB auf 0,93 GB in der 1-Bit-Version. Das ist eine 8,3-fache Reduktion. Die ternäre Variante kommt auf 1,21 GB bei 6,4-facher Kompression.
Nicht nur klein, sondern brauchbar
Extreme Kompression klingt nach extremem Qualitätsverlust. PrismML zeigt in seinen Benchmarks, dass das hier nicht zutrifft – zumindest nicht in dem erwarteten Ausmaß. Die ternäre Variante behält 95 Prozent der Bildqualität des unkomprimierten FLUX.2 Klein 4B über drei verschiedene Benchmarks hinweg (GenEval für Objektkomposition, HPSv3 für ästhetische Qualität, DPG-Bench für Prompt-Treue). Die 1-Bit-Variante erreicht immer noch 88 Prozent.
Zum Vergleich: Andere Modelle in derselben Speicherklasse – etwa BK-SDM-Small mit 0,98 GB – kommen nur auf 42 Prozent der Referenzqualität. Bonsai Image erreicht also bei vergleichbarer Größe eine doppelt so hohe Qualität wie der bisherige Stand der Technik.
Warum lokal wichtiger wird als man denkt
Cloud-Bildgenerierung funktioniert. Aber sie hat drei strukturelle Einschränkungen, die bei professioneller Nutzung schnell relevant werden:
Kosten: Jede Prompt-Iteration kostet Geld. Wer kreativ arbeitet – und das bedeutet: 20, 30 Versuche für ein gutes Ergebnis – zahlt für jeden einzelnen. Lokal generiert man zum Fixpreis der Hardware.
Geschwindigkeit: Auf einem Mac M4 Pro erzeugt Bonsai Image ein Bild in etwa 6 Sekunden, bis zu 5,6-mal schneller als die Standard-Pipeline. Ohne Netzwerk-Latenz, ohne Warteschlange.
Datenschutz: Jeder Prompt, der an einen Cloud-Dienst geht, ist ein Datenpunkt, der gespeichert, analysiert und potenziell zum Training verwendet werden kann. Lokale Generierung eliminiert dieses Problem vollständig – ein Argument, das für europäische Unternehmen und DSGVO-Beauftragte zunehmend relevant wird.
Der technische Trick: Bonsai trainiert nicht von Null
PrismML baut nicht ein neues Modell. Es nimmt ein bestehendes – in diesem Fall FLUX.2 Klein 4B – und komprimiert dessen Gewichte in binäre oder ternäre Form, wobei die Architektur identisch bleibt. Etwa fünf Prozent der besonders präzisionsempfindlichen Parameter bleiben in voller Auflösung (FP16). Das Verfahren ähnelt konzeptionell der Quantisierung (Reduktion der Rechengenauigkeit), geht aber einen Schritt weiter, indem es die Gewichte auf buchstäblich ein Bit reduziert.
PrismML hat bereits im März 2026 mit Bonsai 8B ein 1-Bit-Sprachmodell veröffentlicht, das ähnliche Kompressionserfolge bei Textgenerierung zeigte. Bonsai Image ist die Übertragung derselben Technologie auf Bildgenerierung.
Was das für den Markt bedeutet
Bonsai Image ist unter der Apache 2.0 Lizenz verfügbar – vollständig offen, kommerziell nutzbar. PrismML liefert gleichzeitig eine iOS-App namens „Bonsai Studio" zum direkten Testen auf dem iPhone. Die Gewichte liegen auf Hugging Face, der Code auf GitHub.
Für die KI-Bildgenerierung zeichnet sich damit ein Muster ab, das wir bereits bei Sprachmodellen beobachten: Die Cloud bleibt für Spitzenleistung relevant, aber die „gut genug"-Schwelle für lokale Modelle sinkt rapide. Wenn ein 1-Bit-Modell 88 Prozent der Qualität eines Cloud-Modells erreicht und dabei auf einem Smartphone läuft, wird die Cloud-API für viele Anwendungsfälle zum Luxus statt zur Notwendigkeit.
🎯 Was das für die Praxis bedeutet
1. Wer regelmäßig KI-Bilder generiert – ob für Social Media, Produktfotos oder Prototypen – sollte Bonsai Image ausprobieren. Die kostenlose iOS-App „Bonsai Studio" macht den Einstieg trivial. Für Mac-Nutzer gibt es die Gewichte auf Hugging Face.
2. Für Unternehmen mit Datenschutzanforderungen: Lokale Bildgenerierung bedeutet, dass keine Prompts und keine generierten Bilder einen externen Server berühren. Für DSGVO-sensible Workflows – etwa im Gesundheitswesen, in der Rechtsberatung oder im Personalwesen – ist das ein echter Gamechanger.
3. Für Entwickler und App-Bauer: Bonsai Image unter Apache 2.0 ermöglicht den Einbau von Bildgenerierung direkt in eigene Apps – ohne API-Kosten, ohne Abhängigkeit von OpenAI, Stability oder Midjourney. Die Einstiegshürde für „KI-Bilder als Feature" sinkt auf null.