OpenAI steigt in die Chip-Entwicklung ein. Mit dem Jalapeño hat das Unternehmen seinen ersten eigenen Inferenz-Prozessor vorgestellt - einen maßgeschneiderten ASIC, der ausschließlich für das Ausführen großer Sprachmodelle konzipiert wurde. Designpartner ist Broadcom, gefertigt wird bei TSMC im aktuellen 3-Nanometer-Verfahren. Erste Engineering Samples laufen laut OpenAI bereits im Labor, die Serienproduktion soll in der zweiten Jahreshälfte 2026 starten.
Der Schritt hat eine klare ökonomische Logik: Inferenz - also das Beantworten von Nutzeranfragen, das Generieren von Code und das Betreiben der API - macht mittlerweile den Großteil von OpenAIs jährlichen Rechenkosten aus. Bloomberg bezifferte diese zuletzt 2024 auf rund 4 bis 5 Milliarden Dollar jährlich — eine Summe, die seitdem weiter gestiegen ist. Allzweck-GPUs von Nvidia sind für das Training unverzichtbar, aber für reine Inferenz-Aufgaben überdimensioniert und damit unnötig teuer.
840 Quadratmillimeter Silizium für ein einziges Ziel
Jalapeño ist kein umgebauter Standardprozessor. OpenAI hat den Chip von Grund auf als sogenannte "Blank-slate"-Architektur entwickelt, die exakt auf die Anforderungen von Transformer-Modellen zugeschnitten ist: effiziente Speicherbewegung, optimale Balance zwischen Rechenleistung und Speicherbandbreite, und schnelle Netzwerkkommunikation zwischen Chips. Die technische Architektur basiert auf einem Systolic Array, einem gekachelten, hochrepetitiven Layout, das an Googles TPU-Designs erinnert.
Mit einer Die-Fläche von rund 840 Quadratmillimetern reizt der Chip das physikalische Maximum moderner EUV-Lithografie nahezu aus. Ein Multi-Chip-Modul mit Interposer verbindet den zentralen Logic-Tile mit sechs bis acht HBM3E-Speicherstapeln. Für die Skalierung über ganze Rechenzentren hinweg integriert das Design Broadcoms Hochleistungs-Netzwerktechnologie aus der Tomahawk-Serie.
Neun Monate vom Entwurf zum Tape-out
Die Entwicklungsgeschwindigkeit ist bemerkenswert. Laut Bloomberg leitet Richard Ho, ein ehemaliger Google-TPU-Ingenieur, ein Team von rund 40 bis 50 Entwicklern, das den reinen Designzyklus vom Entwurf bis zum Tape-out in nur neun Monaten durchlaufen hat. Das Gesamtprogramm — vom Aufbau des Teams bis zum fertigen Silizium — dauerte rund zwei Jahre, wie Ho auf X festhielt: "Two years of work, from concept to tape-out." OpenAI habe dabei eigene KI-Modelle eingesetzt, um das Chipdesign zu beschleunigen.
Im Labor laufen die Engineering Samples bereits mit produktionsnahen Taktfrequenzen. Zu den getesteten Workloads soll unter anderem GPT-5.3-Codex-Spark gehören - das Modell, das bereits auf Cerebras-Hardware über 1.000 Tokens pro Sekunde erreicht hatte.
Full-Stack-Strategie nach dem Hyperscaler-Playbook
Mit Jalapeño folgt OpenAI dem Weg, den Google mit seinen TPUs, Amazon mit Trainium und Inferentia, Meta mit dem MTIA-Chip und Microsoft mit Maia längst eingeschlagen haben: eigenes Silizium für die eigenen Modelle. Doch OpenAI verfolgt einen gezielteren Ansatz. Statt sofort in das Training einzusteigen, konzentriert sich das Unternehmen ausschließlich auf Inferenz. NVIDIA-GPUs bleiben vorerst das Rückgrat für das Modelltraining.
Die ohnehin angespannte Beziehung zu Nvidia dürfte das weiter belasten. NVIDIAs Aktienkurs gab nach der Ankündigung um rund 1,5 Prozent nach, während Broadcom leicht zulegte. Analysten sehen darin einen strukturellen Branchentrend: "Every major AI company is now building custom silicon. It's table stakes", zitiert The Verge einen Branchenbeobachter.
Gigawatt-Ambitionen und ein Name, der hängen bleibt
Broadcom-CEO Hock Tan soll erklärt haben, dass der Chip die Inferenz-Kosten pro Token um rund 50 Prozent senken könne. OpenAI-Präsident Greg Brockman ordnete den Schritt strategisch ein: "The world is moving to a compute-powered economy." Langfristig plant OpenAI laut Broadcom 10 Gigawatt an eigenen Beschleunigern - eine Zahl, die die aktuellen Kapazitäten um ein Vielfaches übersteigt. Das Deployment soll Ende 2026 beginnen, zunächst in Microsoft-Rechenzentren.
Und der Name? In der Tech-Branche sorgte "Jalapeño" für Belustigung. Die Netz-Community reagierte mit Memes über "spicy performance" und Hot-Sauce-Vergleichen. Intern folgt OpenAI offenbar einer Lebensmittel-Namenskonvention. Manche User hielten das Foto von Sam Altman und Hock Tan mit einem übergroßen Silizium-Wafer zunächst für einen Deepfake.
🎯 Was das für die Praxis bedeutet
1. Inferenz-Kosten sinken weiter: Wenn OpenAI die Kosten pro Token um 50 Prozent senkt, werden leistungsfähigere Modelle für mehr Unternehmen erschwinglich - gerade für Anwendungen mit hohem Abfragevolumen.
2. Nvidia-Abhängigkeit schmilzt: Für Firmen, die ihre KI-Strategie auf der Verfügbarkeit von NVIDIA-Hardware aufbauen, verschiebt sich die Marktdynamik. Diversifizierung beim Chip-Sourcing wird zum Thema.
3. ASIC-Trend beschleunigt sich: Von Google über Amazon bis OpenAI bauen alle großen KI-Anbieter mittlerweile eigene Chips. Wer als Unternehmen auf einen einzigen Hardware-Lieferanten setzt, riskiert strategische Abhängigkeit.



