Nvidia macht Ernst im Wettlauf um offene KI-Modelle. Auf der Computex hat Jensen Huang Nemotron 3 Ultra angekündigt — und die Benchmark-Plattform Artificial Analysis liefert die ersten Zahlen: Mit einem Intelligence Index von 48 ist es das stärkste Open-Weights-Modell aus den USA. Geschlagen wird es nur vom chinesischen Kimi K2.6.

550 Milliarden Parameter, 55 Milliarden aktiv

Die Architektur hinter Nemotron Ultra ist eine Hybrid-MoE-Variante (Mixture of Experts) mit 90 Prozent Sparsity. Das bedeutet: Von den 550 Milliarden Parametern sind bei jeder Inferenz nur rund 55 Milliarden aktiv. Der Rest ruht. Das Ergebnis ist ein Modell, das trotz seiner enormen Gesamtgröße mit 309 Tokens pro Sekunde arbeitet — drei- bis sechsmal schneller als vergleichbare Frontier-Modelle.

Für Unternehmen ist das die entscheidende Kennzahl. Denn in produktiven Agenten-Systemen, wo Modelle Stunden oder Tage am Stück laufen, entscheidet der Durchsatz über die Wirtschaftlichkeit. Ein Modell, das dreimal schneller denkt, kostet bei gleicher Leistung ein Drittel.

USA vs. China: Das Open-Weights-Rennen

Die Benchmark-Daten von Artificial Analysis zeigen eine bemerkenswerte Landschaft. Das stärkste offene Modell weltweit ist derzeit Kimi K2.6 aus China mit einem Intelligence Index von 54. Nemotron Ultra folgt als bestes US-Modell mit 48 — vor Googles Gemma 4 (39) und dem kürzlich veröffentlichten MiniMax M3 aus China.

Nvidia positioniert sich damit in einer Rolle, die das Unternehmen bisher nicht gespielt hat: als Modellentwickler auf Frontier-Niveau. Der Chipriese, der traditionell die Hardware und die Inferenz-Infrastruktur liefert, konkurriert jetzt direkt mit OpenAI, Google und Anthropic — allerdings mit einem offenen Ansatz. Gewichte, Trainingsdaten und Trainingsmethoden werden auf Hugging Face veröffentlicht.

Warum das strategisch relevant ist

Nvidias Kalkül dürfte dabei weniger im Modellverkauf liegen als in der Ökosystem-Strategie. Je besser die offenen Modelle sind, desto mehr Inferenz wird auf Nvidia-Hardware laufen. Nemotron Ultra ist nicht nur ein Modell — es ist ein Argument für den Kauf von DGX-Systemen, RTX-PRO-Workstations und NIM-Microservices.

Die Nemotron-3-Super-Generation hat diesen Weg im März begonnen. Ultra ist der nächste Schritt: ein Modell, das bei agentischen Workflows — langen, mehrstufigen Aufgaben mit Tool-Calls und Reasoning — Maßstäbe setzen soll. Nvidias Botschaft: Wer ernsthaft KI-Agenten bauen will, braucht nicht nur gute Chips, sondern auch gute Modelle. Und beides kommt jetzt aus einer Hand.

🎯 Was das für die Praxis bedeutet

1. Für Entwickler: Nemotron Ultra ist Open Source mit freizügiger Lizenz. Es kann kostenlos von Hugging Face heruntergeladen und kommerziell genutzt werden — ein ernstzunehmender Konkurrent zu proprietären APIs.

2. Für IT-Entscheider: Die MoE-Architektur mit 90% Sparsity macht Frontier-Leistung auch ohne GPU-Cluster möglich. 309 Token/s bedeuten drastisch niedrigere Inferenzkosten als bei dense Modellen vergleichbarer Qualität.

3. Für die Branche: Nvidia konkurriert jetzt auf beiden Seiten des Stacks — Hardware und Modelle. Das verschiebt die Machtverhältnisse im KI-Markt und stärkt das Open-Source-Ökosystem gegen geschlossene Anbieter.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
NVIDIA AI auf X ↗ Artificial Analysis auf X ↗ NVIDIA Nemotron ↗
Teilen: