Sechs neue Chips, ein komplettes Rack-System, ein Ziel: NVIDIA hat mit der Vera Rubin NVL72-Plattform seine nächste Chip-Generation vorgestellt — und die Zahlen verschieben die Maßstäbe in der KI-Branche grundlegend.

Ein KI-Supercomputer im Serverschrank

Das Vera Rubin NVL72-System packt 72 Rubin-GPUs und 36 Vera-CPUs in ein einziges Rack. Jede einzelne GPU liefert 50 Billiarden Rechenoperationen pro Sekunde (PetaFLOPS) bei geringer Genauigkeit und verfügt über 288 Gigabyte des brandneuen HBM4-Speichers — der schnellsten Speichertechnologie, die es aktuell gibt.

Die Verbindung zwischen den GPUs übernimmt der neue NVLink 6 Switch mit 3,6 Terabyte pro Sekunde Bandbreite. Zum Vergleich: Das entspricht dem gleichzeitigen Streaming von rund 700.000 Netflix-Filmen in HD — pro Sekunde, innerhalb eines einzigen Server-Racks.

Zehnmal günstiger als der Vorgänger

Der entscheidende Sprung gegenüber der aktuellen Blackwell-Generation liegt nicht nur in der Rohleistung, sondern in der Effizienz. Laut NVIDIA senkt Vera Rubin die Kosten für KI-Schlussfolgerungen (Inferenz, also wenn ein KI-Modell Antworten generiert) auf ein Zehntel — bei zehnfach besserer Leistung pro Watt. Für das Training großer Sprachmodelle mit sogenannter Mixture-of-Experts-Architektur (bei der nicht das gesamte Modell, sondern nur spezialisierte Teilbereiche aktiviert werden) reicht ein Viertel der bisherigen GPU-Anzahl.

Auf NVIDIAs Quartalsbericht am 25. Februar bestätigte CEO Jensen Huang, dass erste Muster bereits an Kunden ausgeliefert werden. Die Serienproduktion soll in der zweiten Jahreshälfte 2026 starten.

Wer baut damit?

Die Liste der angekündigten Early Adopters liest sich wie ein Who's who der Cloud-Industrie: AWS, Google Cloud, Microsoft Azure und Oracle planen Vera-Rubin-Instanzen. Microsoft will die NVL72-Racks in seine nächste Generation von KI-Rechenzentren integrieren. Auch spezialisierte KI-Cloud-Anbieter wie CoreWeave, Lambda und Nebius stehen auf der Liste.

Sechs Chips, eine Architektur

Insgesamt umfasst die Rubin-Plattform sechs komplett neu entwickelte Bausteine:

  • Rubin GPU — der eigentliche KI-Rechner mit HBM4 und Transformer Engine der dritten Generation
  • Vera CPU — speziell für Datenbewegungen und agentisches KI-Reasoning optimiert
  • NVLink 6 Switch — Hochgeschwindigkeitsverbindung zwischen den GPUs
  • ConnectX-9 SuperNIC — 1,6 Terabit pro Sekunde Netzwerkanbindung pro GPU
  • BlueField-4 DPU — beschleunigt Datenspeicherung, Netzwerk und Cybersicherheit
  • Spectrum-X Ethernet — mit integrierter Silizium-Photonik für fünffach bessere Energieeffizienz im Netzwerk

NVIDIAs Designphilosophie dahinter: Nicht der einzelne Chip ist die Recheneinheit, sondern das gesamte Rechenzentrum. Die sechs Bausteine sind so aufeinander abgestimmt, dass Engpässe zwischen Speicher, Berechnung und Datenübertragung minimiert werden.

🎯 Was das für die Praxis bedeutet

1. Unternehmen, die eigene: KI-Modelle betreiben oder planen, sollten H2 2026 für ihre Infrastrukturplanung vormerken — die Kostenstruktur für KI-Inferenz verschiebt sich dramatisch nach unten.

2. Die zehnfache Effizienzsteigerung macht KI-Anwendungen wirtschaftlich, die bisher an den Stromkosten gescheitert sind — insbesondere immer-aktive KI-Agenten und Echtzeit-Reasoning.

3. Wer aktuell Blackwell-Systeme beschafft, sollte die Migration auf Rubin einplanen: NVIDIA betont die Abwärtskompatibilität über das MGX-Rack-Design der dritten Generation.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
NVIDIA Produktseite ↗ NVIDIA Pressemitteilung ↗ @minchoi auf X ↗
Teilen: