Infra

GPU Cluster

Ein GPU-Cluster ist ein Verbund von Hunderten bis Zehntausenden GPUs, die über Hochgeschwindigkeitsnetzwerke verbunden sind und gemeinsam das Training großer KI-Modelle durchführen. GPU-Cluster sind die Supercomputer der KI-Ära.

Die Dimensionen: OpenAIs GPU-Cluster für GPT-4 umfasste geschätzte 10.000-25.000 Nvidia A100-GPUs. Meta baut Cluster mit über 350.000 H100-GPUs. Google betreibt massive TPU-Pods. xAIs Colossus-Cluster umfasst 100.000 H100-GPUs.

Die entscheidende Metrik ist nicht die Anzahl der GPUs, sondern die Interconnect-Bandbreite. Nvidia NVLink verbindet GPUs innerhalb eines Servers (900 GB/s). InfiniBand (400Gb/s) verbindet Server über das Netzwerk. Nvidia NVSwitch ermöglicht All-to-All-Kommunikation zwischen 256 GPUs. Die Kommunikation ist der Flaschenhals: Wenn GPUs mehr Zeit mit Warten auf Daten verbringen als mit Rechnen, skaliert der Cluster nicht effizient.

Parallelisierungsstrategien: Data Parallelism (gleiche Modellkopie auf jeder GPU, verschiedene Daten-Batches). Tensor Parallelism (eine einzelne Matrix-Operation wird auf mehrere GPUs aufgeteilt). Pipeline Parallelism (verschiedene Modellschichten auf verschiedenen GPUs). ZeRO (Zero Redundancy Optimizer, DeepSpeed) partitioniert den Optimizer-State über alle GPUs.

Die Kosten: Ein H100-GPU kostet ~30.000 Dollar. 10.000 GPUs = 300 Millionen Dollar — nur die Hardware. Dazu kommen Stromversorgung (Megawatts), Kühlung, Netzwerk-Infrastruktur, Rechenzentrumsplatz und Personal.

Der geopolitische Aspekt: GPU-Cluster-Größe ist ein Maß nationaler KI-Kapazität. US-Exportkontrollen begrenzen Chinas Zugang zu leistungsfähigen GPUs — ein Technologie-Hebel von geopolitischer Tragweite.

Compute

GPU Cluster

Verwandte Begriffe

Fehler melden

Die KI Woche als App