CPU Cluster
Ein CPU Cluster ist ein Verbund mehrerer Computer (Knoten), deren Prozessoren gemeinsam an einer Aufgabe arbeiten. Vor dem GPU-Boom war das die primäre Methode, um rechenintensive KI-Aufgaben zu bewältigen.
In der modernen KI-Infrastruktur dominieren GPU-Cluster. Nvidias DGX SuperPOD verbindet Hunderte H100-GPUs über InfiniBand zu einem Hochgeschwindigkeitsnetzwerk, das die parallele Verarbeitung von Billionen Parametern ermöglicht. Microsofts Supercomputer für OpenAI umfasst Zehntausende GPUs. Metas KI-Infrastruktur plant mit über 350.000 H100-GPUs.
Der Übergang von CPU- zu GPU-Clustern war ein Paradigmenwechsel. 2012 zeigten Alex Krizhevsky, Ilya Sutskever und Geoffrey Hinton mit AlexNet, dass ein auf zwei GPUs trainiertes CNN die ImageNet-Challenge erdrutschartig gewinnen konnte. Dieses Ergebnis überzeugte die Forschungsgemeinschaft, dass GPUs die Zukunft des Deep Learning sind.
Für Datenverarbeitung und klassische ML-Algorithmen bleiben CPU-Cluster allerdings relevant. Apache Spark, Hadoop und Dask verteilen Berechnungen über CPU-Knoten. Inference-Workloads für leichtere Modelle laufen ebenfalls effizient auf CPU-Clustern.
Die Frontier zwischen Training und Inferenz verschiebt sich: Google's TPU v5-Pods und AWSs Trainium-Cluster zeigen, dass spezialisierte Hardware-Cluster zunehmend auch außerhalb der Nvidia-Welt entstehen.