Infrastruktur

Distributed Computing

Distributed Computing (verteiltes Rechnen) beschreibt Systeme, in denen die Berechnung auf mehrere Computer (Knoten) verteilt wird, die über ein Netzwerk kommunizieren. Für das Training großer KI-Modelle ist es unverzichtbar.

Ein einzelner GPU kann GPT-4 nicht trainieren — das Modell passt nicht in den Speicher einer einzigen Karte, und die Berechnung würde Jahrzehnte dauern. Deshalb wird das Training auf Hunderte bis Tausende GPUs verteilt.

Die Parallelisierungsstrategien: Data Parallelism — dieselbe Modellkopie auf mehreren GPUs, jede GPU verarbeitet einen Teil der Daten. Model Parallelism (Tensor Parallelism) — das Modell wird über mehrere GPUs aufgeteilt, jede GPU berechnet einen Teil der Operationen. Pipeline Parallelism — verschiedene Modellschichten auf verschiedenen GPUs, die Daten fließen als Pipeline durch.

Megatron-LM (Nvidia), DeepSpeed (Microsoft) und FSDP (PyTorch) sind die Frameworks, die diese Strategien implementieren. Die Effizienz der Kommunikation zwischen GPUs (über NVLink, InfiniBand) ist entscheidend: Wenn die GPUs mehr Zeit mit Warten auf Daten als mit Rechnen verbringen, ist die Skalierung ineffizient.

Jenseits von Training: Verteilte Inferenz (Frameworks wie vLLM, TGI verteilen die Modellinferenz auf mehrere GPUs), Federated Learning (Training auf verteilten Daten ohne zentralen Datenzugriff) und verteilte Datenverarbeitung (Apache Spark, Ray) sind weitere Ausprägungen.

Die Herausforderung bleibt: Amdahls Gesetz setzt Grenzen — der nicht-parallelisierbare Anteil der Berechnung bestimmt die maximale Beschleunigung, egal wie viele GPUs man hinzufügt.

Scale

Distributed Computing

Verwandte Begriffe

Fehler melden

Die KI Woche als App