Fault Tolerance
Fault Tolerance (Fehlertoleranz) ist die Fähigkeit eines Systems, trotz Ausfällen einzelner Komponenten korrekt weiterzuarbeiten. Für KI-Systeme in Produktion — besonders das Training auf Tausenden GPUs — ist Fehlertoleranz unverzichtbar.
Das Problem: Ein GPU-Trainingsrun über Wochen auf einem Cluster mit 10.000 GPUs hat eine hohe Wahrscheinlichkeit für Hardware-Ausfälle. GPU-Speicherfehler, Netzwerkunterbrechungen, Kühlungsprobleme — bei Tausenden Geräten fällt statistisch fast täglich etwas aus. Ohne Fehlertoleranz müsste das Training von vorn beginnen.
Checkpointing ist die grundlegende Strategie: Der Trainingszustand (Modellgewichte, Optimizer-State, Datenlader-Position) wird regelmäßig gespeichert. Bei einem Ausfall wird vom letzten Checkpoint neu gestartet. Die Herausforderung: Checkpoints für 70B+-Modelle sind Hunderte Gigabyte groß — das Speichern dauert Minuten und blockiert das Training.
Redundanz: In verteilten Systemen können ausgefallene Knoten durch Reserveknoten ersetzt werden. Elastic Training (DeepSpeed, PyTorch Elastic) passt die Trainingsinfrastruktur dynamisch an — Worker können hinzukommen und wegfallen, ohne das Training zu unterbrechen.
In der Inferenz: Load Balancing verteilt Anfragen auf mehrere Modellinstanzen. Health Checks erkennen ausgefallene Server. Automatic Failover leitet Traffic auf funktionierende Instanzen um. CDNs (Content Delivery Networks) und Multi-Region-Deployments bieten zusätzliche Ausfallsicherheit.
Für autonome Systeme (selbstfahrende Autos, Drohnen) ist Fault Tolerance lebenskritisch: Redundante Sensoren, Backup-Recheneinheiten und sichere Fallback-Modi (Safe Stop) sind Pflicht.