Elasticity
Elasticity (Elastizität) im Cloud-Computing-Kontext bezeichnet die Fähigkeit eines Systems, Ressourcen automatisch und dynamisch an die aktuelle Nachfrage anzupassen — hochskalieren bei Spitzenlast, herunterskalieren bei geringer Nutzung.
Für KI-Workloads ist Elastizität besonders relevant. Das Training eines Modells erfordert Hunderte GPUs über Wochen — danach werden die meisten nicht mehr benötigt. Die Inferenz schwankt je nach Tageszeit, Kampagnen oder viralen Momenten um Größenordnungen. Ohne Elastizität müsste man entweder überdimensionieren (teuer) oder unter Spitzenlast zusammenbrechen.
Die Implementierung: Auto-Scaling Groups (AWS), Managed Instance Groups (GCP) und Virtual Machine Scale Sets (Azure) starten und stoppen Instanzen basierend auf CPU-Auslastung, Queue-Länge oder Custom-Metriken. Kubernetes Horizontal Pod Autoscaler skaliert Container. Serverless-Funktionen (AWS Lambda, Google Cloud Functions) skalieren automatisch auf Null, wenn keine Anfragen kommen.
Für LLM-Inferenz: Tools wie vLLM, TGI (Text Generation Inference) und Triton Inference Server optimieren den GPU-Einsatz und ermöglichen dynamische Batching — mehrere Anfragen werden zur effizienten Nutzung der GPU zusammengeführt.
Die wirtschaftliche Implikation: Elastizität verwandelt feste Infrastrukturkosten (CapEx) in variable Nutzungskosten (OpEx). Ein KI-Startup kann ein System lancieren, ohne Millionen in Hardware zu investieren — und zahlt nur, was es tatsächlich nutzt. Das senkt die Eintrittsbarrieren erheblich.