Prozess

Execution

Execution (Ausführung) im KI-Kontext umfasst den gesamten Prozess der Modellinferenz — vom Empfang einer Anfrage über die Berechnung bis zur Auslieferung des Ergebnisses — sowie die orchestrierte Ausführung von Multi-Step-Agent-Workflows.

Inferenz-Execution: Ein trainiertes Modell erhält eine Eingabe, führt den Forward Pass durch (Matrixmultiplikationen, Aktivierungsfunktionen, Attention-Berechnungen) und gibt das Ergebnis aus. Für ein LLM mit 70 Milliarden Parametern ist ein einzelner Forward Pass eine massive Berechnung. Die Latenz (Time to First Token, TTFT) und der Durchsatz (Tokens pro Sekunde) sind die kritischen Metriken.

Agent-Execution: Agentic-AI-Systeme führen mehrstufige Pläne aus — Tool-Aufrufe, API-Calls, Datenbankabfragen, Code-Ausführung — orchestriert durch ein LLM. Frameworks wie LangChain, CrewAI und AutoGen steuern diesen Execution Loop: Planen → Ausführen → Beobachten → Anpassen.

Die Herausforderung verteilter Execution: Wenn ein Modell auf mehrere GPUs verteilt ist (Tensor Parallelism, Pipeline Parallelism), muss die Execution zwischen den Devices koordiniert werden. vLLM, TensorRT-LLM und DeepSpeed Inference optimieren diese Orchestrierung.

Execution Environments: CUDA (Nvidia), ROCm (AMD), Metal (Apple), OpenVINO (Intel) sind die Laufzeitumgebungen, die neuronale Netze auf verschiedener Hardware ausführen. ONNX Runtime bietet eine hardwareagnostische Abstraktionsschicht.

Run

Execution

Verwandte Begriffe

Fehler melden

Die KI Woche als App