Engine
Eine Engine im Software-Kontext ist ein Kernmodul, das eine spezifische Verarbeitung leistet und von übergeordneten Systemen genutzt wird. Im KI-Bereich bezeichnet „Engine" typischerweise die Inferenz-Laufzeitumgebung, die ein trainiertes Modell ausführt.
TensorRT (Nvidia) ist die prominenteste KI-Inference Engine: Sie kompiliert trainierte Modelle in optimierten Code für Nvidia-GPUs — mit Techniken wie Layer Fusion, Kernel Auto-Tuning, Quantisierung und dynamischem Batching. Die Beschleunigung gegenüber nativem PyTorch kann Faktor 2-5x betragen.
ONNX Runtime (Microsoft) bietet hardwareübergreifende Inferenzoptimierung: Ein Modell in ONNX-Format (Open Neural Network Exchange) kann auf CPUs, GPUs, NPUs und spezialisierten Beschleunigern effizient ausgeführt werden.
vLLM revolutionierte 2023 die LLM-Inferenz mit PagedAttention — einem Speicherverwaltungsverfahren, das den GPU-Speicher effizienter nutzt und den Durchsatz um das 2-4fache steigert. TGI (Text Generation Inference, Hugging Face) und SGLang sind Alternativen.
Suchmaschinen-Engines (Elasticsearch, Solr, Meilisearch) werden zunehmend mit KI-Funktionalität angereichert: Dense Vector Search, Semantic Ranking, Hybrid Search. Die Konvergenz von klassischer Suche und KI-basierter Suche ist ein aktiver Trend.
Im Gaming: Unity und Unreal Engine integrieren KI für NPC-Verhalten, prozedurale Generierung und Testing. Nvidia's DLSS nutzt ein neuronales Netz als Rendering-Engine-Erweiterung, die niedrig aufgelöste Bilder in Echtzeit hochskaliert.