Inference
Inference (Inferenz) bezeichnet die Phase, in der ein fertig trainiertes KI-Modell produktiv genutzt wird. Nachdem das Modell im Training wochenlang Daten gebüffelt und Parameter gelernt hat, ist es nun 'eingefroren'. Bei der Inferenz werden neue, echte Daten (ein User-Prompt, ein Bild der Kamera) in das Modell eingegeben, und es berechnet ('inferiert') daraus eine Vorhersage oder Antwort.
Im Gegensatz zum Training, das rechenintensiv und langsam ist (Backward Pass + Forward Pass), muss Inferenz meist sehr schnell und kostengünstig sein (nur Forward Pass). Optimierungen für Inferenz konzentrieren sich auf Latenz (Antwortzeit) und Durchsatz, oft durch spezielle Hardware (Inference Chips) oder Cloud-APIs.