Effizienz
Context Caching
Context Caching (z.B. bei Google Vertex AI) erlaubt es, den Kontext (z.B. ein langes Dokument) einmal an das Modell zu senden und für spätere Anfragen zwischenzuspeichern. Das spart Kosten und Latenz.