Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Technik

Cache

Ein Cache ist ein schneller Zwischenspeicher, der häufig benötigte Daten vorhält, um langsamere Zugriffe auf den Hauptspeicher oder die Festplatte zu vermeiden. In der KI-Infrastruktur spielt Caching eine wachsende Rolle.

Das Prinzip ist universell: Ob CPU-Cache (SRAM, Nanosekunden), RAM-Cache für Festplattenzugriffe (Mikrosekunden vs. Millisekunden) oder Content-Delivery-Network-Cache für Webinhalte — die Hierarchie schneller-aber-kleiner vs. langsamer-aber-größer findet sich überall.

Im KI-Kontext ist der „KV-Cache" (Key-Value Cache) bei Transformer-Inferenz besonders relevant. Wenn ein Sprachmodell Text generiert, berechnet es für jedes neue Token die Attention über alle vorherigen Tokens. Ohne Cache müsste es bei jedem Schritt alle vorherigen Key- und Value-Vektoren neu berechnen. Der KV-Cache speichert diese Vektoren und beschleunigt die Generierung erheblich — verbraucht aber proportional zum Kontextfenster GPU-Speicher.

Bei einem Modell mit 128k Token Kontextfenster (Claude, GPT-4 Turbo) kann der KV-Cache mehrere Gigabyte pro Anfrage belegen. Techniken wie Paged Attention (vLLM), Grouped Query Attention und Multi-Query Attention reduzieren den Cache-Bedarf.

Prompt Caching ist ein weiterer Trend: Wenn viele Anfragen denselben System-Prompt oder die gleichen Few-Shot-Beispiele enthalten, können die vorberechneten Repräsentationen gecacht und wiederverwendet werden. Anthropic und OpenAI bieten dies als Feature an, was die Kosten für repetitive Anfragemuster senkt.

Speed