Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Technologie

Context Window

Das Context Window (Kontextfenster) definiert, wie viel Text ein Sprachmodell auf einmal „sehen" kann — und damit, wie viel Information für eine Antwort berücksichtigt werden kann. Es ist einer der kritischsten Parameter moderner LLMs.

Die Evolution war rasant: GPT-3 (2020) hatte 2.048 Tokens (~1.500 Wörter). GPT-3.5 bot 4.096. Claude 2 sprengte die Grenze mit 100.000 Tokens (~75.000 Wörter, ein mittellanges Buch). GPT-4 Turbo erreichte 128.000. Claude 3 kam auf 200.000. Gemini 1.5 Pro bot 1 Million Tokens — und als Experiment 10 Millionen.

Die praktischen Auswirkungen sind transformativ. Mit einem 200k-Token-Kontextfenster kann man ganze Codebasen, umfangreiche Verträge oder Forschungsarbeiten in einem Stück analysieren. Rag-Pipelines (Retrieval-Augmented Generation), die Dokumente in Chunks zerteilen und einzeln verarbeiten, werden bei ausreichend großem Kontextfenster womöglich obsolet.

Die technische Herausforderung: Der Attention-Mechanismus hat quadratische Komplexität — doppeltes Kontextfenster bedeutet vierfacher Rechenaufwand. Techniken wie Sliding Window Attention, Sparse Attention (BigBird, Longformer), Ring Attention und Flash Attention reduzieren die Kosten, aber lange Kontexte bleiben teurer als kurze.

Eine subtile Limitation: „Im Kontextfenster" bedeutet nicht „wird gelesen". Studien (Liu et al., 2023, „Lost in the Middle") zeigten, dass LLMs Informationen am Anfang und Ende des Kontexts besser verarbeiten als in der Mitte. Längere Kontextfenster allein garantieren also nicht bessere Informationsverarbeitung.

Memory Limitation