Google Research hat mit TurboQuant einen Kompressionsalgorithmus vorgestellt, der den Speicherbedarf großer Sprachmodelle um mindestens das Sechsfache reduziert — und gleichzeitig die Verarbeitungsgeschwindigkeit um bis zu das Achtfache steigert. Und das ohne jedes Nachtraining, ohne Feinabstimmung und ohne Genauigkeitsverlust. Das Paper wird auf der ICLR 2026 präsentiert.
So funktioniert TurboQuant
Das Verfahren löst ein zentrales Problem moderner Sprachmodelle: den sogenannten Key-Value-Cache (KV-Cache). Dieser Zwischenspeicher wächst mit der Kontextlänge und verschlingt bei langen Texten oder Konversationen enorme Mengen an GPU-Speicher. TurboQuant komprimiert diesen Speicher in zwei Schritten:
- PolarQuant (Hauptkompression): Statt Daten wie üblich in kartesischen Koordinaten (X, Y, Z) zu speichern, wandelt PolarQuant sie in ein Polarkoordinatensystem um — vergleichbar mit dem Unterschied zwischen „gehe 3 Blöcke nach Osten und 4 nach Norden" und „gehe 5 Blöcke in Richtung 37 Grad". Dadurch entfällt der aufwendige Normalisierungsschritt, der bei klassischen Verfahren nötig ist.
- QJL (1-Bit-Fehlerkorrektur): Der verbleibende Restfehler wird mit nur einem einzigen Bit pro Wert korrigiert — quasi null zusätzlicher Speicherverbrauch. Das Verfahren basiert auf der mathematischen Johnson-Lindenstrauss-Transformation, die hochdimensionale Daten schrumpft und dabei die wesentlichen Beziehungen erhält.
Die Ergebnisse im Detail
Google testete TurboQuant auf den Open-Source-Modellen Gemma und Mistral mit Benchmarks wie LongBench, Needle In A Haystack und ZeroSCROLLS — also Aufgaben wie Fragenbeantwortung, Code-Generierung und Zusammenfassung langer Texte. Die Kernzahlen laut dem Paper:
- KV-Cache-Speicher: mindestens 6x reduziert
- 4-Bit TurboQuant auf H100-GPUs: bis zu 8x schnellere Berechnung der Attention-Logits (der kritische Rechenschritt, der bestimmt, welche Teile des Inputs das Modell beachtet)
- 3-Bit-Kompression ohne jedes Training — bei voller Genauigkeit
Über Sprachmodelle hinaus: Vektorsuche
TurboQuant funktioniert nicht nur für Sprachmodelle, sondern auch für die Vektorsuche — die Technologie hinter modernen semantischen Suchmaschinen. Im Vergleich mit etablierten Verfahren wie PQ und RabbiQ erzielte TurboQuant überlegene Trefferquoten, und das ohne aufwendige Codebücher oder datensatzspezifische Anpassung.
🎯 Was das für die Praxis bedeutet
1. Längere Kontexte werden erschwinglich: Wer heute an Speichergrenzen stößt, wenn Sprachmodelle lange Dokumente verarbeiten, profitiert direkt von solchen Verfahren — sechs Mal mehr Kontext bei gleichem Speicher.
2. Kein Nachtraining nötig: TurboQuant funktioniert „out of the box" auf bestehenden Modellen. Unternehmen müssen nicht in teure Feinabstimmung investieren.
3. Such-Infrastruktur profitiert: Wer eigene Vektordatenbanken betreibt, sollte das Paper im Auge behalten — die Kompression beschleunigt den Aufbau von Suchindizes erheblich.