Modelle & Technologie

TurboQuant: Google komprimiert KI-Speicher sechsfach — bei null Genauigkeitsverlust

Der neue Algorithmus reduziert den Key-Value-Cache großer Sprachmodelle um das Sechsfache und beschleunigt die Verarbeitung auf H100-GPUs um das Achtfache. Ohne jedes Nachtraining.

Kai · 25. Mar 2026 · 3 Min. Lesezeit

Google Research hat mit TurboQuant einen Kompressionsalgorithmus vorgestellt, der den Speicherbedarf großer Sprachmodelle um mindestens das Sechsfache reduziert - und gleichzeitig die Verarbeitungsgeschwindigkeit um bis zu das Achtfache steigert. Und das ohne jedes Nachtraining, ohne Feinabstimmung und ohne Genauigkeitsverlust. Das Paper wird auf der ICLR 2026 präsentiert.

So funktioniert TurboQuant

Das Verfahren löst ein zentrales Problem moderner Sprachmodelle: den sogenannten Key-Value-Cache (KV-Cache). Dieser Zwischenspeicher wächst mit der Kontextlänge und verschlingt bei langen Texten oder Konversationen enorme Mengen an GPU-Speicher. TurboQuant komprimiert diesen Speicher in zwei Schritten:

PolarQuant (Hauptkompression): Statt Daten wie üblich in kartesischen Koordinaten (X, Y, Z) zu speichern, wandelt PolarQuant sie in ein Polarkoordinatensystem um - vergleichbar mit dem Unterschied zwischen „gehe 3 Blöcke nach Osten und 4 nach Norden" und „gehe 5 Blöcke in Richtung 37 Grad". Dadurch entfällt der aufwendige Normalisierungsschritt, der bei klassischen Verfahren nötig ist.
QJL (1-Bit-Fehlerkorrektur): Der verbleibende Restfehler wird mit nur einem einzigen Bit pro Wert korrigiert - quasi null zusätzlicher Speicherverbrauch. Das Verfahren basiert auf der mathematischen Johnson-Lindenstrauss-Transformation, die hochdimensionale Daten schrumpft und dabei die wesentlichen Beziehungen erhält.

Die Ergebnisse im Detail

Google testete TurboQuant auf den Open-Source-Modellen Gemma und Mistral mit Benchmarks wie LongBench, Needle In A Haystack und ZeroSCROLLS - also Aufgaben wie Fragenbeantwortung, Code-Generierung und Zusammenfassung langer Texte. Die Kernzahlen laut dem Paper:

KV-Cache-Speicher: mindestens 6x reduziert
4-Bit TurboQuant auf H100-GPUs: bis zu 8x schnellere Berechnung der Attention-Logits (der kritische Rechenschritt, der bestimmt, welche Teile des Inputs das Modell beachtet)
3-Bit-Kompression ohne jedes Training - bei voller Genauigkeit

Über Sprachmodelle hinaus: Vektorsuche

TurboQuant funktioniert nicht nur für Sprachmodelle, sondern auch für die Vektorsuche - die Technologie hinter modernen semantischen Suchmaschinen. Im Vergleich mit etablierten Verfahren wie PQ und RabbiQ erzielte TurboQuant überlegene Trefferquoten, und das ohne aufwendige Codebücher oder datensatzspezifische Anpassung.

🎯 Was das für die Praxis bedeutet

1. Längere Kontexte werden erschwinglich: Wer heute an Speichergrenzen stößt, wenn Sprachmodelle lange Dokumente verarbeiten, profitiert direkt von solchen Verfahren - sechs Mal mehr Kontext bei gleichem Speicher.

2. Kein Nachtraining nötig: TurboQuant funktioniert „out of the box" auf bestehenden Modellen. Unternehmen müssen nicht in teure Feinabstimmung investieren.

3. Such-Infrastruktur profitiert: Wer eigene Vektordatenbanken betreibt, sollte das Paper im Auge behalten - die Kompression beschleunigt den Aufbau von Suchindizes erheblich.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

Google Research Blog ↗ Google Research auf X ↗ TurboQuant Paper ↗ @kimmonismus auf X ↗

TurboQuant: Google komprimiert KI-Speicher sechsfach — bei null Genauigkeitsverlust

So funktioniert TurboQuant

Die Ergebnisse im Detail

Über Sprachmodelle hinaus: Vektorsuche

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Gemini Spark Beta: Googles persönlicher KI-Agent zwischen Komfort und Datenschutz

MDASH: Microsofts 100-Agenten-System findet 16 Windows-Schwachstellen

Helix 02: Figures humanoide Roboter arbeiten jetzt autonome 8-Stunden-Schichten

Fehler melden

Die KI Woche als App