Googles Open-Source-Modellfamilie Gemma 4 hat in wenigen Wochen über 60 Millionen Downloads erreicht. Jetzt legt Google nach: Multi-Token Prediction (MTP) Drafter machen die Modelle bis zu dreimal schneller — ohne Qualitätsverlust.
Wie es funktioniert
Standard-Sprachmodelle erzeugen Text Token für Token — ein Wort nach dem anderen. Das ist langsam, weil der Prozessor bei jedem einzelnen Token Milliarden von Parametern aus dem Speicher laden muss. Die meiste Rechenzeit geht dabei nicht für das eigentliche Denken drauf, sondern für das Herumschieben von Daten.
Speculative Decoding löst dieses Problem mit einem Trick: Ein kleines, schnelles Hilfsmodell (der „Drafter") rät mehrere kommende Tokens auf einmal voraus. Das große Hauptmodell — etwa Gemma 4 mit 31 Milliarden Parametern — prüft dann alle Vorschläge gleichzeitig in einem einzigen Durchlauf. Stimmen die Vorschläge, werden sie akzeptiert und ein weiteres Token wird gratis mitgeliefert.
Das Ergebnis: Die gleiche Qualität wie ohne MTP, aber in einem Drittel der Zeit.
Warum das für Entwickler wichtig ist
Inferenz-Geschwindigkeit ist oft der Flaschenhals, der darüber entscheidet, ob eine KI-Anwendung produktionsreif ist oder nicht. Drei zentrale Anwendungsfälle profitieren besonders:
- Coding-Assistenten: Schnellere Code-Vorschläge in Echtzeit
- Autonome Agenten: Agenten, die in Sekunden statt Minuten planen
- Mobile Apps: Inferenz direkt auf dem Gerät, ohne Cloud-Latenz
Da es sich um Open-Source-Modelle handelt, können Entwickler die MTP-Drafter frei einsetzen — auf eigenen Servern, ohne API-Kosten, ohne Abhängigkeit von Google (→ KI Woche Analyse).
🎯 Was das für die Praxis bedeutet
1. Gemma 4 mit MTP testen: Wer Gemma 4 bereits einsetzt, kann die MTP-Drafter aktivieren und sofort von bis zu 3x Speedup profitieren — bei identischer Ausgabequalität.
2. Inferenzkosten senken: Dreimal schnellere Inferenz bedeutet dreimal weniger GPU-Stunden pro Anfrage. Für Unternehmen mit hohem Anfragevolumen ist das ein direkter Kostenhebel.
3. Open-Source-Modelle ernst nehmen: Gemma 4 mit MTP schließt die Geschwindigkeitslücke zu proprietären APIs weiter. Für Anwendungen mit Datenschutzanforderungen wird Self-Hosting attraktiver.