Modelle & Agenten

Gemma 4 wird 3x schneller — ohne Qualitätsverlust

Google veröffentlicht Multi-Token Prediction Drafter für seine Open-Source-Modellfamilie. Speculative Decoding beschleunigt die Inferenz radikal.

Kai · 06. Mai 2026 · 2 Min. Lesezeit

Googles Open-Source-Modellfamilie Gemma 4 hat in wenigen Wochen über 60 Millionen Downloads erreicht. Jetzt legt Google nach: Multi-Token Prediction (MTP) Drafter machen die Modelle bis zu dreimal schneller - ohne Qualitätsverlust.

Wie es funktioniert

Standard-Sprachmodelle erzeugen Text Token für Token - ein Wort nach dem anderen. Das ist langsam, weil der Prozessor bei jedem einzelnen Token Milliarden von Parametern aus dem Speicher laden muss. Die meiste Rechenzeit geht dabei nicht für das eigentliche Denken drauf, sondern für das Herumschieben von Daten.

Speculative Decoding löst dieses Problem mit einem Trick: Ein kleines, schnelles Hilfsmodell (der „Drafter") rät mehrere kommende Tokens auf einmal voraus. Das große Hauptmodell - etwa Gemma 4 mit 31 Milliarden Parametern - prüft dann alle Vorschläge gleichzeitig in einem einzigen Durchlauf. Stimmen die Vorschläge, werden sie akzeptiert und ein weiteres Token wird gratis mitgeliefert.

Das Ergebnis: Die gleiche Qualität wie ohne MTP, aber in einem Drittel der Zeit.

Warum das für Entwickler wichtig ist

Inferenz-Geschwindigkeit ist oft der Flaschenhals, der darüber entscheidet, ob eine KI-Anwendung produktionsreif ist oder nicht. Drei zentrale Anwendungsfälle profitieren besonders:

Coding-Assistenten: Schnellere Code-Vorschläge in Echtzeit
Autonome Agenten: Agenten, die in Sekunden statt Minuten planen
Mobile Apps: Inferenz direkt auf dem Gerät, ohne Cloud-Latenz

Da es sich um Open-Source-Modelle handelt, können Entwickler die MTP-Drafter frei einsetzen - auf eigenen Servern, ohne API-Kosten, ohne Abhängigkeit von Google .

🎯 Was das für die Praxis bedeutet

1. Gemma 4 mit MTP testen: Wer Gemma 4 bereits einsetzt, kann die MTP-Drafter aktivieren und sofort von bis zu 3x Speedup profitieren - bei identischer Ausgabequalität.

2. Inferenzkosten senken: Dreimal schnellere Inferenz bedeutet dreimal weniger GPU-Stunden pro Anfrage. Für Unternehmen mit hohem Anfragevolumen ist das ein direkter Kostenhebel.

3. Open-Source-Modelle ernst nehmen: Gemma 4 mit MTP schließt die Geschwindigkeitslücke zu proprietären APIs weiter. Für Anwendungen mit Datenschutzanforderungen wird Self-Hosting attraktiver.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

@googledevs auf X ↗ Google Blog ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Gemma 4 wird 3x schneller — ohne Qualitätsverlust

Wie es funktioniert

Warum das für Entwickler wichtig ist

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Gemma 4 wird 3x schneller — ohne Qualitätsverlust

Wie es funktioniert

Warum das für Entwickler wichtig ist

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Google testet massives "Gemini 3 Flash" Upgrade in der Arena

GPT-5.6 offenbar im Early Access: One-Shot-Demos, 87-Minuten-Sessions und breite Tests

HermesWorld: KI-Agenten als Mitspieler in einem Browser-MMO

Fehler melden

Die KI Woche als App