Googles Chips stecken in jedem Gemini-Modell — und seit dem Cloud Next-Event vom 27. April 2026 sind es noch mächtigere: Google stellt die achte Generation seiner eigenen KI-Chips vor, die sogenannten Tensor Processing Units. Diesmal aber nicht einen, sondern zwei spezialisierte Chips: den TPU 8t für das Training riesiger Modelle und den TPU 8i für den schnellen Betrieb von KI-Agenten. Der Zeitpunkt ist kein Zufall — der Start der Agenten-Ära stellt vollkommen neue Anforderungen an Hardware.

Wer KI-Agenten versteht, versteht das Problem: Ein Agent fragt, plant, handelt, lernt — in einem endlosen Kreislauf. Dutzende solcher Agenten, die gleichzeitig miteinander kommunizieren, erzeugen Milliarden winziger Anfragen pro Sekunde. Selbst kleinste Verzögerungen summieren sich dann zu handfesten Engpässen. Google hat deshalb entschieden, Training und sogenannte Inferenz — also den laufenden Betrieb — mit zwei voneinander getrennten Chip-Architekturen zu bedienen.

TPU 8t: Die Trainingsmaschine

Der TPU 8t ist das Schwergewicht unter den zwei neuen Chips. Laut Googles offiziellem Ankündigungsblog liefert er fast das Dreifache der Rechenleistung pro Pod gegenüber der Vorgängergeneration. Konkret bedeutet das:

  • Ein einziger TPU 8t-Supercomputer fasst 9.600 Chips und zwei Petabyte gemeinsamen Arbeitsspeicher — das ermöglicht auch die komplexesten Modelle ohne Aufteilung zu trainieren.
  • Die Rechenkapazität erreicht 121 ExaFlops — eine Zahl, die selbst für Fachleute schwer greifbar ist. Zum Vergleich: Ein ExaFlop entspricht einer Trillion (10¹⁸) Rechenoperationen pro Sekunde.
  • Der Speicherzugriff ist zehnmal schneller als beim Vorgänger, was sicherstellt, dass die Chips nicht auf Daten warten müssen.
  • Über das neue Virgo-Netzwerk lässt sich der TPU 8t auf bis zu eine Million Chips in einem einzigen logischen Cluster skalieren.

Besonders hervorzuheben ist das Ziel von über 97 % „Goodput" — also produktiver, nutzbarer Rechenzeit. Das System erkennt fehlerhafte Verbindungen automatisch und leitet den Datenfluss ohne menschliches Eingreifen um. Bei riesigen Trainingsläufen kann jeder ausgefallene Prozentpunkt Tage an verlorener Rechenzeit bedeuten.

TPU 8i: Der Agenten-Chip

Während der 8t trainiert, kümmert sich der TPU 8i um die blitzschnelle Ausführung von Modellen im laufenden Betrieb. Das Besondere: Er ist für sogenannte „Agent Swarms" optimiert — Schwärme spezialisierter KI-Agenten, die gemeinsam komplexe Aufgaben lösen.

Vier Innovationen stehen im Mittelpunkt:

  • Mehr Arbeitsspeicher auf dem Chip: 288 GB schneller Arbeitsspeicher plus 384 MB direkt auf dem Chip (dreimal mehr als beim Vorgänger) — das Modell muss kaum noch auf externen Speicher warten.
  • Axion-CPU-Hosts: Erstmals laufen beide neuen Chips auf Googles eigenen ARM-basierten Axion-Prozessoren, was die Effizienz des Gesamtsystems verbessert.
  • 19,2 Terabit pro Sekunde Verbindungsbandbreite zwischen Chips, kombiniert mit einer neuen „Boardfly"-Netzwerkarchitektur, die die maximale Netzwerkdistanz um mehr als die Hälfte verringert.
  • Kollektionsbeschleuniger auf dem Chip (CAE) reduziert die interne Latenz um bis zu den Faktor 5.

Das Ergebnis laut Google: 80 % bessere Leistung pro Dollar gegenüber der Vorgängergeneration — oder anders gesagt: Fast doppeltes Kundenvolumen bei gleichen Kosten.

Doppelt so effizient pro Watt

Ein oft unterschätzter Faktor im KI-Rennen ist Strom. Rechenzentrumsbetreiber berichten zunehmend, dass nicht die Chip-Verfügbarkeit, sondern die Stromkapazität das eigentliche Limit darstellt. Beide neuen TPU-Generationen liefern laut Google doppelt so viel Leistung pro Watt wie der bisherige „Ironwood"-Chip (die siebte Generation). Hinzu kommt Flüssigkühlung der vierten Generation, die Leistungsdichten erreicht, die mit Luftkühlung physikalisch nicht möglich wären. Im Fünfjahresvergleich sollen Googles Rechenzentren nun sechsmal mehr Rechenleistung pro Kilowattstunde liefern als 2021.

Teil des AI Hypercomputer-Stacks

Beide Chips werden im Rahmen von Googles AI Hypercomputer angeboten — einem integrierten System aus maßgeschneiderter Hardware, offenem Software-Stack und flexiblen Nutzungsmodellen. Unterstützt werden alle gängigen KI-Frameworks: JAX, PyTorch, SGLang und vLLM. Wer möchte, erhält auch direkten Hardware-Zugang ohne Virtualisierungs-Overhead. Die allgemeine Verfügbarkeit ist für später in 2026 geplant.

🎯 Was das für die Praxis bedeutet

1. Hardware als Engpass verschieben sich: Wer heute KI-Agenten in Unternehmen plant, sollte im Blick behalten, dass die Infrastruktur für Agenten-Schwärme sich grundlegend von klassischer Cloud-Nutzung unterscheidet — niedrige Latenz und hoher Durchsatz sind entscheidend, nicht nur Rohdaten-Bandbreite.

2. Googles Chip-Strategie als Warnsignal für NVIDIA: Mit eigenen Chips für Training und Inferenz macht Google sich in zentralen Bereichen unabhängiger von externen Zulieferern. Wer als Unternehmen eigene KI-Rechenzentren plant, beobachtet diesen Markt besser genau — die Alternativen zu NVIDIA wachsen (→ KI Woche: DeepSeek V4 auf Huawei-Chips).

3. Strom ist das neue Öl der KI: Wer in KI investiert oder KI-Dienste nutzt, sollte die Energieeffizienz von Rechenzentren als strategische Kennzahl betrachten. Ein Faktor von 6x Effizienzsteigerung in fünf Jahren ist bemerkenswert — und dennoch bleibt Strom der limitierende Faktor im globalen KI-Ausbau.

📰 Quellen
Google Blog ↗ Google Cloud Virgo Network ↗
Teilen: