Hardware & Robotik

Etched liefert den Sohu-Chip: Ein ASIC nur für Transformer-Inferenz

Der Spezialprozessor auf TSMCs 4nm-Verfahren soll 500.000 Tokens pro Sekunde schaffen und wird ab Sommer 2026 ausgeliefert. Bewertung: 5 Milliarden Dollar.

Kai · 30. Juni 2026 · 3 Min. Lesezeit

Etched verlässt den Stealth-Modus - und macht die größte Wette der Chipbranche: ein Prozessor, der ausschließlich Transformer-Modelle ausführen kann. Kein CNN, kein LSTM, keine Diffusion. Nur Transformer. Dafür verspricht das Startup eine Inferenz-Leistung, die herkömmliche GPUs um den Faktor zehn übertreffen soll. Die ersten Racks werden diesen Sommer ausgeliefert.

800 Millionen Dollar für eine einzige Architektur

Die Zahlen hinter dem Startup sind für ein Unternehmen im Stealth-Modus bemerkenswert. Etched hat laut eigenen Angaben insgesamt 800 Millionen Dollar an Kapital eingesammelt und Kundenverträge über mehr als eine Milliarde Dollar abgeschlossen - noch bevor die ersten Systeme ausgeliefert werden. Der sogenannte Sohu-Chip basiert auf TSMCs 4nm-Verfahren (N4P) und wurde als ASIC (Application-Specific Integrated Circuit) von Grund auf für eine einzige Aufgabe entworfen: Transformer-Inferenz.

In einem 8-Chip-Server soll Sohu rund 500.000 Tokens pro Sekunde auf Llama 70B erreichen. Zum Vergleich: Aktuelle GPU-basierte Lösungen von NVIDIA schaffen je nach Konfiguration einen Bruchteil davon bei deutlich höherem Stromverbrauch. Frühe Kundentests bestätigen laut Etched State-of-the-Art-Werte bei Durchsatz, Latenz und Energieeffizienz.

Die radikale Wette: Transformer forever

Was Etched von Konkurrenten wie Groq oder Cerebras unterscheidet, ist die Radikalität des Ansatzes. Während Groqs LPU und Cerebras' Wafer-Scale-Engine verschiedene Modellarchitekturen unterstützen, kann Sohu buchstäblich nichts anderes als Transformer ausführen. Die Attention-Mechanismen, Key-Value-Caches und Layer-Normalisierungen sind direkt in die Silizium-Architektur eingebrannt.

Das Kalkül: Wenn Transformer die dominante KI-Architektur bleiben - und dafür spricht derzeit vieles -, dann liefert ein spezialisierter Chip massiv mehr Leistung pro Watt und pro Dollar als ein Allzweck-Prozessor. Wenn sich die Branche hingegen von Transformer-Architekturen verabschiedet, hat Etched einen sehr teuren Briefbeschwerer gebaut.

Vergleich: Etched vs. OpenAIs Jalapeño

Etched ist nicht das einzige Unternehmen, das eigene Inferenz-Chips entwickelt. OpenAI arbeitet mit Broadcom am Jalapeño-Chip auf TSMCs 3nm-Prozess - allerdings exklusiv für den eigenen Bedarf. Etched hingegen verkauft seine Hardware an externe Kunden. Amazon baut Trainium für AWS, Google hat TPUs. Der Trend ist eindeutig: Die Branche vertraut nicht mehr allein auf NVIDIA.

Etcheds Differenzierung liegt im kompromisslosen Fokus. Co-designte Chips, Racks und Software aus einer Hand, flüssigkeitsgekühlt und als komplette "Frontier Inference Cluster" vermarktet. Kein modularer Baukasten, sondern ein integriertes System - optimiert für einen einzigen Zweck.

Das Risiko im Raum

Der offensichtliche Einwand: Was passiert, wenn State Space Models, neue Mamba-Varianten oder völlig andere Architekturen Transformer ablösen? Etcheds Antwort darauf ist pragmatisch: Aktuell laufen GPT-5.6, Claude Sonnet 5, Gemini und praktisch alle kommerziell relevanten Modelle auf Transformer-Architekturen. Solange das so bleibt, hat Sohu einen strukturellen Vorteil gegenüber jedem Allzweck-Chip.

🎯 Was das für die Praxis bedeutet

1. Inferenz-Kosten beobachten: Spezialisierte Chips wie Sohu könnten die Kosten für Transformer-Inferenz drastisch senken. Wer große Modelle im Produktionsbetrieb nutzt, sollte die Preisentwicklung verfolgen.

2. Vendor Lock-in bewerten: Etched-Hardware läuft nur mit Transformer-Modellen. Wer langfristig auf architektonische Flexibilität setzt, sollte das bei der Infrastrukturplanung berücksichtigen.

3. NVIDIA-Abhängigkeit hinterfragen: Mit Etched, Groq, Cerebras, Amazon Trainium und Google TPU gibt es inzwischen fünf ernsthafte Alternativen zu NVIDIA-GPUs für Inferenz-Workloads.

4. Energieeffizienz einrechnen: Der Stromverbrauch von KI-Rechenzentren wird zunehmend zum Kostenfaktor. ASICs wie Sohu versprechen deutlich bessere Leistung pro Watt - ein Argument, das mit steigenden Energiepreisen wichtiger wird.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

@Etched auf X ↗ Etched Website ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Etched liefert den Sohu-Chip: Ein ASIC nur für Transformer-Inferenz

800 Millionen Dollar für eine einzige Architektur

Die radikale Wette: Transformer forever

Vergleich: Etched vs. OpenAIs Jalapeño

Das Risiko im Raum

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Etched liefert den Sohu-Chip: Ein ASIC nur für Transformer-Inferenz

800 Millionen Dollar für eine einzige Architektur

Die radikale Wette: Transformer forever

Vergleich: Etched vs. OpenAIs Jalapeño

Das Risiko im Raum

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Jalapeño: OpenAIs erster eigener Inferenz-Chip kommt von Broadcom

Wem gehört die KI? Epoch AI zeigt erstmals, wer die Chips der Welt besitzt

Robotik-Roundup Juni 2026: Von Backflips bis Tischtennis - so schnell bewegt sich die Branche

Fehler melden

Die KI Woche als App