Etched verlässt den Stealth-Modus - und macht die größte Wette der Chipbranche: ein Prozessor, der ausschließlich Transformer-Modelle ausführen kann. Kein CNN, kein LSTM, keine Diffusion. Nur Transformer. Dafür verspricht das Startup eine Inferenz-Leistung, die herkömmliche GPUs um den Faktor zehn übertreffen soll. Die ersten Racks werden diesen Sommer ausgeliefert.
800 Millionen Dollar für eine einzige Architektur
Die Zahlen hinter dem Startup sind für ein Unternehmen im Stealth-Modus bemerkenswert. Etched hat laut eigenen Angaben insgesamt 800 Millionen Dollar an Kapital eingesammelt und Kundenverträge über mehr als eine Milliarde Dollar abgeschlossen - noch bevor die ersten Systeme ausgeliefert werden. Der sogenannte Sohu-Chip basiert auf TSMCs 4nm-Verfahren (N4P) und wurde als ASIC (Application-Specific Integrated Circuit) von Grund auf für eine einzige Aufgabe entworfen: Transformer-Inferenz.
In einem 8-Chip-Server soll Sohu rund 500.000 Tokens pro Sekunde auf Llama 70B erreichen. Zum Vergleich: Aktuelle GPU-basierte Lösungen von NVIDIA schaffen je nach Konfiguration einen Bruchteil davon bei deutlich höherem Stromverbrauch. Frühe Kundentests bestätigen laut Etched State-of-the-Art-Werte bei Durchsatz, Latenz und Energieeffizienz.
Die radikale Wette: Transformer forever
Was Etched von Konkurrenten wie Groq oder Cerebras unterscheidet, ist die Radikalität des Ansatzes. Während Groqs LPU und Cerebras' Wafer-Scale-Engine verschiedene Modellarchitekturen unterstützen, kann Sohu buchstäblich nichts anderes als Transformer ausführen. Die Attention-Mechanismen, Key-Value-Caches und Layer-Normalisierungen sind direkt in die Silizium-Architektur eingebrannt.
Das Kalkül: Wenn Transformer die dominante KI-Architektur bleiben - und dafür spricht derzeit vieles -, dann liefert ein spezialisierter Chip massiv mehr Leistung pro Watt und pro Dollar als ein Allzweck-Prozessor. Wenn sich die Branche hingegen von Transformer-Architekturen verabschiedet, hat Etched einen sehr teuren Briefbeschwerer gebaut.
Vergleich: Etched vs. OpenAIs Jalapeño
Etched ist nicht das einzige Unternehmen, das eigene Inferenz-Chips entwickelt. OpenAI arbeitet mit Broadcom am Jalapeño-Chip auf TSMCs 3nm-Prozess - allerdings exklusiv für den eigenen Bedarf. Etched hingegen verkauft seine Hardware an externe Kunden. Amazon baut Trainium für AWS, Google hat TPUs. Der Trend ist eindeutig: Die Branche vertraut nicht mehr allein auf NVIDIA.
Etcheds Differenzierung liegt im kompromisslosen Fokus. Co-designte Chips, Racks und Software aus einer Hand, flüssigkeitsgekühlt und als komplette "Frontier Inference Cluster" vermarktet. Kein modularer Baukasten, sondern ein integriertes System - optimiert für einen einzigen Zweck.
Das Risiko im Raum
Der offensichtliche Einwand: Was passiert, wenn State Space Models, neue Mamba-Varianten oder völlig andere Architekturen Transformer ablösen? Etcheds Antwort darauf ist pragmatisch: Aktuell laufen GPT-5.6, Claude Sonnet 5, Gemini und praktisch alle kommerziell relevanten Modelle auf Transformer-Architekturen. Solange das so bleibt, hat Sohu einen strukturellen Vorteil gegenüber jedem Allzweck-Chip.
🎯 Was das für die Praxis bedeutet
1. Inferenz-Kosten beobachten: Spezialisierte Chips wie Sohu könnten die Kosten für Transformer-Inferenz drastisch senken. Wer große Modelle im Produktionsbetrieb nutzt, sollte die Preisentwicklung verfolgen.
2. Vendor Lock-in bewerten: Etched-Hardware läuft nur mit Transformer-Modellen. Wer langfristig auf architektonische Flexibilität setzt, sollte das bei der Infrastrukturplanung berücksichtigen.
3. NVIDIA-Abhängigkeit hinterfragen: Mit Etched, Groq, Cerebras, Amazon Trainium und Google TPU gibt es inzwischen fünf ernsthafte Alternativen zu NVIDIA-GPUs für Inferenz-Workloads.
4. Energieeffizienz einrechnen: Der Stromverbrauch von KI-Rechenzentren wird zunehmend zum Kostenfaktor. ASICs wie Sohu versprechen deutlich bessere Leistung pro Watt - ein Argument, das mit steigenden Energiepreisen wichtiger wird.


