Während die großen KI-Labore mit immer größeren Einzelmodellen um die Spitze kämpfen, geht ein japanisches Startup einen anderen Weg: Sakana AI aus Tokio hat mit Sakana Fugu ein System vorgestellt, das mehrere KI-Modelle gleichzeitig orchestriert - und damit Benchmark-Ergebnisse auf dem Niveau der besten Einzelmodelle erreicht.

Das Prinzip klingt simpel, ist technisch anspruchsvoll: Fugu ist selbst ein Sprachmodell, das gelernt hat, wann es eine Aufgabe selbst lösen kann - und wann es besser an spezialisierte Modelle delegiert. Der Nutzer sieht davon nichts: Er schickt eine Anfrage an eine einzige API, und Fugu entscheidet intern, welche Modelle in welcher Reihenfolge zusammenarbeiten sollen.

Ein Modell als Dirigent

Sakana AI bietet zwei Varianten an: Fugu für den Alltag mit niedriger Latenz, geeignet für Coding-Tools und Chatbots. Und Fugu Ultra für komplexe, mehrstufige Probleme - etwa in der KI-Forschung, bei Cybersecurity-Analysen oder Patent-Recherchen. Beide sind über eine OpenAI-kompatible API zugänglich.

Die Benchmark-Ergebnisse laut Sakana AI sind bemerkenswert: Fugu Ultra soll laut Herstellerangaben auf Augenhöhe mit Anthropics Fable 5 und Mythos Preview liegen - und das über Coding-, Reasoning- und wissenschaftliche Benchmarks hinweg. Wichtiges Detail: Weder Fable 5 noch Mythos Preview befinden sich im Agenten-Pool von Fugu, da beide nicht öffentlich zugänglich sind. Die Konkurrenz wird also geschlagen, ohne sie direkt einzusetzen.

Geopolitik als Verkaufsargument

Sakana AI macht aus der Not eine Tugend - und argumentiert geopolitisch. Jüngste Exportkontrollen auf Anthropics Fable- und Mythos-Modelle hätten gezeigt, wie schnell der Zugang zu KI-Infrastruktur verschwinden könne. Fugu soll diese Abhängigkeit aufbrechen: Fällt ein Anbieter aus dem Pool, routet das System automatisch um. Das Startup positioniert das als "KI-Souveränität" - ein Argument, das besonders bei Regierungen und regulierten Branchen verfangen dürfte.

Hinter Sakana AI stehen prominente Köpfe: Mitgründer Llion Jones ist Koautor des einflussreichen Papers "Attention is All You Need", das die Transformer-Architektur begründete. David Ha, ebenfalls Mitgründer, leitete zuvor die Forschung bei Stability AI und war davor Research Scientist bei Google Brain. Das wissenschaftliche Fundament von Fugu basiert auf zwei akzeptierten ICLR-2026-Papers (Trinity und Conductor), die sich mit gelernter Modell-Orchestrierung befassen.

Erster Praxistest: schnell, aber nicht perfekt

Erste unabhängige Vergleiche liefern ein differenziertes Bild. Ein Tester stellte Fugu Ultra gegen Claude Opus 4.8 an - mit dem Prompt, ein Crossy-Road-Spiel in einer einzelnen HTML-Datei zu bauen. Die Ergebnisse:

  • Fugu Ultra: rund 89.000 Token verbraucht (circa 7,32 Dollar), 22 Minuten Bearbeitungszeit. Schwächen bei Kameraführung und Steuerung, dafür korrekt steigende Schwierigkeit.
  • Claude Opus 4.8: rund 940.000 Token (circa 37,85 Dollar), 79 Minuten. Bessere Qualität beim Endergebnis, aber doppelt in Retry-Schleifen hängengeblieben und deutlich teurer.

Das Fazit des Testers: Bei Geschwindigkeit und Kosten gewinnt Fugu klar, bei der Ergebnis-Qualität hatte Claude die Nase vorn. Für einen Bruchteil der Kosten und in einem Viertel der Zeit liefert Fugu ein brauchbares Resultat - kein perfektes.

Offene Fragen

Sakana AI hat mit knapp 500 Beta-Testern gearbeitet, bevor das Produkt live ging. Die Benchmark-Zahlen für Fugu stammen vom Hersteller selbst, während die Vergleichswerte der Konkurrenz von deren Anbietern übernommen wurden. Unabhängige, breit angelegte Evaluierungen stehen noch aus. Auch die Preisstruktur und Verfügbarkeit für europäische Nutzer sind noch nicht vollständig kommuniziert.

Der Ansatz ist trotzdem relevant: Statt das nächste Einzelmodell zu trainieren, baut Sakana AI eine Schicht darüber, die existierende Modelle koordiniert. Wenn der Ansatz hält, was die ersten Zahlen versprechen, könnte Orchestrierung als Geschäftsmodell eine echte Alternative zum Wettrüsten um immer größere Modelle werden.

🎯 Was das für die Praxis bedeutet

1. Anbieter-Abhängigkeit reduzieren: Wer auf einen einzigen KI-Provider setzt, riskiert bei Exportkontrollen oder Preisänderungen Ausfälle. Orchestrierungs-Layer wie Fugu oder eigene Multi-Provider-Setups schaffen Redundanz.

2. Kosten-Leistung abwägen: Der Praxistest zeigt: Orchestrierte Systeme können bei einem Bruchteil der Token-Kosten brauchbare Ergebnisse liefern. Für viele Anwendungsfälle reicht "gut genug" - die Perfektion eines teuren Frontier-Modells braucht man nicht immer.

3. API-Kompatibilität nutzen: Fugu spricht die OpenAI-API. Wer heute schon über standardisierte Schnittstellen arbeitet, kann solche Alternativen mit minimalem Migrationsaufwand testen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
Sakana AI Blog ↗ Sakana Fugu Produktseite ↗ @SakanaAILabs auf X ↗ @markksantos auf X ↗
Teilen: