Was wäre, wenn ein Modell mit 35 Milliarden Parametern die gleiche Leistung erreicht wie eines mit einer Billion — ohne dass man es größer macht? Das Shanghai AI Laboratory hat mit Agents-A1 genau das demonstriert. Das am 29. Juni 2026 auf arXiv veröffentlichte Paper „Scaling the Horizon, Not the Parameters" stellt einen grundlegend neuen Skalierungsansatz vor: Statt mehr Parameter zu stapeln, verlängert man den Agent Horizon — die Reasoning-Trajektorie, über die ein Modell bei einer Aufgabe nachdenkt und handelt.

Das Paradigma: Weiter denken statt größer bauen

Die KI-Branche hat sich jahrelang auf Parameterzahlen fixiert: größere Modelle, mehr Rechenleistung, höhere Trainingskosten. Agents-A1 bricht mit dieser Logik. Die Kernidee: Ein 35-Milliarden-Parameter-MoE-Modell (Mixture of Experts) kann mit deutlich größeren Modellen mithalten, wenn es über längere Zeiträume eigenständig denken, planen und handeln darf. Die durchschnittliche Trajektorienlänge beträgt 45.000 Token — ein Vielfaches dessen, was klassische Benchmarks typischerweise abfragen.

Dahinter steht die Knowledge-Action Infrastructure, ein Framework, das Wissensabruf und Handlungsfähigkeit in einer einzigen Architektur vereint. Der Agent recherchiert, formuliert Hypothesen, testet sie, korrigiert sich und iteriert — alles innerhalb einer einzigen, langen Reasoning-Kette. Das erinnert konzeptionell an Sakana Fugus Multi-Agenten-Orchestrierung, nur dass Agents-A1 alles in einem einzigen Modell vereint.

Drei Stufen zum Generalisten

Das Training folgt einer dreistufigen Pipeline, die sechs Fachdomänen in ein Modell integriert:

  • Stufe 1 — Full-Domain SFT: Supervised Fine-Tuning über alle sechs Domänen hinweg, um eine breite Grundkompetenz aufzubauen.
  • Stufe 2 — Domain Teacher Models: Für jede Domäne wird ein spezialisiertes Lehrermodell trainiert, das tiefes Expertenwissen in seinem Fachgebiet entwickelt.
  • Stufe 3 — Multi-Teacher Domain-Routed On-Policy Distillation: Die Expertise aller Lehrermodelle wird in das 35B-Basismodell destilliert. Ein Routing-Mechanismus entscheidet, welcher Lehrer für welche Aufgabe zuständig ist — und das Schülermodell lernt on-policy, also aus seinen eigenen Erfahrungen.

Das Ergebnis: Ein einziges kompaktes Modell, das in sechs verschiedenen Domänen auf Expertenniveau arbeitet, ohne domänenspezifische Modelle wechseln zu müssen.

Die Benchmark-Ergebnisse: David gegen Goliath

Agents-A1 tritt gegen Modelle an, die bis zu 30-mal mehr Parameter haben — und gewinnt in mehreren Benchmarks:

  • SEAL-0: 56,4 — übertrifft Kimi-K2.6 und DeepSeek-V4-pro
  • IFBench: 80,6 — deutlich vor den Billionen-Parameter-Modellen
  • HiPhO: 46,4 — neuer Bestwert
  • FrontierScience-Olympiad: 79,0 — signifikanter Vorsprung
  • MolBench-Bind: 56,8 — überlegen in molekularem Reasoning

Auch in Benchmarks, in denen die größeren Modelle stark sind, bleibt Agents-A1 kompetitiv: SciCode (44,3), HLE (47,6) und BrowseComp (75,5) zeigen, dass das Modell keine Nischenlösung ist, sondern breit einsetzbar.

Warum das wichtig ist

Das Paper liefert experimentelle Evidenz für eine These, die in der Forschung seit Monaten diskutiert wird: Inference-Time Compute — also mehr Rechenzeit beim Nachdenken statt beim Trainieren — könnte der effizientere Skalierungspfad sein. Wenn ein 35B-Modell mit ausreichend langem Horizont die Leistung von 1T-Modellen erreicht, hat das massive Implikationen für Kosten, Energieverbrauch und Zugänglichkeit von KI.

🎯 Was das für die Praxis bedeutet

1. Kosteneffizienz neu gedacht: Ein 35B-Modell braucht einen Bruchteil der Hardware eines Billionen-Parameter-Modells. Für Unternehmen, die KI-Infrastruktur planen, verschiebt sich die Kosten-Nutzen-Rechnung: Längere Inferenz auf kleinerem Modell kann günstiger sein als kurze Inferenz auf einem Riesen.

2. Agentic AI als Architekturentscheidung: Die Knowledge-Action Infrastructure zeigt, dass agentisches Arbeiten — also autonomes Recherchieren, Planen und Handeln — kein Plugin ist, sondern eine fundamentale Designentscheidung. Wer KI-Systeme baut, sollte den Agent Horizon als Skalierungsachse mitdenken.

3. Multi-Teacher Distillation als Blaupause: Die dreistufige Trainingspipeline ist reproduzierbar. Organisationen mit domänenspezifischem Know-how könnten eigene Lehrermodelle trainieren und deren Wissen in ein kompaktes Deployment-Modell destillieren — ein praktikabler Weg zu spezialisierten, aber effizienten KI-Systemen.

4. Open Weights unter Apache 2.0: Anders als bei vielen Frontier-Modellen hat Shanghai AI Lab die Modellgewichte auf HuggingFace und GitHub unter Apache-2.0-Lizenz veröffentlicht. Für die Community ist das ein seltener Volltreffer: ein reproduzierbarer, leistungsstarker Agent zum Selbst-Deployen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
arXiv Paper ↗ @ivanfioravanti auf X ↗
Teilen: