Jedes heutige Sprachmodell — GPT, Claude, Gemini — basiert auf dem Transformer. Das „T" in ChatGPT steht dafür. Transformers haben eine fundamentale Einschränkung: Je länger der Eingabetext, desto quadratisch mehr Rechenleistung wird benötigt. Doppelt so viel Text bedeutet nicht doppelt, sondern vierfach so viel Rechenaufwand. Das Startup Subquadratic will das jetzt ändern — und liefert Benchmarks, die aufhorchen lassen.

Was SubQ anders macht

Das neue Modell SubQ 1M-Preview ist laut dem Unternehmensblog das erste große Sprachmodell, das auf einer vollständig subquadratischen Architektur aufbaut. Statt quadratisch skaliert der Rechenaufwand nur noch linear mit der Kontextlänge. Bei 12 Millionen Tokens soll die Architektur den Attention-Rechenaufwand um den Faktor 1.000 gegenüber heutigen Frontier-Modellen reduzieren.

Die Benchmarks

Wichtig vorweg: Alle bisher veröffentlichten Benchmarks stammen vom Unternehmen selbst oder von nicht namentlich genannten Dritten. Unabhängige, öffentlich nachprüfbare Tests durch etablierte Forschungseinrichtungen oder die Community existieren zum jetzigen Zeitpunkt nicht. Die folgenden Zahlen sind deshalb mit entsprechender Vorsicht zu lesen:

  • RULER 128K: 95 Prozent Genauigkeit (Claude Opus 4.6: 94,8 Prozent)
  • SWE-Bench Verified: 81,8 Prozent (Claude Opus 4.6: 80,8 Prozent, DeepSeek 4.0 Pro: 80,0 Prozent)
  • Sparse Attention: 52-mal schneller als FlashAttention bei 63 Prozent weniger Compute

Besonders relevant: Auf dem MRCR v2-Benchmark, der testet, wie gut ein Modell Informationen über einen langen Kontext hinweg findet und verknüpft, erreicht das Forschungsmodell 83 Punkte — deutlich vor Claude Opus 4.7 (32,2) und GPT-5.5 (74).

Warum das wichtig ist

Heute arbeiten Entwickler mit aufwendigen Umwegen um die Kontextlängen-Grenzen: RAG-Systeme (retrieval-augmented generation, also suchbasierte Textzulieferung), Chunking-Strategien, Prompt-Optimierung. All das existiert, weil man nicht einfach den gesamten Dokumentenbestand in ein Modell laden kann. SubQ verspricht genau das: ganze Codebasen, komplette Vertragssammlungen oder lange Gesprächsverläufe in einem einzigen Durchlauf verarbeiten.

Das Unternehmen hat 29 Millionen Dollar Seed-Finanzierung eingesammelt, beschäftigt 11 promovierte Forscher von Meta, Google, Oxford und Cambridge und bietet ab sofort API-Zugang, einen Coding-Agenten (SubQ Code) und ein Suchwerkzeug an.

🎯 Was das für die Praxis bedeutet

1. Kontextfenster werden zum Wettbewerbsvorteil: Wer große Datenmengen in einem Durchlauf analysieren kann, spart sich die aufwendige RAG-Pipeline. SubQ zeigt, dass das technisch möglich wird.

2. Seed-Phase beachten: SubQ ist neu und die Benchmarks müssen sich in der Praxis beweisen. Die Zahlen sind vielversprechend, aber das Modell ist noch im Beta-Zugang. Abwarten lohnt sich.

3. Architektur-Innovation beobachten: Wenn subquadratische Modelle halten, was sie versprechen, könnte das den gesamten Inferenz-Markt verändern — mit direkten Auswirkungen auf Kosten und Geschwindigkeit jeder KI-Anwendung.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
@alex_whedon auf X ↗ SubQ Blog ↗ SubQ Homepage ↗
Teilen: