Das chinesische KI-Labor MiniMax hat mit M3 ein neues Sprachmodell veröffentlicht, das laut eigenen Benchmarks auf dem Niveau von GPT-5.5 und Claude Opus 4.7 spielt. Der Clou: M3 soll als Open-Weight-Modell erscheinen und ist damit das erste offene Modell, das drei Frontier-Fähigkeiten in einem Paket vereint.

Die drei Säulen von M3

1. Coding auf Spitzenniveau. Auf dem SWE-Bench Pro, einem Coding-Benchmark, erreicht M3 laut MiniMax 59 Prozent und liegt damit über GPT-5.5 und Gemini 3.1 Pro. Auf Terminal-Bench 2.1 kommt es auf 66 Prozent, auf SVG-Bench soll es Claude Opus 4.7 übertreffen.

2. Eine Million Token Kontextfenster. Dafür hat MiniMax eine neue Aufmerksamkeits-Architektur entwickelt: MSA (MiniMax Sparse Attention). Statt der üblichen Full Attention, deren Rechenaufwand quadratisch mit der Kontextlänge wächst, filtert MSA die relevanten Key-Value-Blöcke vor. Das Ergebnis: Bei einer Million Token ist der Rechenaufwand pro Token nur ein Zwanzigstel des Vorgängermodells. Das Prefilling (also die Verarbeitung des gesamten Kontexts) soll 9x schneller sein, das Decoding (die Token-Generierung) 15x schneller.

3. Native Multimodalität. M3 versteht Bilder, Videos und kann einen Desktop-Computer bedienen. Auf dem Claw-Eval-Benchmark für autonome Agenten erreicht es laut MiniMax den höchsten Score aller getesteten Modelle.

Die Architektur: MSA im Detail

Die meisten Sprachmodelle nutzen Full Attention - jedes Token "schaut" auf jedes andere Token im Kontext. Das funktioniert bei 8.000 oder 32.000 Token gut, wird aber bei einer Million Token rechnerisch unbezahlbar, weil der Aufwand quadratisch steigt.

MSA umgeht das Problem mit einem "KV outer gather Q"-Ansatz: Die Key-Value-Paare (also das "Gedächtnis" des Modells) werden in Blöcke aufgeteilt. Für jeden Block wird dann geprüft, welche Queries (also aktuelle Anfragen) tatsächlich relevant sind. Jeder Block wird nur einmal gelesen, der Speicherzugriff bleibt zusammenhängend. Laut MiniMax ist das über 4x schneller als die bisherigen Open-Source-Alternativen Flash-Sparse-Attention und Flash-MoBA.

In Ablationsstudien (also kontrollierten Tests, bei denen einzelne Komponenten entfernt werden) habe MSA auf den allermeisten Fähigkeiten die gleiche Qualität wie Full Attention erreicht - bei einem Bruchteil der Rechenkosten.

Community-Reaktionen: Begeistert, aber vorsichtig

Die ersten Reaktionen in der Entwickler-Community fallen positiv aus. Mehrere Nutzer berichten von überzeugenden Ergebnissen beim Programmieren und bei kreativen Aufgaben.

Andere Nutzer testen das Modell systematischer und vergleichen es direkt mit Claude und GPT-5.5. Die Ergebnisse schwanken je nach Aufgabentyp, aber die Grundaussage deckt sich: M3 spielt in der gleichen Liga.

Einordnung: Warum M3 wichtig ist

Die Bedeutung von M3 liegt weniger in den einzelnen Benchmark-Werten als im Gesamtpaket. Bislang boten nur geschlossene Modelle von OpenAI, Google und Anthropic die Kombination aus Spitzen-Coding, Millionen-Token-Kontextfenster und nativer Multimodalität. MiniMax macht diese Kombination jetzt erstmals als Open-Weight-Modell zugänglich.

Das chinesische Unternehmen hatte bereits mit M2.7 und dessen Self-Evolution-Fähigkeit für Aufsehen gesorgt. M3 ist der konsequente nächste Schritt - und eine deutliche Ansage an die bisherigen Platzhirsche.

Die offene Frage bleibt wie immer: Benchmarks sind das eine, die tatsächliche Alltagstauglichkeit das andere. Die Community-Tests in den nächsten Wochen werden zeigen, ob M3 die Versprechen auch in der Praxis hält.

🎯 Was das für die Praxis bedeutet

1. Open-Weight auf Frontier-Niveau: Wer bisher auf geschlossene APIs von OpenAI oder Anthropic angewiesen war, bekommt mit M3 eine selbst hostbare Alternative auf vergleichbarem Niveau. Das kann bei Datenschutz-sensiblen Anwendungen den Unterschied machen.

2. MSA-Architektur beobachten: Die neue Sparse-Attention-Technik könnte auch für andere Modelle relevant werden. Wenn sich bestätigt, dass MSA bei einer Million Token tatsächlich die gleiche Qualität wie Full Attention liefert, dürfte das die gesamte Branche beeinflussen.

3. Chinesische KI-Labore auf Augenhöhe: Nach DeepSeek R1 ist M3 ein weiterer Beleg dafür, dass chinesische Labore bei Foundation Models nicht mehr hinterherhinken, sondern auf Augenhöhe konkurrieren.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
MiniMax Blog ↗ MiniMax M3 Modellseite ↗ @testingcatalog auf X ↗
Teilen: