Das chinesische KI-Unternehmen Zhipu AI hat mit der Veröffentlichung seines neuesten Flaggschiff-Code-Modells GLM-5.2 ein deutliches Zeichen im Open-Source-Bereich gesetzt. Unter der liberalen MIT-Lizenz veröffentlicht, zielt das Modell vor allem auf komplexe Programmieraufgaben und autonome Agenten-Workflows ab. Ausgestattet mit einem Kontextfenster von einer Million Token und einer extrem effizienten IndexShare-Architektur, die den Rechenaufwand pro Token drastisch reduziert, zeigt GLM-5.2 in ersten Praxistests eine beeindruckende Leistungsfähigkeit, die etablierte kommerzielle Modelle herausfordert.

Ein zentraler Aspekt ist die extreme Kosteneffizienz des Modells bei komplexen Aufgaben. In einem direkten Vergleich von GMI Cloud auf X, bei dem GLM-5.2 gegen das kommerzielle Claude Opus 4.8 im Finden und Beheben von Softwarefehlern antrat, zeigte sich ein erstaunliches Bild: Claude Opus war zwar in beiden Tests einige Sekunden schneller fertig, doch GLM-5.2 verbrauchte zwischen 17.000 und 38.000 Token weniger. In der Endabrechnung war das quelloffene Modell damit 15- bis 22-mal günstiger als der geschlossene Konkurrent.

Dass das Modell nicht nur kurze Skripte reparieren, sondern auch komplexe Softwareprojekte über viele Stunden hinweg autonom vorantreiben kann, belegt ein Experiment des Entwicklers Cedric Chee auf X. Er gab GLM-5.2 das Ziel, ein zuvor erstelltes einfaches 2D-Spiel in ein isometrisches 2.5D-Spiel im Retro-Stil von Diablo I zu verwandeln. Nach über zehn Stunden autonomer Arbeit der KI und einer Woche intensiven Testens zog Chee ein positives Fazit: Die Fähigkeit zur Langzeit-Ausführung (Long-Horizon Execution) des Modells komme laut Chee dem Niveau von "GPT-5.5 medium" sehr nahe.

Auch in standardisierten Benchmarks setzt sich der Aufwärtstrend fort. Scale AI vermeldete auf X den Einstieg von GLM-5.2 in die SWE Atlas Leaderboards, die speziell für komplexe Software-Engineering-Aufgaben wie Refactoring, das Schreiben von Tests und Codebase-Fragen entwickelt wurden. Hier konnte das Modell die Lücke zu geschlossenen Modellen, die zuvor uneinholbar schienen, fast vollständig schließen.

Zusätzlich übernahm GLM-5.2 die Spitzenposition im PostTrainBench-Benchmark mit einem Score von 34,29 Prozent, wie Rohan Paul auf X berichtete. In diesem anspruchsvollen Test muss ein KI-Agent ein rohes Sprachmodell eigenständig weitertrainieren. Dafür stehen ihm vier kleinere Basismodelle, eine H100-GPU und ein Zeitfenster von zehn Stunden zur Verfügung. Das Modell beweist damit eine beachtliche logische Tiefe bei der Handhabung komplexer Trainings-Pipelines.

Im klassischen Kebab-Prompt-Test zur Generierung einer realistischen Döner-Simulation in HTML/Canvas, der von Chetaslua auf X geteilt wurde, zeigte GLM-5.2 ebenfalls hervorragende Ergebnisse bei Texturen und physikalischen Details, auch wenn es sich hier dem neuen Kimi K2.7 bei der reinen Texturgestaltung knapp geschlagen geben musste.

🎯 Was das für die Praxis bedeutet

1. Open-Source-Modelle werden zur echten Alternative: Für Entwickler und Unternehmen bedeutet die extreme Kosteneffizienz von GLM-5.2, dass spezialisierte Coding-Aufgaben zu einem Bruchteil der Kosten kommerzieller Modelle gelöst werden können.

2. Autonome Software-Entwicklung reift weiter: Langzeit-Experimente zeigen, dass moderne Code-Modelle nicht mehr nur Einzeiler generieren, sondern stundenlange Refactoring- und Migrationsprojekte selbstständig bewältigen.

3. Lokales Training wird machbar: Die Spitzenplatzierung auf dem PostTrainBench-Leaderboard unterstreicht, dass die Erstellung und das Feintuning von Modellen zunehmend durch KI-Agenten automatisiert und demokratisiert wird.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
GMI Cloud auf X ↗ Rohan Paul auf X ↗ Cedric Chee auf X ↗ Scale Labs auf X ↗ Chetaslua auf X ↗
Teilen: