Zhipu AI hat mit GLM-5V-Turbo eine Erweiterung seines Frontier-Modells GLM-5 vorgestellt, die einen ungewöhnlichen Fokus hat: Das Modell soll nicht nur Texte und Code verstehen, sondern auch Bilder, Videos, Designentwürfe und Dokument-Layouts nativ verarbeiten - und daraus direkt funktionierenden Code generieren.

Das Prinzip „Sketch = Code" steht im Zentrum: Ein Foto einer Benutzeroberfläche oder eine Handskizze auf Papier soll genügen, damit GLM-5V-Turbo daraus eine funktionale Frontend-Umsetzung erstellt. Laut der Ankündigung auf X erreicht das Modell auf dem CC-Bench-V2-Frontend-Benchmark eine Build-Success-Rate von 98 Prozent - Claude Opus 4.5 kommt im selben Test auf 93 Prozent.

Benchmarks: Browsen, Agieren, Programmieren

GLM-5V-Turbo positioniert sich nicht als reines Coding-Modell, sondern als Werkzeug für das sogenannte Agentic Engineering - also den Einsatz von KI-Agenten, die eigenständig im Browser navigieren, Werkzeuge aufrufen und mehrstufige Aufgaben lösen. Auf dem BrowseComp-Benchmark erreicht das Modell nach Herstellerangaben einen Score von 75,9 - verglichen mit 67,8 für Claude Opus 4.5 und 59,2 für GPT-4o. Auf dem MCP-Atlas-Benchmark für Tool-Nutzung liegt GLM-5V-Turbo bei 67,8, während der Vorgänger GLM-4.7 nur auf 52,0 kam.

Die Modelle der GLM-5-Familie rangieren in der Größe von 355 Milliarden Parametern (32 Mrd. aktiv) bis 744 Milliarden (40 Mrd. aktiv) und wurden laut Zhipu auf 28,5 Billionen Token vortrainiert. Als Architektur-Innovation hebt das Unternehmen DeepSeek Sparse Attention und eine neue asynchrone Reinforcement-Learning-Infrastruktur namens „Slime" hervor.

Speziell für Claude Code und Claw optimiert

Bemerkenswert ist die explizite Optimierung für zwei Entwicklerumgebungen: Claude Code (Anthropics Terminal-Coding-Agent) und Claw. Zhipu positioniert GLM-5V-Turbo damit als direkten Konkurrenten für multimodale Coding-Aufgaben - in einem Markt, der bisher von Claude und GPT dominiert wird. Auf dem Vending-Bench-2-Benchmark für Kosteneffizienz soll das Modell unter den Open-Source-Modellen führend sein und bei einem Bruchteil der Kosten an die Leistung von Gemini 3 Pro und GPT-5.2 heranreichen.

🎯 Was das für die Praxis bedeutet

1. Sketch-to-Code wird produktionsreif: Wer Prototypen aus Skizzen oder Screenshots erstellen will, hat mit GLM-5V-Turbo ein weiteres leistungsstarkes Werkzeug - besonders interessant für Design-Teams, die schnell iterieren wollen.

2. Open Source holt auf: Die Lücke zwischen Open-Source-Modellen und proprietären Anbietern wie Claude oder GPT schrumpft messbar. Bei Kosteneffizienz liegt Open Source bereits vorn.

3. Multimodale Agenten testen: GLM-5V-Turbo ist eines der ersten Modelle, das Browser-Navigation, Tool-Nutzung und visuelles Verständnis in einem einzigen Modell vereint. Wer KI-Agenten für Geschäftsprozesse evaluiert, sollte es auf die Testliste setzen.

📰 Quellen
@Zai_org auf X ↗ Z.ai Blog ↗
Teilen: