Modelle & Technologie

MolmoWeb: Der offene Web-Agent, der nur Screenshots braucht

Mit 8 Milliarden Parametern erreicht MolmoWeb 78 Prozent auf WebVoyager — mit Test-Time Scaling sogar 95 Prozent. Allen AI veröffentlicht Modell, Dataset und Training komplett offen.

Kai · 25. Mar 2026 · 2 Min. Lesezeit

Das Allen Institute for AI (Ai2) hat mit MolmoWeb einen vollständig offenen Web-Agenten vorgestellt, der Browser-Aufgaben über Screenshots erledigt - ohne auf proprietäre Modelle oder undokumentierte Trainingsdaten angewiesen zu sein. In zwei Größen verfügbar (4B und 8B Parameter), schlägt der kompakte Agent deutlich größere Modelle auf mehreren Benchmarks.

Sehen, Entscheiden, Handeln

MolmoWeb arbeitet in einer simplen Schleife: Screenshot ansehen, nächste Aktion bestimmen, ausführen. Der Agent interpretiert die gleiche visuelle Oberfläche, die menschliche Nutzer sehen - keine HTML-Analyse, keine Accessibility Trees, nur Pixel. Unterstützte Aktionen: Navigation, Klicken auf Bildschirmkoordinaten, Texteingabe, Scrollen und Tab-Wechsel.

Auf dem WebVoyager-Benchmark erreicht MolmoWeb (8B) 78,2 % - State of the Art unter Open-Weight-Agenten. Mit Test-Time Scaling (4 parallele Durchläufe) steigt die Erfolgsrate auf 94,7 %. Selbst das 4B-Modell übertrifft auf DeepShop den 7B-Konkurrenten Fara - bei nur 30 statt 100 Schritten.

Das größte offene Web-Agenten-Dataset

Mitveröffentlicht wird MolmoWebMix: Das bislang größte öffentliche Dataset für Web-Agenten. Es enthält 36.000 menschliche Task-Trajektorien über 1.100+ Websites, synthetische Trajektorien aus automatisierten Agenten sowie über 2,2 Millionen Screenshot-QA-Paare aus fast 400 Websites. Alles offen: Gewichte, Trainingsdaten, Code, Evaluierungs-Pipeline.

🎯 Was das für die Praxis bedeutet

1. Self-Hosted Web-Automatisierung: MolmoWeb kann lokal oder in der eigenen Cloud laufen - keine API-Abhängigkeit, keine Datenweitergabe an Dritte. Ideal für regulierte Umgebungen.

2. Open Source schließt die Lücke: Bislang waren leistungsfähige Web-Agenten proprietär. MolmoWeb gibt der Community erstmals eine vollständig reproduzierbare Grundlage.

3. Test-Time Scaling als Hebel: Die Steigerung von 78 % auf 95 % durch parallele Durchläufe zeigt: Mehr Rechenzeit bei der Inferenz kann Modellgröße teilweise ersetzen.

📰 Quellen

Allen AI Blog ↗ MolmoWeb Demo Video ↗

MolmoWeb: Der offene Web-Agent, der nur Screenshots braucht

Sehen, Entscheiden, Handeln

Das größte offene Web-Agenten-Dataset

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Gemini Spark Beta: Googles persönlicher KI-Agent zwischen Komfort und Datenschutz

MDASH: Microsofts 100-Agenten-System findet 16 Windows-Schwachstellen

Helix 02: Figures humanoide Roboter arbeiten jetzt autonome 8-Stunden-Schichten

Fehler melden

Die KI Woche als App