Das Allen Institute for AI (Ai2) hat mit MolmoWeb einen vollständig offenen Web-Agenten vorgestellt, der Browser-Aufgaben über Screenshots erledigt — ohne auf proprietäre Modelle oder undokumentierte Trainingsdaten angewiesen zu sein. In zwei Größen verfügbar (4B und 8B Parameter), schlägt der kompakte Agent deutlich größere Modelle auf mehreren Benchmarks.

Sehen, Entscheiden, Handeln

MolmoWeb arbeitet in einer simplen Schleife: Screenshot ansehen, nächste Aktion bestimmen, ausführen. Der Agent interpretiert die gleiche visuelle Oberfläche, die menschliche Nutzer sehen — keine HTML-Analyse, keine Accessibility Trees, nur Pixel. Unterstützte Aktionen: Navigation, Klicken auf Bildschirmkoordinaten, Texteingabe, Scrollen und Tab-Wechsel.

Auf dem WebVoyager-Benchmark erreicht MolmoWeb (8B) 78,2 % — State of the Art unter Open-Weight-Agenten. Mit Test-Time Scaling (4 parallele Durchläufe) steigt die Erfolgsrate auf 94,7 %. Selbst das 4B-Modell übertrifft auf DeepShop den 7B-Konkurrenten Fara — bei nur 30 statt 100 Schritten.

Das größte offene Web-Agenten-Dataset

Mitveröffentlicht wird MolmoWebMix: Das bislang größte öffentliche Dataset für Web-Agenten. Es enthält 36.000 menschliche Task-Trajektorien über 1.100+ Websites, synthetische Trajektorien aus automatisierten Agenten sowie über 2,2 Millionen Screenshot-QA-Paare aus fast 400 Websites. Alles offen: Gewichte, Trainingsdaten, Code, Evaluierungs-Pipeline.

🎯 Was das für die Praxis bedeutet

1. Self-Hosted Web-Automatisierung: MolmoWeb kann lokal oder in der eigenen Cloud laufen — keine API-Abhängigkeit, keine Datenweitergabe an Dritte. Ideal für regulierte Umgebungen.

2. Open Source schließt die Lücke: Bislang waren leistungsfähige Web-Agenten proprietär. MolmoWeb gibt der Community erstmals eine vollständig reproduzierbare Grundlage.

3. Test-Time Scaling als Hebel: Die Steigerung von 78 % auf 95 % durch parallele Durchläufe zeigt: Mehr Rechenzeit bei der Inferenz kann Modellgröße teilweise ersetzen.

📰 Quellen
Allen AI Blog ↗ MolmoWeb Demo Video ↗
Teilen: