Microsofts Sicherheitsteam hat ein System gebaut, das KI-Modelle nicht einzeln auf Code loslässt, sondern als orchestriertes Ensemble: Mehr als 100 spezialisierte Agenten scannen, debattieren und beweisen Schwachstellen in einer mehrstufigen Pipeline. Das Ergebnis: 16 neue Sicherheitslücken im Windows-Netzwerk-Stack, darunter vier kritische Lücken, die Remote-Code-Ausführung ohne Authentifizierung ermöglichen.
Das System trägt den internen Codenamen MDASH (Multi-Model Agentic Scanning Harness) und wurde vom Autonomous Code Security Team entwickelt - einem Team, dessen Mitglieder zuvor die DARPA AI Cyber Challenge gewonnen und dabei 29,5 Millionen Dollar Preisgeld eingestrichen hatten.
Warum ein Modell allein nicht reicht
Die Pipeline gliedert sich in fünf Stufen: Zuerst wird die Angriffsfläche kartiert (Prepare). Dann scannen spezialisierte Auditor-Agenten verdächtige Code-Pfade (Scan). In der dritten Stufe treten Debatter-Agenten an, die für und gegen die Ausnutzbarkeit jedes Fundes argumentieren (Validate). Danach werden Duplikate zusammengeführt (Dedup). Zuletzt konstruiert das System Exploit-Eingaben und führt sie aus, um den Bug zu beweisen (Prove).
Das Ensemble nutzt verschiedene Modellklassen gezielt: Frontier-Modelle als schwere Analysten, destillierte Modelle als kosteneffiziente Debatter für hohe Durchsätze, und ein zweites, unabhängiges Spitzenmodell als Gegenposition. Wenn sich Auditor und Debatter nicht einig werden, steigt die Glaubwürdigkeit eines Fundes - Meinungsverschiedenheit zwischen Modellen wird zum Signal.
Die Funde im Detail
Zwei der 16 Lücken zeigen, was das System leisten kann und warum Einzelmodell-Ansätze sie verpasst hätten:
- CVE-2026-33827 (tcpip.sys): Ein Use-after-Free im IPv4-Empfangspfad. Der Bug erfordert die Analyse von Objekt-Lebenszeiten über komplexen Kontrollfluss hinweg - ein einzelnes Modell sieht zwei unabhängige Operationen statt einer zeitlichen Abhängigkeit. Erst der Vergleich mit korrekt implementierten Stellen im selben Code macht den Fehler sichtbar.
- CVE-2026-33824 (IKEEXT-Dienst): Ein Double-Free, ausgelöst durch zwei UDP-Pakete - kein Timing-Fenster nötig, kein Race. Der Bug verteilt sich über sechs Quelldateien. IKEEXT läuft als LocalSystem, also mit höchsten Privilegien.
Benchmarks und Rückblick
Auf dem öffentlichen CyberGym-Benchmark (1.507 reale Schwachstellen aus 188 Open-Source-Projekten) erreicht MDASH 88,45 Prozent - Platz eins, rund fünf Punkte vor dem Zweitplatzierten. Rückblickend findet das System 96 Prozent aller bestätigten Sicherheitsvorfälle der letzten fünf Jahre in clfs.sys und 100 Prozent in tcpip.sys.
Microsoft betont: Der dauerhafte Vorteil liegt nicht im einzelnen Modell, sondern im System drumherum. Wenn ein neues Modell erscheint, genügt ein Konfigurationswechsel - die gesamte Pipeline, die Plugins und die Validierungslogik bleiben bestehen.
🎯 Was das für die Praxis bedeutet
1. Patch Tuesday beachten: Die 16 gefundenen Schwachstellen betreffen den Windows-Netzwerk-Stack und sind teils ohne Authentifizierung erreichbar. Systemadministratoren sollten die Mai-Patches sofort einspielen.
2. Ensemble statt Solo-Modell: Wer KI für Code-Audits einsetzt, sollte nicht auf ein einzelnes Modell setzen. Die Ergebnisse zeigen, dass erst die Kombination aus spezialisierten Agenten mit unterschiedlichen Rollen die schweren Bugs findet.
3. Private Preview nutzen: Microsoft öffnet MDASH für externe Kunden. Sicherheitsteams mit großen eigenen Codebasen sollten die Anmeldung zur Preview prüfen.