Wenn zwei KI-Modelle dieselbe Frage beantworten und sich danach gegenseitig prüfen, entsteht etwas, das kein einzelnes Modell alleine leisten kann: echter intellektueller Widerspruch als Qualitätsmechanismus. Genau das hat Microsoft jetzt in seinen M365 Copilot Researcher eingebaut — und die Benchmark-Zahlen sind bemerkenswert.

Critique: Zwei Modelle, zwei Rollen, ein besseres Ergebnis

Die neue Funktion Critique, die Microsoft-CEO Satya Nadella am 30. März 2026 auf X vorstellte, trennt einen Schritt, den bisherige KI-Recherchesysteme in einer einzigen Hand gelassen haben: Generierung und Bewertung. Laut dem offiziellen Microsoft-Blogbeitrag teilen sich bei Critique zwei Modelle verschiedener Anbieter — darunter Anthropic und OpenAI — die Arbeit auf.

Modell eins übernimmt die Generierungsphase: Es plant den Rechercheauftrag, durchsucht Quellen iterativ und produziert einen Erstentwurf. Modell zwei tritt danach als unabhängiger Gutachter auf und prüft den Entwurf nach einem strukturierten Rubrik-System, bevor der finale Bericht fertiggestellt wird — ähnlich einem akademischen Peer-Review-Prozess.

Die drei Bewertungsdimensionen im Review: Quellenqualität (sind die Quellen verlässlich und domänenangemessen?), Vollständigkeit (beantwortet der Bericht die Anfrage umfassend?) und Evidenzverankerung (ist jede Kernaussage quellenbelegt, mit präziser Zitation?). Critique ist ab sofort die Standardeinstellung im Researcher, sobald „Auto" im Modell-Picker gewählt wird.

DRACO-Benchmark: +7 Punkte gegenüber dem besten Einzelmodell

Microsoft hat Critique auf dem DRACO-Benchmark (Deep Research Accuracy, Completeness, and Objectivity) getestet — einem im Februar 2026 von Perplexity-Forschern und akademischen Partnern veröffentlichten Bewertungsrahmen (Zhong et al., arXiv:2602.11685). Der Benchmark umfasst 100 komplexe Rechercheaufgaben aus 10 Fachbereichen, darunter Medizin, Technologie und Jura — abgeleitet aus anonymisierten realen Nutzungsmustern.

Das Ergebnis: Researcher mit Critique erreicht einen +7,0-Punkte-Vorsprung (Standardfehler ±1,90) gegenüber dem bislang besten System im Benchmark-Paper — Perplexity Deep Research mit dem Claude-Opus-4.6-Modell. Das entspricht einer Verbesserung von +13,88 Prozent. Alle vier Bewertungsachsen zeigen statistisch signifikante Verbesserungen (paired t-test, p < 0,0001): Tiefe und Breite der Analyse (+3,33), Präsentationsqualität (+3,04) und faktische Genauigkeit (+2,58). In 8 von 10 Fachbereichen sind die Verbesserungen signifikant — Ausnahmen sind die Domänen Academic und Needle-in-a-Haystack, die eine hohe Varianz aufweisen.

Council: Wenn zwei Modelle gleichzeitig antworten — und ein drittes urteilt

Neben Critique führt Microsoft eine zweite Funktion ein: Council. Hier laufen ein Anthropic- und ein OpenAI-Modell gleichzeitig — nicht hintereinander — und produzieren je einen vollständigen, eigenständigen Bericht zur selben Anfrage. Ein dediziertes Judge-Modell vergleicht danach beide Ergebnisse und erstellt eine Metaanalyse: Wo stimmen die Modelle überein? Wo interpretieren sie unterschiedlich? Welche einzigartigen Erkenntnisse liefert jeweils ein Modell, die das andere übersieht?

Council ist für Nutzer verfügbar, die im Model Picker des Researchers explizit „Model Council" auswählen. Im Gegensatz zu Critique, das für maximale Qualität auf sequentieller Prüfung setzt, ist Council für Situationen gedacht, in denen verschiedene Perspektiven und Interpretationsunterschiede sichtbar gemacht werden sollen.

Was das systemisch bedeutet: Das Ende der Monokultur

Microsofts Entscheidung, nicht auf ein einziges KI-Modell zu setzen, sondern aktiv mehrere Anbieter in einer Architektur zu kombinieren, ist kein technisches Detail — es ist eine strategische Aussage. Wer Anthropic und OpenAI in denselben Workflow integriert, anstatt auf einen einzigen Anbieter zu vertrauen, sichert sich gegen Modell-spezifische Schwächen ab und kann die Stärken verschiedener Systeme komplementär nutzen.

🎯 Was das für die Praxis bedeutet

1. Critique als Standard nutzen: Für alle komplexen Rechercheaufgaben in M365 Copilot Researcher sollte „Auto" eingestellt bleiben — damit läuft Critique automatisch und liefert die beste verfügbare Qualität.

2. Council für kritische Entscheidungen: Bei strategischen Fragen, bei denen verschiedene Interpretationen relevant sind — z. B. Marktanalysen, rechtliche Einschätzungen, Technologiebewertungen — bietet Council einen klaren Mehrwert durch explizite Meinungsdiversität.

3. Multi-Modell als Qualitätsprinzip verstehen: Das Critique-Prinzip — Generierung und Evaluation trennen — lässt sich auf andere KI-Workflows übertragen: Ein Modell schreibt, ein anderes prüft. Das ist keine Komplexität um ihrer selbst willen, sondern der Weg zu verlässlicheren Ergebnissen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
@satyanadella auf X ↗ Microsoft Tech Community ↗
Teilen: