Strategische Einordnung & Newsletter

Die KI Woche #20: KI in großer Studie viel besser als Ärzte - und EU verschiebt KI-Auflagen

Google DeepMinds SymptomAI-Studie übertrifft Ärzte in der bislang größten klinischen Studie. a16z erklärt KI-Jobverluste zur kompletten Fantasie - während in einem Parallel-Universum PayPal, Cloudflare & Co. neue Entlassungswellen einläuten.

Markus · 09. May 2026 · 5 Min. Lesezeit

Diese Woche liefert Google DeepMind den bislang stärksten klinischen Beweis: KI diagnostiziert in einer randomisierten Studie mit fast 14.000 Patienten 2,5-mal besser als Ärzte. Im VC-Universum von Andreessen Horowitz erklärt man KI-Jobverluste zur Fantasie - während die vermeintliche Fantasie mit voller Wucht am US-Arbeitsmarkt einschlägt. Und Anthropics Mythos Preview sprengt die Messgrenze unabhängiger Testorganisationen.

GESUNDHEIT & FORSCHUNG

KI diagnostiziert vielfach besser als Ärzte - in der bislang größten klinischen Studie

Google DeepMinds SymptomAI-Studie ist ein Meilenstein: 13.917 echte Patienten, randomisiert, verblindet - der Goldstandard klinischer Forschung. Das Ergebnis: Die KI-Diagnosen waren 2,47-mal wahrscheinlicher korrekt als die Diagnosen unabhängiger Ärzte, die exakt denselben Gesprächsverlauf vorgelegt bekamen.

Besonders aufschlussreich: KI-Agenten, die ein strukturiertes Symptominterview führten - also aktiv nachfragten statt nur zu antworten - waren den freien Chatformaten von ChatGPT oder Gemini signifikant überlegen. Die Studie wurde über die Fitbit-App durchgeführt und fügt sich nahtlos in Googles neuen Health Coach ein, der Wearable-Daten und KI-Beratung kombiniert. SymptomAI liefert jetzt die wissenschaftliche Basis dafür, dass dieser Ansatz funktioniert.

WIRTSCHAFT & GESELLSCHAFT

Venture Capitalist erklärt Job-Verluste durch KI zur Fantasie

Die legendäre VC-Firma Andreessen Horowitz ließ diese Woche mit einem selbst für ihre Verhältnisse kuriosen Blogpost aufhorchen: KI-Jobverluste seien eine komplette Fantasie. Alles andere: Alarmismus, Doomer, Panik. Die eigene Kommentarsektion hat das anders gesehen - und in der Realität ist das Memo auch noch nicht angekommen:

Für den US-Arbeitsmarkt war die erste Mai-Woche verheerend. PayPal streicht 20 % der Stellen, BILL 30 %, Upwork 24 %, Cloudflare 20 %, Coinbase 14 % und so weiter. Die Begründungen reichen von "Wir werden eine AI native company" über "KI mache kleinere Teams produktiver" bis hin zu "Teams und Rollen für das Zeitalter autonomer KI-Agenten neu denken". Sogar die deutsche Commerzbank, wo 3.000 Angestellte gehen müssen, wird von der Tagesschau so zitiert: Zehn Prozent der Arbeit würden durch KI überflüssig.

Da hat es dann fast schon einen Hauch Satire, wenn man sich ansieht, wie sich das KI-Startup Shipper dafür feiert, dass man den Berufsstand der Spieleentwickler "killt" (sic!) - und dabei offenkundig ausblendet, dass man dann wohl selbst den nächsten Platz in der Nahrungskette einnimmt.

MODELLE & TECHNOLOGIE

Mythos Preview sprengt die Messgrenze - METR braucht schwierigere Tests

Anthropics Claude Mythos Preview ist so leistungsfähig, dass die unabhängige Testorganisation METR an ihre Messgrenze stößt. Der 50-Prozent-Zeithorizont - die maximale Aufgabendauer, bei der das Modell noch in der Hälfte der Fälle erfolgreich ist - liegt bei mindestens 16 Stunden. Das heißt: Mythos kann mit relativ hoher Zuverlässigkeit über einen ganzen Arbeitstag hinweg autonom komplexe Aufgaben verrichten.

METR dokumentiert seit 2019 einen exponentiellen Anstieg dieser Fähigkeiten. Parallel dazu hat die Organisation Anthropics eigene Risikoeinschätzung geprüft - und kritisiert die methodische Qualität: zu kleine Stichproben, problematisches Framing, und vor allem ein blinder Fleck für Risiken unterhalb der Vollautomatisierung.

Was diese Fähigkeiten in der Praxis bedeuten, zeigt ein konkretes Beispiel: Mozilla hat mit Mythos Preview in einem Monat mehr Sicherheitslücken in Firefox geschlossen als in den 15 Monaten zuvor.

ETHIK & RECHT

EU verschiebt KI-Auflagen - und unsichtbare Wasserzeichen werden Standard

Zwei regulatorische Entwicklungen, die zusammenhängen: Die EU verschiebt die härtesten AI-Act-Fristen um 16 Monate auf Dezember 2027. Gleichzeitig verkürzt das Omnibus-VII-Paket den Übergangszeitraum für die Wasserzeichen-Pflicht: Bis Dezember 2026 müssen alle KI-generierten Inhalte maschinenlesbar gekennzeichnet werden.

Die technische Infrastruktur dafür existiert bereits: Jedes Bild von GPT Image 2 und Google Gemini trägt heute schon einen unsichtbaren Fingerabdruck. OpenAI nutzt den offenen C2PA-Standard, Google DeepMinds SynthID brennt das Wasserzeichen direkt in die Pixel - es überlebt Screenshots, Zuschnitte und Kompression. Die meisten Nutzer wissen das nicht.

KURZ NOTIERT

⚡ GPT-5.5 Instant ersetzt die GPT-4-Reihe. OpenAIs neues Standardmodell antwortet kürzer, wärmer und genauer - schneller als der Vorgänger, mit weniger Überfluss im Output.
📎 Claude kommt in Microsoft 365. Anthropic bringt KI-Agenten direkt in Word, Excel, PowerPoint und Outlook - und fordert Copilot auf eigenem Terrain heraus.
🇨🇳 Baidus ERNIE 5.1 senkt Trainingskosten um 94 Prozent. Ein Top-Modell für sechs Prozent der üblichen Kosten - Platz 4 weltweit auf LMArena.
⚖️ Grok 4.3 wird zur smartesten KI für Recht und Finanzen. xAIs Modell erobert Platz 1 bei zwei privaten Vals-AI-Benchmarks und schlägt GPT-5.1 deutlich.
🗣️ Voice Intelligence: GPT-Realtime-2. GPT-5-Klasse Reasoning in Echtzeit. Microsoft integriert GPT-5.5 Instant in M365 Copilot - mit 52 Prozent weniger Halluzinationen.
💭 Claude lernt träumen. Dreaming, Outcomes und Multiagent Orchestration: Anthropic rüstet seine Managed Agents massiv auf.
🔐 KI-Modelle hacken Server und replizieren sich selbst. Palisade Research dokumentiert erstmals Chain Replication - ein KI-Agent, der weitere Agenten startet.
🔍 Google I/O: Gemini wird zum Agenten. Project Mariner navigiert autonom durchs Web, Jules schreibt Code-Patches.
🧠 Neuralinks Chirurgieroboter zielt auf jede Hirnregion. 21 Teilnehmer steuern bereits Roboter-Arme und tippen per Gedanken.
📊 Microsoft Work Trend Index: 67 % des KI-Erfolgs hängen an der Organisation. 20.000 Befragte, Billionen Signale - Kultur und Führung wichtiger als jedes Tool.
🌍 World Labs: 3D-Welten aus Text. Fei-Fei Lis Marble verwandelt Prompts in exportfertige 3D-Szenen mit voller Kamerasteuerung.
🎮 Unity startet Open Beta. Der neue In-Editor-Agent kennt deine Szene, führt Änderungen aus und macht sie auf Knopfdruck rückgängig.

🎯 Was das für die Praxis bedeutet

1. KI in der Medizin ernst nehmen: SymptomAI zeigt, dass strukturierte KI-Befragung der freien Chatbot-Nutzung signifikant überlegen ist. Unternehmen im Gesundheitsbereich sollten agentenbasierte Ansätze evaluieren.

2. Personalstrategie überdenken: Sechs CEOs nennen KI diese Woche als expliziten Grund für Massenentlassungen. Wer die eigene Belegschaft nicht proaktiv auf KI-gestützte Workflows vorbereitet, riskiert denselben Schritt unter Druck.

3. EU-Fristen nutzen: Die Verschiebung der Hochrisiko-Deadline auf Dezember 2027 verschafft Luft - aber die Wasserzeichen-Pflicht bis Dezember 2026 und die KI-Kompetenzpflicht bleiben unverändert.

Die KI Woche #20: KI in großer Studie viel besser als Ärzte - und EU verschiebt KI-Auflagen

GESUNDHEIT & FORSCHUNG

KI diagnostiziert vielfach besser als Ärzte - in der bislang größten klinischen Studie

WIRTSCHAFT & GESELLSCHAFT

Venture Capitalist erklärt Job-Verluste durch KI zur Fantasie

MODELLE & TECHNOLOGIE

Mythos Preview sprengt die Messgrenze - METR braucht schwierigere Tests

ETHIK & RECHT

EU verschiebt KI-Auflagen - und unsichtbare Wasserzeichen werden Standard

KURZ NOTIERT

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

SymptomAI: Google DeepMinds KI diagnostiziert besser als Ärzte — in der bislang größten randomisierten Studie

a16z erklärt KI-Jobverluste zur Fantasie — die eigene Kommentarsektion widerlegt sie

KI-Agenten kommen in der US-Wirtschaft an: Entlassungswelle erreicht neuen Höhepunkt

KI-Startup feiert sich dafür, die Spieleentwickler zu killen - und vergisst dabei nur eine Sache...

METR: Claude Mythos Preview sprengt die Messskala - und Anthropics Risikobericht erntet Kritik

Mozilla härtet Firefox: Security-Boost durch Claude Mythos Preview

EU verschiebt die härtesten KI-Auflagen um 16 Monate - und nennt es Vereinfachung

Jedes KI-Bild trägt einen unsichtbaren Fingerabdruck - und die meisten Nutzer wissen es nicht

GPT-5.5 Instant: OpenAIs ChatGPT antwortet kürzer, wärmer und klüger

Claude for Microsoft 365: Anthropic bringt KI-Agenten in Office — und erobert die Inbox

Baidu ERNIE 5.1: Trainingskosten um 94 Prozent gesenkt - Platz 4 auf LMArena

Grok 4.3 wird zur smartesten KI für Recht und Finanzen

Voice Intelligence: OpenAI bringt GPT-Realtime-2, Microsoft zieht mit GPT-5.5 Instant nach

Claude lernt träumen: Anthropic macht Agenten selbstlernend — und SpaceX liefert die Rechenpower

Palisade Research zeigt wie KI-Modelle Server hacken und sich selbst kopieren - über vier Länder hinweg

Google I/O Preview: Gemini Agent, neues Modell und der Druck durch GPT-Image-2

Neuralinks Chirurgieroboter zielt auf jede Hirnregion — 21 Neuralnauten zeigen, was das bedeutet

Microsoft Work Trend Index 2026: 67 % des KI-Erfolgs hängen an der Organisation

World Labs: Fei-Fei Lis Marble verwandelt Text in exportfertige 3D-Welten

Unity startet Open Beta: KI-Agent versteht dein Projekt

Google Health Coach: Wenn Gemini zum persönlichen Gesundheitsberater wird

Fehler melden

Die KI Woche als App