Ärzte wissen es seit Jahrzehnten: Das klinische Interview - also das gezielte, strukturierte Gespräch zwischen Arzt und Patient - ist das wichtigste Werkzeug der Diagnose. Nicht die Blutabnahme, nicht das Röntgenbild. Das Gespräch.
Was passiert, wenn man dieses Prinzip konsequent auf Künstliche Intelligenz überträgt? Genau das hat ein Forscherteam von Google DeepMind jetzt in der bislang größten randomisierten Studie zur KI-gestützten Symptomerhebung getestet - und die Ergebnisse sind bemerkenswert.
SymptomAI: Fünf KI-Strategien im Blindvergleich mit Ärzten
Die Studie heißt SymptomAI und wurde über die Fitbit-App durchgeführt. 13.917 Nutzer wurden zufällig einer von fünf verschiedenen KI-Agenten-Strategien zugeordnet. Jede Strategie ging unterschiedlich mit der Befragung um: Manche ließen die Nutzer selbst berichten (ähnlich wie bei ChatGPT oder Gemini heute), andere führten ein gezieltes, strukturiertes Symptominterview - wie ein guter Hausarzt.
Das Ergebnis: Die KI-Diagnosen waren 2,47-mal wahrscheinlicher korrekt als die Diagnosen von unabhängigen Ärzten, die exakt denselben Gesprächsverlauf vorgelegt bekamen. Und zwar in einem verblindeten, randomisierten Vergleich - dem Goldstandard klinischer Studien (Odds Ratio = 2,47, p < 0,001).
Strukturiertes Interview schlägt freies Gespräch
Besonders aufschlussreich ist der Unterschied zwischen den fünf Strategien. KI-Agenten, die ein dediziertes Symptominterview führten - also aktiv nachfragten, Symptome systematisch abklopften und erst danach eine Diagnose stellten - waren den nutzergeführten Gesprächen signifikant überlegen (p < 0,001).
Das klingt intuitiv, hat aber weitreichende Konsequenzen: Die meisten kommerziellen KI-Chatbots (ChatGPT, Gemini, Claude) arbeiten heute im „User-guided"-Modus - der Nutzer tippt seine Beschwerden ein, und das Modell antwortet. SymptomAI zeigt, dass dieses Vorgehen bei medizinischen Fragestellungen einem strukturierten Agent-Ansatz klar unterlegen ist.
Über 500.000 Tage Wearable-Daten, knapp 400 Erkrankungen
Neben dem Diagnose-Vergleich nutzten die Forscher die SymptomAI-Diagnosen als Grundlage, um über 500.000 Tage an Wearable-Metriken (Herzfrequenz, Schlaf, Aktivität) über knapp 400 verschiedene Erkrankungen zu analysieren. Dabei zeigten sich starke Zusammenhänge zwischen akuten Infektionen und messbaren physiologischen Veränderungen - bei Influenza war die Wahrscheinlichkeit eines deutlichen Wearable-Signals sogar mehr als siebenfach erhöht.
Das fügt sich nahtlos in Googles jüngst vorgestellten Google Health Coach ein , der ebenfalls auf die Kombination aus Wearable-Daten und KI-gestützter Gesundheitsberatung setzt. SymptomAI liefert nun die wissenschaftliche Basis dafür, dass dieser Ansatz tatsächlich funktioniert.
Was Google DeepMind hier anders macht
Während viele Gesundheits-KI-Studien mit künstlichen Fallbeispielen arbeiten, setzt SymptomAI auf reale Alltagssymptome echter Nutzer. Das ist ein entscheidender Unterschied: In der Praxis berichten Patienten fragmentarisch, ungenau und oft emotional - ganz anders als in den sauber formulierten Vignetten medizinischer Lehrbücher. Dass die KI auch unter diesen Bedingungen besser abschnitt, macht die Studie besonders glaubwürdig.
Eine zusätzliche Validierung mit 1.509 Gesprächen aus einem repräsentativen US-Bevölkerungspanel bestätigte zudem, dass die Ergebnisse nicht nur für technikaffine Fitbit-Nutzer gelten, sondern auf die Allgemeinbevölkerung übertragbar sind.
Die Arbeit knüpft an Googles früheren AI Co-Clinician an , der KI als gleichwertiges Mitglied im Behandlungsteam positioniert. SymptomAI verlagert diesen Ansatz nun auf die Ersterhebung - den Moment, in dem ein Patient erstmals seine Beschwerden schildert.
🎯 Was das für die Praxis bedeutet
1. Strukturierte KI-Befragung testen: Wer KI für Gesundheitsanwendungen einsetzt, sollte kein offenes Chatformat verwenden, sondern einen strukturierten Interviewagenten, der aktiv nachfragt.
2. Wearable-Daten ernst nehmen: Die Kombination aus Gesprächsdaten und physiologischen Wearable-Metriken liefert ein deutlich vollständigeres Bild als jede Komponente allein.
3. Kommerziellen LLMs nicht blind vertrauen: ChatGPT, Gemini und Claude im Standard-Chatmodus sind für medizinische Symptomerhebung nachweislich schlechter als spezialisierte Agenten-Ansätze.
4. Peer-Review abwarten: Die Studie ist als Preprint veröffentlicht und hat noch kein abgeschlossenes Peer-Review durchlaufen. Die Ergebnisse sind vielversprechend, aber die Bewertungsgrundlage basiert teilweise auf Selbstberichten der Teilnehmer.