Modelle & Agenten

MedGemma 1.5: Google veröffentlicht multimodales KI-Modell für 3D-Klinikdaten

Das kleine 4B-Modell ermöglicht die native Auswertung von MRT-Volumendaten sowie Gewebeschnitten und läuft abseits gigantischer Cloud-Server.

Kai · 09. Apr. 2026 · 3 Min. Lesezeit

Die Evolution medizinischer KI-Systeme erreicht einen neuen Meilenstein: Mit der Vorstellung von MedGemma 1.5 demonstriert ein neues 4-Milliarden-Parameter-Modell erhebliche Leistungssprünge in der multimodalen Diagnostik. Das Architektur-Update, das auf der kürzlich veröffentlichten Forschungsarbeit basiert, erweitert die Fähigkeiten des Vorgängers deutlich und macht komplexe Krankenhausdaten für die Künstliche Intelligenz nativ zugänglich.

Von Text zu hochdimensionalen 3D-Scans

Die bedeutendste Neuerung von MedGemma 1.5 ist die native Integration hochdimensionaler medizinischer Bilddaten. Während frühere Modelle oft auf zweidimensionale Auswertungen oder reine Textanalysen beschränkt waren, verarbeitet die neue Architektur nun direkt voluminöse CT- und MRT-Scans (3D-Volumen) sowie weitreichende histopathologische Gewebeschnitte (Whole Slide Images). Durch neue Ansätze beim "Slicing" langer 3D-Kontexte erreicht das Modell laut dem technischen Bericht eine absolute Verbesserung der Klassifizierungsgenauigkeit um elf Prozentpunkte bei 3D-MRT-Scans und drei Prozentpunkte bei CT-Aufnahmen.

Noch gravierender fallen die Verbesserungen in der Pathologie aus: Bei der Analyse komplexer Gewebeproben verzeichnet das System einen enormen Effizienz-Wachstum mit einem Plus von 47 Prozent beim sogenannten Macro F1-Score (hier als Preprint abrufbar). Diese enormen Sprünge zeigen, wie schnell kompakte Basis-Modelle auf Spezialdomänen nachtrainiert werden können.

Klinisches Textverständnis und Lokalisierung

Neben der Bildverarbeitung hat das Team auch das Verständnis für klinische Texte wie elektronische Patientenakten (EHR) und komplexe Laborberichte geschärft. Die Benchmark-Ergebnisse weisen hier deutliche Steigerungen aus: Bei Aufgaben zur elektronischen Patientenakte (EHRQA) stieg die Genauigkeit um 22 Prozent, beim medizinischen Fachwissen (MedQA) um fünf Prozent. Bemerkenswert ist zudem die präzisere anatomische Lokalisierung auf Röntgenbildern: Die Zielgenauigkeit bei sogenannten Bounding Boxes auf Röntgen-Thorax-Aufnahmen hat sich um 35 Prozent verbessert.

Das Modell wird logisch als frei zugängliche Basis präsentiert (Projektseite), auf der Entwickler eigene, leistungsfähige medizinische Assistenzsysteme aufbauen sollen – ein konsequenter strategischer Zug im Rennen um spezialisierte Open-Weights-Architekturen.

🎯 Was das für die Praxis bedeutet

1. Multimodale Diagnostik auf kompakten Systemen: Die native Auswertung von 3D-Volumendaten durch ein vergleichsweise kleines Modell mit vier Milliarden Parametern ermöglicht künftig lokale KI-Diagnostik abseits riesiger Server-Infrastrukturen.

2. Reduktion administrativer Last: Mit der massiven Verbesserung beim Verständnis elektronischer Patientenakten (EHR) rückt eine flächendeckende, KI-gestützte Auswertung von komplexen Laborberichten in den unmittelbaren Arbeitsalltag.

3. Beschleunigte Eigenentwicklungen: Durch die offene Bereitstellung als Basis-Modell sinkt die Einstiegshürde für Start-ups und Entwickler in Kliniken erheblich, um spezialisierte Werkzeuge passgenau für ihren Bedarf zu bauen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

ArXiv Paper ↗ Samuel Schmidgall auf X ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Markus M. Kirchmair

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

MedGemma 1.5: Google veröffentlicht multimodales KI-Modell für 3D-Klinikdaten

Von Text zu hochdimensionalen 3D-Scans

Klinisches Textverständnis und Lokalisierung

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

MedGemma 1.5: Google veröffentlicht multimodales KI-Modell für 3D-Klinikdaten

Von Text zu hochdimensionalen 3D-Scans

Klinisches Textverständnis und Lokalisierung

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Gemma 4: Googles On-Device Offensive gegen Meta und Qwen

Gemma 4 offline auf dem Smartphone — und Googles Diktat-App macht Cloud-Abos überflüssig

Von Street View in die begehbare Welt mit Genie 3

Fehler melden

Die KI Woche als App