KI auf Augenhöhe mit menschlichen Experten bei medizinischen Diagnosen?
10. Oktober 2019KI auf Augenhöhe mit menschlichen Experten bei medizinischen Diagnosen?
London, 10.10.2019
Das Potenzial der künstlichen Intelligenz im Gesundheitswesen hat für Begeisterung gesorgt, und die Befürworter sagen, dass es die Ressourcen entlasten, Zeit für Arzt-Patienten-Interaktionen freigeben und sogar die Entwicklung einer maßgeschneiderten Behandlung unterstützen wird. Letzter Monat verkündete die Regierung £250m der Finanzierung für ein neues NHS Labor für künstliche Intelligenz.
Andererseits haben andere Wissenschaftler kritisiert, dass die neuesten Erkenntnisse auf einer kleinen Anzahl von Studien basieren, weil dieses Feld mit qualitativ schlechter Forschung übersät ist.
Dennoch ist der Einsatz von KI bei der Interpretation medizinischer Bilder ein aufstrebender Bereich, der auf Deep Learning setzt, einer ausgefeilten Form des maschinellen Lernens, bei dem eine Reihe von beschrifteten Bildern in Algorithmen eingespeist werden, die Merkmale in ihnen herausgreifen und lernen, wie man ähnliche Bilder klassifiziert. Dieser Ansatz hat sich bei der Diagnose von Krankheiten vom Krebs bis zum Augenleiden bewährt.
Es bleibt jedoch offen, wie solche Systeme des tiefen Lernens den menschlichen Fähigkeiten entsprechen. Jetzt sagen Forscher, dass sie die erste umfassende Überprüfung der veröffentlichten Studien zu diesem Thema durchgeführt haben, und fanden heraus, dass Menschen und Maschinen auf Augenhöhe sind.
Prof. Alastair Denniston, von der University Hospitals Birmingham NHS Foundation Trust und Co-Autor der Studie, sagte, die Ergebnisse seien ermutigend, aber die Studie sei eine Realitätsprüfung, bei der es darum ging, festzustellen, ob der derzeitige KI – Hype berechtigt sei. Dr. Xiaoxuan Liu, die Hauptautorin der Studie , stimmte zu. „Es gibt eine Menge Schlagzeilen über die KI, die Menschen übertrifft, aber unsere Botschaft ist, dass sie bestenfalls gleichwertig sein kann.
Denniston, Liu und Kollegen berichteten in der Zeitschrift Lancet Digital Health, wie sie sich auf Forschungsarbeiten konzentrierten, die seit 2012 veröffentlicht wurden – ein entscheidendes Jahr für tiefes Lernen.
Eine erste Suche ergab mehr als 20.000 relevante Studien. Allerdings berichteten nur 14 Studien – alle auf der Grundlage von Krankheiten des Menschen – über qualitativ hochwertige Daten, testeten das Deep-Learning-System mit Bildern aus einem separaten Datensatz und demjenigen, mit dem es trainiert wurde, und zeigten die gleichen Bilder den Experten des Menschen.
Das Team bündelte die vielversprechendsten Ergebnisse aus jeder der 14 Studien, um zu zeigen, dass Deep-Learning-Systeme in 87% der Fälle einen Krankheitszustand korrekt erkannten – verglichen mit 86% bei medizinischem Personal – und in 93% der Fälle die Entwarnung richtig gaben, verglichen mit 91% bei Humanexperten. Den Ärzten in diesen Szenarien wurden jedoch keine zusätzlichen Patienteninformationen zur Verfügung gestellt, die sie in der realen Welt hätten und die ihre Diagnose steuern könnten.
Prof. David Spiegelhalter, der Vorsitzende des Winton-Zentrums für Risiko- und Evidenzkommunikation an der University of Cambridge, sagte, das Feld sei von schlechter Forschung überflutet. „Diese ausgezeichnete Bewertung zeigt, dass der massive Hype um die KI in der Medizin die bedauernswerte Qualität fast aller Evaluationsstudien verdeckt“, sagte er. „Deep Learning kann eine starke und beeindruckende Technik sein, aber Ärzte und Kommissare sollten sich die entscheidende Frage stellen: Was bringt es eigentlich der klinischen Praxis?“
Denniston blieb jedoch optimistisch, was das Potenzial von KI im Gesundheitswesen anbelangt, da solche Systeme als Diagnoseinstrument dienen und helfen könnten, den Rückstand von Scans und Bildern zu beheben. Außerdem, so Liu, könnten sie sich an Orten als nützlich erweisen, an denen es an Experten für die Interpretation von Bildern mangelt.
Liu sagte, es wäre wichtig, Systeme des tiefen Lernens in klinischen Studien einzusetzen, um festzustellen, ob sich die Ergebnisse der Patienten im Vergleich zu den derzeitigen Praktiken verbessert haben.
Dr. Raj Jena, ein Onkologe am Addenbrooke’s Krankenhaus in Cambridge, der nicht an der Studie beteiligt war, sagte, dass Deep-Learning-Systeme in Zukunft wichtig sein würden, betonte aber, dass sie robuste, praxisnahe Tests benötigten. Er sagte auch, dass es wichtig sei, zu verstehen, warum solche Systeme manchmal die falsche Bewertung vornehmen.