La IA es tan buena para diagnosticar enfermedades como los humanos

La primera revisión sistemática y metanálisis de este tipo encuentra que la inteligencia artificial (IA) es tan buena para diagnosticar una enfermedad basada en una imagen médica como los profesionales de la salud. Sin embargo, se necesitan más estudios de alta calidad.

La inteligencia artificial y los profesionales de la salud son igualmente efectivos para diagnosticar enfermedades basadas en imágenes médicas, sugiere una nueva investigación.

Un nuevo artículo examina la evidencia existente en un intento por determinar si la IA puede diagnosticar enfermedades con la misma eficacia que los profesionales de la salud.

Según el conocimiento de los autores, es decir, un vasto equipo de investigadores dirigido por el profesor Alastair Denniston de University Hospitals Birmingham NHS Foundation Trust en el Reino Unido, esta es la primera revisión sistemática que compara el desempeño de la IA con los profesionales médicos para todas las enfermedades.

El profesor Denniston y su equipo buscaron en varias bases de datos médicas todos los estudios publicados entre el 1 de enero de 2012 y el 6 de junio de 2019. El equipo publicó los resultados de su análisis en la revista. The Lancet Digital Health.

La IA a la par con los profesionales sanitarios

Los investigadores buscaron estudios que compararan la efectividad diagnóstica de los algoritmos de aprendizaje profundo con la de los profesionales de la salud cuando habían realizado un diagnóstico basado en imágenes médicas.

Examinaron la calidad de los informes en dichos estudios, su valor clínico y el diseño de los estudios.

Además, cuando se trató de evaluar el rendimiento diagnóstico de la IA en comparación con el de los profesionales de la salud, los investigadores observaron dos resultados: especificidad y sensibilidad.

La "sensibilidad" define la probabilidad de que una herramienta de diagnóstico obtenga un resultado positivo en personas que tienen la enfermedad. La especificidad se refiere a la precisión de la prueba de diagnóstico, que complementa la medida de sensibilidad.

El proceso de selección produjo sólo 14 estudios cuya calidad fue lo suficientemente alta como para incluirla en el análisis. El profesor Denniston explica: "Revisamos más de 20.500 artículos, pero menos del 1% de estos eran lo suficientemente sólidos en su diseño e informaban que los revisores independientes tenían una gran confianza en sus afirmaciones".

"Es más, solo 25 estudios validaron los modelos de IA externamente (usando imágenes médicas de una población diferente), y solo 14 estudios compararon el desempeño de la IA y los profesionales de la salud usando la misma muestra de prueba".

“Dentro de ese puñado de estudios de alta calidad, descubrimos que el aprendizaje profundo podría detectar enfermedades que van desde cánceres hasta enfermedades oculares con la misma precisión que los profesionales de la salud. Pero es importante tener en cuenta que la IA no superó sustancialmente el diagnóstico humano ".

Prof. Alastair Denniston

Más específicamente, el análisis encontró que la IA puede diagnosticar correctamente la enfermedad en el 87% de los casos, mientras que la detección por parte de los profesionales de la salud arrojó una tasa de precisión del 86%. La especificidad de los algoritmos de aprendizaje profundo fue del 93%, en comparación con el 91% de los humanos.

Los sesgos pueden exagerar el rendimiento de la IA

El profesor Denniston y sus colegas también llaman la atención sobre varias limitaciones que encontraron en los estudios que examinan el rendimiento diagnóstico de la IA.

En primer lugar, la mayoría de los estudios examinan la precisión diagnóstica de la IA y de los profesionales sanitarios en un entorno aislado que no imita la práctica clínica habitual, por ejemplo, privando a los médicos de la información clínica adicional que normalmente necesitarían para realizar un diagnóstico.

En segundo lugar, dicen los investigadores, la mayoría de los estudios solo compararon conjuntos de datos, mientras que la investigación de alta calidad en el rendimiento diagnóstico requeriría hacer tales comparaciones en personas.

Además, todos los estudios sufrieron informes deficientes, dicen los autores, y el análisis no tuvo en cuenta la información que faltaba en dichos conjuntos de datos. “La mayoría [de los estudios] no informaron si faltaban datos, qué proporción representaba y cómo se trataron los datos faltantes en el análisis”, escriben los autores.

Las limitaciones adicionales incluyen terminología inconsistente, no establecer claramente un umbral para el análisis de sensibilidad y especificidad, y la falta de validación fuera de la muestra.

"Existe una tensión inherente entre el deseo de utilizar nuevos diagnósticos que puedan salvar vidas y el imperativo de desarrollar evidencia de alta calidad de una manera que pueda beneficiar a los pacientes y los sistemas de salud en la práctica clínica", comenta el primer autor, el Dr. Xiaoxuan Liu del Universidad de Birmingham.

“Una lección clave de nuestro trabajo es que en la IA, como en cualquier otra parte de la atención médica, un buen diseño de estudios es importante. Sin él, puede introducir fácilmente sesgos que sesguen sus resultados. Estos sesgos pueden dar lugar a afirmaciones exageradas de buen rendimiento de las herramientas de inteligencia artificial que no se traducen en el mundo real ".

Dr. Xiaoxuan Liu

"La evidencia sobre cómo los algoritmos de IA cambiarán los resultados de los pacientes debe provenir de comparaciones con pruebas de diagnóstico alternativas en ensayos controlados aleatorios", agrega la coautora, la Dra. Livia Faes, del Moorfields Eye Hospital, Londres, Reino Unido.

"Hasta ahora, casi no hay ensayos de este tipo en los que se actúe sobre las decisiones de diagnóstico tomadas por un algoritmo de IA para ver qué sucede con los resultados que realmente importan a los pacientes, como el tratamiento oportuno, el tiempo para el alta hospitalaria o incluso las tasas de supervivencia".

none:  salud de la mujer - ginecología melanoma - cáncer de piel adhd - agregar