¿Puede ChatGPT vigilar la deriva de la IA en radiología?

por Ana WagnerAgo 22, 2025IA & Diagnostico, Tomografía

ChatGPT muestra potencial para vigilar el “AI drift” en radiología

La integración de inteligencia artificial en radiología promete transformar la práctica clínica, pero su implementación no termina con el despliegue inicial. Una de las principales preocupaciones es el fenómeno conocido como “AI drift”, la degradación del rendimiento de los algoritmos con el paso del tiempo.

Un estudio reciente publicado en Academic Radiology evaluó el uso de ChatGPT-4 Turbo, alojado en una versión compatible con la HIPAA, como herramienta para monitorizar este riesgo y mejorar la seguridad de los sistemas de detección de hemorragia intracraneal.

¿Qué es el AI drift en medicina?

El término AI drift hace referencia a la pérdida progresiva de precisión de un modelo de inteligencia artificial debido a cambios en los datos de entrada o en el entorno clínico.

Factores como nuevas generaciones de equipos, variaciones demográficas en la población o modificaciones en los protocolos de imagen pueden alterar el rendimiento del sistema.

Detectar estas variaciones de manera temprana resulta esencial para evitar diagnósticos erróneos y garantizar que la IA mantenga su fiabilidad a lo largo del tiempo.

Limitaciones de los métodos tradicionales

Los enfoques convencionales de detección de drift suelen depender de retroalimentación en tiempo real y de la comparación con datos de referencia validados.

Sin embargo, en el ámbito sanitario este proceso no siempre es viable, ya que los datos con “ground truth” (diagnóstico definitivo confirmado por especialistas) pueden tardar semanas o meses en estar disponibles.

Esto genera una brecha peligrosa: el algoritmo puede estar funcionando mal sin que los profesionales lo detecten a tiempo.

ChatGPT como alternativa para el monitoreo

Los investigadores de la Baylor College of Medicine exploraron el uso de grandes modelos de lenguaje (LLM, por sus siglas en inglés) para analizar automáticamente reportes radiológicos y detectar patrones que sugieran un posible drift.

ChatGPT-4 Turbo fue evaluado con informes de tomografía computada (TC) de cráneo sin contraste, generados por el sistema Aidoc para detección de hemorragia intracraneal (ICH, intracranial hemorrhage).

El modelo de lenguaje extrajo información clínica de los reportes y la comparó con un estándar de referencia establecido por radiólogos, con el fin de evaluar concordancia y precisión diagnóstica.

Resultados del estudio multicéntrico

El estudio retrospectivo incluyó 332.809 TC de cráneo realizadas en 37 centros radiológicos de Estados Unidos entre diciembre de 2023 y mayo de 2024. De estas, 13.569 fueron clasificadas como positivas para hemorragia intracraneal por el sistema Aidoc.

ChatGPT-4 Turbo alcanzó una exactitud de 99,5% en la identificación de alteraciones en los informes y mostró un valor predictivo positivo (PPV, positive predictive value) de 1, con un valor predictivo negativo de 0,988.

El área bajo la curva (AUC) fue de 0,996, lo que refleja un rendimiento diagnóstico muy alto al comparar con los informes validados por especialistas.

Por contraste, la concordancia entre la extracción de datos hecha por ChatGPT y los resultados del sistema Aidoc fue del 60%, lo que permitió identificar discrepancias relevantes.

Imágenes de Academic Radiology

(a) Imagen axial de TC de cráneo a nivel del centrum semiovale, que muestra una hiperdensidad puntiforme subcortical en el lóbulo parietal izquierdo. (b) Mapa de calor generado por Aidoc que resalta la probable hemorragia, marcada con puntos rojos de tamaño similar.

Factores asociados a falsos positivos

Los falsos positivos detectados por el sistema Aidoc no fueron aleatorios. Los investigadores observaron que el fabricante del escáner, la presencia de artefactos de imagen, síntomas neurológicos concomitantes, desplazamiento de la línea media (midline shift) y efecto de masa (mass effect) influyeron en los errores.

El análisis multivariado mostró que las tomografías realizadas con equipos Philips (OR: 6,97; p=0,003) y los artefactos de imagen (OR: 3,79; p=0,029) aumentaban significativamente la probabilidad de error.

En cambio, la presencia de desplazamiento de la línea media (OR: 0,08; p=0,021) y de efecto de masa (OR: 0,18; p=0,021) se asociaron con una reducción en las tasas de falsos positivos.

El rol del radiólogo asistido por IA

Cuando se evaluó el desempeño conjunto, los radiólogos asistidos por Aidoc lograron una sensibilidad de 0,936 y una especificidad de 1 en la detección de hemorragia intracraneal.

Estos resultados muestran que la colaboración entre profesionales y algoritmos sigue siendo el estándar más seguro. Sin embargo, la capacidad de ChatGPT para identificar patrones de error ofrece un nivel adicional de vigilancia.

Implicancias para la práctica clínica

El trabajo resalta un punto crítico: los sistemas de IA en radiología no son estáticos, requieren control constante para mantener su confiabilidad.

La integración de modelos de lenguaje como ChatGPT podría convertirse en una solución escalable y costo-efectiva, ya que permite revisar grandes volúmenes de reportes sin añadir carga laboral directa a los profesionales.

Aunque se necesitan estudios longitudinales que confirmen su desempeño en diferentes escenarios clínicos y poblacionales, los hallazgos sugieren que los LLM pueden desempeñar un papel estratégico en la supervisión post-implementación de la IA.

Hacia una radiología con IA más confiable

La investigación publicada en Academic Radiology demuestra que el monitoreo automatizado con ChatGPT es técnicamente posible y clínicamente útil. A medida que la inteligencia artificial se afianza en la práctica médica, garantizar su fiabilidad en el tiempo será tan importante como el diseño inicial del algoritmo.

El uso de modelos de lenguaje como herramientas de control ofrece una vía prometedora para mantener la calidad diagnóstica, anticipar fallos y fortalecer la confianza de pacientes y profesionales en la radiología impulsada por IA.

Para más información puede visitar Academic Radiology y acceder al artículo completo.

← Anterior: IA en ecografía predice parto y riesgo de prematuridad Siguiente: IA y TC de baja dosis: oportunidades en la predicción del cáncer de pulmón →

¿Puede ChatGPT vigilar la deriva de la IA en radiología?

ChatGPT muestra potencial para vigilar el “AI drift” en radiología

¿Qué es el AI drift en medicina?

Limitaciones de los métodos tradicionales

ChatGPT como alternativa para el monitoreo

Resultados del estudio multicéntrico

Imágenes de Academic Radiology

Factores asociados a falsos positivos

El rol del radiólogo asistido por IA

Implicancias para la práctica clínica

Hacia una radiología con IA más confiable

Me gusta esto:

También te puede interesar

Ambient intelligence, documentación clínica y el uso de los AI scribes

¿Qué piensan los pacientes sobre el uso de IA en Radiología?

AI scribes en la historia clínica: ¿cuánto tiempo realmente ahorran?

0 comentarios