ChatGPT y Nódulos Tiroideos: a la vanguardia en la detección por ultrasonido

por Abr 29, 2024IA & Diagnostico

La ecografía (US) es una herramienta fundamental para la evaluación de nódulos tiroideos, pero el diagnóstico preciso puede resultar desafiante.

Una nueva investigación publicada en la revista Radiology explora el potencial de los modelos de lenguaje grande (LLMs) como herramientas de diagnóstico complementarias, particularmente ChatGPT 4.0, que ha mostrado resultados prometedores en la diferenciación entre nódulos malignos y benignos.

¿Cómo se comparan los LLMs con los radiólogos?

El estudio analizó retrospectivamente 1.161 imágenes de ultrasonido de nódulos tiroideos de 725 pacientes (edad promedio: 42.2 años). Se evaluó el desempeño de tres LLMs diferentes: ChatGPT 3.5 (OpenAI), ChatGPT 4.0 (OpenAI) y Gemini (anteriormente conocido como Bard, Google) en la interpretación de imágenes mediante texto.

Los investigadores compararon el rendimiento de los LLMs con tres enfoques adicionales:

  • Interpretación imagen-texto: Los LLMs analizan la imagen y generan un informe descriptivo.
  • Interacción Humano-LLM: Los radiólogos evalúan las imágenes junto con las descripciones proporcionadas por los LLMs.
  • Red neuronal convolucional (CNN): Un algoritmo de aprendizaje profundo entrenado en una base de datos extensa de imágenes de tiroides.

En cuanto a la concordancia entre los propios LLMs para la interpretación imagen-texto, Gemini demostró un acuerdo del 79%, superando a ChatGPT 4.0 (71%) y ChatGPT 3.5 (49%).

Para la predicción de nódulos malignos y benignos, tanto Gemini como ChatGPT obtuvieron valores similares de AUC (Área Bajo la Curva) en las interpretaciones imagen-texto y en las interacciones Humano-LLM.

Sin embargo, se observaron diferencias en sensibilidad y especificidad.

ChatGPT 4.0: Alta Sensibilidad

En la interpretación imagen-texto, ChatGPT 4.0 alcanzó una tasa de sensibilidad del 95%, superior al 87% de Gemini.

En el modelo de interacción Humano-LLM, el uso de ChatGPT se tradujo en una sensibilidad entre un 7% y un 17% mayor para tres de los cuatro radiólogos (dos residentes y un radiólogo senior) en comparación con Gemini.

Fuerzas y Debilidades de los LLMs

A pesar de la alta sensibilidad de ChatGPT 4.0, Gemini mostró una mayor especificidad (75% vs. 71%), lo que indica una mejor capacidad para identificar correctamente los casos negativos verdaderos.

El estudio subraya la importancia de la experiencia del radiólogo. Un radiólogo senior obtuvo mejores resultados con el modelo Humano-LLM que con la interpretación imagen-texto de Gemini.

Esto resalta la necesidad de la supervisión humana en el proceso de diagnóstico asistido por Inteligencia Artificial (IA).

¿Cómo pueden beneficiar los LLMs a los Radiólogos?

Si bien el modelo CNN logró una mayor precisión general, la sensibilidad similar entre ChatGPT 4.0 y la CNN sugiere que los LLMs podrían ofrecer una ventaja en términos de transparencia diagnóstica.

Esto podría ser particularmente útil para radiólogos con menos experiencia, ayudándoles a mejorar el reconocimiento de patrones y la comprensión del diagnóstico.

Conclusiones Clave

  1. Rendimiento comparable: Los LLMs, particularmente ChatGPT 4.0 y Gemini, integrados con la interpretación imagen-texto, muestran un desempeño comparable a la combinación de radiólogos y LLMs en el diagnóstico de nódulos tiroideos por ultrasonido. Esto sugiere que los LLMs pueden desempeñar un papel importante en la interpretación de imágenes médicas, posiblemente reduciendo la necesidad de evaluaciones conjuntas con radiólogos.

  2. Diferencias en sensibilidad y especificidad: Si bien ChatGPT y Gemini exhibieron valores de AUC similares, se observaron diferencias en sensibilidad y especificidad. La mayor sensibilidad de ChatGPT 4.0 podría hacerlo más efectivo para identificar casos positivos verdaderos. Por otro lado, la mayor especificidad de Gemini indica una mejor capacidad para descartar casos negativos falsos.

  3. Integración de la experiencia del radiólogo con la IA: El estudio destaca la importancia de la experiencia del radiólogo, ya que un radiólogo senior logró mayor precisión diagnóstica con el modelo Humano-LLM. Sin embargo, los LLMs también podrían servir como herramientas de apoyo para mejorar la consistencia diagnóstica de radiólogos menos experimentados.

La investigación presentada pone de manifiesto el potencial de los modelos de lenguaje grande (LLMs), especialmente ChatGPT 4.0, como herramientas complementarias en el diagnóstico de nódulos tiroideos por ultrasonido.

Su desempeño comparable a la combinación de radiólogos y LLMs, su alta sensibilidad y la posibilidad de mejorar la consistencia diagnóstica de radiólogos menos experimentados, abren un camino prometedor para la integración de la Inteligencia Artificial en este campo.

Para conocer más sobre esta investigación recomendamos visitar Radiology

También te puede interesar

0 comentarios