Un nuevo estudio, publicado en el European Journal of Radiology, analiza la precisión y consistencia de los modelos de lenguaje de gran tamaño (LLMs) como GPT-4, GPT-3.5, Claude y Google Bard en radiología.
La investigación, realizada entre noviembre de 2023 y enero de 2024, evaluó su capacidad para responder preguntas de opción múltiple del examen de diagnóstico en formación del Colegio Americano de Radiología (ACR).
Si bien los resultados son prometedores, también revelan fluctuaciones que plantean desafíos para su confiabilidad en el ámbito específico de la radiología.
Desempeño y precisión de los modelos
Los investigadores compararon la precisión de los LLMs en el transcurso de tres meses y encontraron que GPT-4 obtuvo la mayor tasa de precisión general (78 %), seguido por Google Bard (73 %), Claude (71 %) y GPT-3.5 (63 %). Sin embargo, la precisión de todos los modelos fluctuó con el tiempo:
- GPT-4: Aunque lideró el desempeño, su precisión cayó del 82 % en noviembre de 2023 al 74 % en enero de 2024, una disminución del 8 %.
- GPT-3.5: Experimentó una disminución más pronunciada, del 71 % en noviembre al 58 % en diciembre de 2023.
- Google Bard: Su precisión descendió un 6 %, de 76 % en noviembre a 70 % en diciembre.
- Claude: Aunque comenzó con un desempeño similar al de Google Bard, también mostró fluctuaciones menores.
Estas variaciones resaltan la limitada confiabilidad de los LLMs para conocimientos específicos en radiología.
Temas amplios vs. conocimientos especializados
El estudio también identificó áreas donde los modelos mostraron fortalezas y limitaciones claras:
- Fortalezas: Los LLMs tuvieron un buen desempeño en temas generales, como la progresión de enfermedades y la patogénesis, áreas que requieren una comprensión médica amplia.
- Limitaciones: En cuestiones más específicas, como las puntuaciones BI-RADS utilizadas para describir hallazgos mamográficos, los modelos lucharon por proporcionar respuestas precisas debido a la necesidad de conocimientos más detallados y especializados.
Según el autor principal del estudio, Dr. Mitul Gupta, de la Universidad de Texas en Austin, estos hallazgos sugieren que los LLMs tienen competencia médica general, pero requieren mejoras significativas para desempeñarse de manera confiable en áreas especializadas como la radiología.
Mejoras en la consistencia intra-modelo
A pesar de las fluctuaciones en precisión, los investigadores observaron una disminución en las tasas de discordancia intra-modelo, lo que indica un progreso en la consistencia de las respuestas:
- GPT-4: Redujo su tasa de discordancia del 24 % en noviembre-diciembre de 2023 al 15 % en diciembre-enero de 2024.
- Claude: Mostró una mejora notable, con una reducción del 31 % al 14 % en el mismo período.
- GPT-3.5 y Google Bard: Experimentaron disminuciones más modestas del 4 % y 3 %, respectivamente.
Estos resultados sugieren que los LLMs pueden lograr una mayor consistencia con un desarrollo continuo.
Implicaciones y futuro de los LLMs en radiología
El desempeño de los LLMs en los exámenes de radiología destaca su potencial para complementar el aprendizaje y la práctica clínica en la medicina general.
Sin embargo, las fluctuaciones en precisión y las limitaciones en áreas especializadas subrayan la necesidad de mejoras en su entrenamiento para aplicaciones específicas en radiología.
Además, los avances en la consistencia intra-modelo reflejan un camino prometedor para su integración futura en entornos clínicos, siempre y cuando se realicen ajustes específicos que optimicen su confiabilidad en el tiempo.
Para conocer más sobre esta investigación puede visitar el European Journal of Radiology y acceder al artículo completo.
0 comentarios