¿Pueden los radiólogos detectar las imágenes generadas con GPT-4o?

por Abr 6, 2026IA & Diagnostico, Radiología0 Comentarios

Radiografías sintéticas que ya engañan al ojo experto

La generación de imágenes médicas con inteligencia artificial avanza rápido y plantea un desafío nuevo para la radiología: distinguir lo auténtico de lo sintético. Un estudio publicado en Radiology evaluó qué tan bien pueden los radiólogos detectar radiografías “deepfake” creadas con un modelo multimodal como GPT-4o.

El resultado principal fue incómodo: incluso con formación y experiencia, la detección no es consistente.

El trabajo comparó radiografías reales con radiografías sintéticas generadas por GPT-4o y, en otra fase, por un sistema adicional (RoentGen).

Participaron 17 radiólogos y también se evaluó el desempeño de modelos multimodales (incluidos GPT-4o, GPT-5, Gemini 2.5 Pro y Llama 4 Maverick) para reconocer qué imágenes eran artificiales.

Lo que pasó cuando nadie sabía el objetivo del estudio

En la primera etapa, los radiólogos estaban inicialmente cegados al propósito del experimento. En ese contexto, solo 7 de 17 (41%) advirtieron que había radiografías generadas por IA dentro del conjunto de imágenes.

Para los autores, este punto resume la magnitud del problema: si la sospecha no está “activada”, una parte relevante de los deepfakes pasa sin ser detectada.

La precisión mejora, pero no se vuelve perfecta

Cuando los participantes ya fueron informados de que existían imágenes sintéticas, el desempeño subió, aunque siguió lejos de la certeza. En dos conjuntos separados, la exactitud global de los radiólogos rondó el 70–75% para diferenciar radiografías reales versus sintéticas.

El estudio destaca que, aun con alerta previa, aproximadamente una de cada cinco imágenes generadas escapó al reconocimiento experto.

La IA tampoco reconoce siempre a la IA

Los modelos multimodales evaluados obtuvieron resultados variables. En el conjunto con radiografías creadas por GPT-4o, GPT-4o y GPT-5 lograron precisiones superiores a las de otros modelos probados.

Sin embargo, el rendimiento no se sostuvo igual cuando las imágenes provenían de otro generador: el propio GPT-4o redujo su precisión en ese escenario. El mensaje es claro: no hay un “detector universal” confiable.

Señales visuales que se repitieron en los deepfakes

Al describir qué les “sonaba raro”, los radiólogos reportaron patrones comunes en las imágenes sintéticas. Entre ellos aparecieron huesos demasiado lisos con grosor cortical uniforme, un grano o ruido demasiado homogéneo y texturas de partes blandas sutilmente artificiales.

El propio trabajo remarca que estas pistas no siempre están presentes o no siempre son lo bastante evidentes para sostener una decisión consistente.

Riesgos clínicos y también medicolegales

El artículo enmarca el problema más allá del diagnóstico: el uso malicioso de radiografías sintéticas podría apuntar a fraudes en seguros, litigios o escenarios de fabricación de enfermedad.

Los autores enfatizan que, a medida que la síntesis de imágenes mejore, aumentará la necesidad de salvaguardas técnicas y de entrenamiento específico para reconocer patrones de manipulación.

Integridad de imagen como nueva capa de seguridad

La radiología ya convive con estándares de calidad, control de dosis y trazabilidad. Este trabajo agrega otra capa: la autenticidad del estudio.

El aporte del paper no es ofrecer una receta operativa, sino mostrar que la capacidad humana y la capacidad algorítmica, por sí solas, todavía tienen brechas. En un ecosistema donde las imágenes circulan entre sistemas y actores, el desafío pasa a ser también de infraestructura y verificación. 

Para más detalles puede visitar el artículo en Radiology. 

También te puede interesar

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *