Tomosíntesis y falsos positivos: IA vs. Radiólogos y por qué las coincidencias importan

por Oct 13, 2025IA & Diagnostico, Mamografía

Un hallazgo con matices

La tomosíntesis mamaria digital (DBT, por sus siglas en inglés) avanza en el tamizaje. En paralelo, los algoritmos de inteligencia artificial (IA) prometen asistencia en la lectura.

Un estudio retrospectivo del American Journal of Roentgenology comparó falsos positivos generados por IA sola con falsos positivos derivados de la interpretación de radiólogos.

La conclusión no es binaria: hubo la misma proporción de exámenes falsos positivos, pero con perfiles de marcado muy distintos.

Población y parámetros

Se analizaron 2.977 mujeres que, entre 2013 y 2017, completaron 3.183 exámenes de tomosíntesis en un programa poblacional.

Un sistema comercial (Transpara v1.7.1) evaluó los estudios de forma independiente. Los radiólogos leyeron por su cuenta y luego reexaminaron las imágenes que la IA había señalado.

Se consideró examen falso positivo cuando no hubo diagnóstico de cáncer de mama en el año siguiente.

Misma tasa de exámenes, más señalamientos de la IA

La proporción de exámenes falsos positivos fue similar para IA y radiólogos. Sin embargo, cuando se contaron los hallazgos marcados dentro de esos exámenes, la IA produjo muchos más.

En la práctica, esto se traduce en pantallas con varias marcas por estudio que finalmente no llevan a un diagnóstico de cáncer.

El impacto no es menor: más puntos para revisar implica tiempo adicional y potencial enlentecimiento del flujo.

¿Qué marcó cada uno?

La IA señaló con frecuencia calcificaciones benignas, es decir, hallazgos que rara vez requieren acción. Los radiólogos, en cambio, declararon falsos positivos con mayor peso de masas.

No es un simple desacuerdo: son dos “perfiles” de sospecha diferentes.

Para los equipos de tamizaje, esta desalineación puede significar trabajo redundante si el algoritmo multiplica marcas de bajo valor clínico.

¿Influye la densidad mamaria?

Sí. Los falsos positivos de la IA fueron menos habituales en mujeres con mamas densas. En la lectura humana, los falsos positivos se asociaron más a densidad.

El estudio sugiere que el algoritmo podría separar mejor el solapamiento de tejido denso de lo realmente sospechoso. Es una pista relevante para una de las situaciones más desafiantes del tamizaje.

¿Qué pasa cuando IA y radiólogo coinciden?

La superposición fue limitada: una minoría de exámenes falsos positivos quedó señalada por ambos. Aun así, ese subconjunto “concordante” concentró más biopsias, y una fracción de ellas mostró lesiones de alto riesgo.

Los autores plantean una hipótesis interesante: las coincidencias, aunque escasas, podrían ser un grupo “enriquecido” de anormalidades que merece especial atención.

Carga de lectura y flujo de trabajo

Cuando la IA marca múltiples puntos no accionables en un mismo estudio, la lectura se ralentiza y crece la carga interpretativa.

El riesgo es claro: que la promesa de ayuda se convierta en un aumento de clics sin mejorar la especificidad del recall.

En el artículo, esta tensión aparece ligada a la naturaleza de las marcas de la IA, no a la tasa global de exámenes falsos positivos, que fue similar.

 

Imágenes del American Journal of Roentgenology.

Ejemplos de hallazgos falsos positivos en tomosíntesis mamaria digital (DBT).
Se observan un pliegue cutáneo inflamatorio (A), un pezón no en perfil (B) y un ganglio linfático axilar de apariencia benigna (C) en vistas sintéticas de exámenes DBT correspondientes a diferentes pacientes.

En estos hallazgos señalados únicamente por inteligencia artificial, ninguna de las pacientes presentó diagnóstico de cáncer de mama dentro del año posterior al estudio.

El factor antecedentes

Entre las mujeres clasificadas como falsos positivos por IA hubo, en promedio, más estudios previos y más cambios posquirúrgicos.

Este contexto puede producir señales que el algoritmo interpreta de modo conservador, incrementando marcas poco útiles.

No invalida la herramienta, pero ayuda a entender por qué su “huella” difiere de la lectura humana.

¿Se puede mejorar el alineamiento?

Los autores señalan dos direcciones concretas para futuras versiones: reducir marcados superfluos e incorporar antecedentes de imagen para evaluar estabilidad.

La estabilidad histórica suele desactivar sospechas. Sin esa memoria, la IA puede “reinventar” alertas cada vez.

El estudio no prueba soluciones; abre un mapa de trabajo para que el desarrollo tecnológico dialogue mejor con la práctica.

¿Qué aporta a la conversación del tamizaje?

La cifra de exámenes falsos positivos, por sí sola, no cuenta toda la historia.

Este trabajo muestra que importa qué se marca y cuánto se marca por examen. Si un algoritmo multiplica puntos de bajo valor, puede aumentar la carga sin mejorar el rendimiento.

En cambio, poner foco en las concordancias IA–radiólogo podría ayudar a priorizar lo que realmente merece evaluación adicional.

Una lectura para llevarse

Mismas tasas de exámenes falsos positivos no significan la misma experiencia de lectura. La IA tendió a marcar más y a centrarse en calcificaciones benignas; los radiólogos, en masas.

En mamas densas, la IA se equivocó menos. Cuando ambos coincidieron, aumentaron las biopsias y aparecieron más lesiones de alto riesgo dentro de ese grupo.

Los datos invitan a refinar la herramienta y a diseñar estrategias que aprovechen la intersección, no la suma indiscriminada.

Este artículo se basa en el estudio publicado en American Journal of Roentgenology.

También te puede interesar

0 comentarios