Una fragilidad poco intuitiva en entornos clínicos
Los grandes modelos de lenguajes (LLM) pueden repetir desinformación médica con sorprendente seguridad cuando esa falsedad llega “bien escrita”: con tono clínico, estructura de nota profesional y vocabulario de autoridad.
En otras palabras, el problema no siempre es un bulo grosero, sino una recomendación inventada que parece parte del estándar de cuidado. Para radiología y diagnóstico por imágenes —donde ya se exploran usos como resúmenes, priorización y borradores de informes— este matiz importa: la forma del texto puede pesar tanto como su veracidad.
Cómo se probó la susceptibilidad a la desinformación
El equipo evaluó 20 LLMs con más de 3,4 millones de prompts, todos conteniendo desinformación en salud, extraída de tres fuentes: diálogos de foros/redes, notas reales de alta hospitalaria a las que se les insertó una única recomendación falsa, y viñetas clínicas simuladas validadas por médicos.
Luego midieron dos cosas: si el modelo “compraba” la falsedad (susceptibility) y si detectaba el recurso retórico (fallacy detection).
El “tono de autoridad” como amplificador de errores
El hallazgo más preocupante no es que los LLM fallen alguna vez, sino dónde fallan más. En el conjunto global, alrededor de un tercio de los prompts base fue aceptado como verdadero por los modelos.
Pero cuando la desinformación se presentó como prosa clínica en notas hospitalarias, la tasa de aceptación fue mucho más alta, rozando la mitad. En comparación, la desinformación de redes tuvo una aceptación base claramente menor.
El mensaje para entornos asistenciales es directo: el formato “nota médica” puede funcionar como un acelerador de confianza algorítmica.
Falacias lógicas y encuadre retórico, el giro inesperado
El estudio también probó la misma falsedad “envuelta” en estilos clásicos de falacias lógicas (p. ej., apelación a popularidad, emoción o autoridad, entre otras). Contra lo que muchos esperarían, la mayoría de esos encuadres redujo o no cambió la vulnerabilidad del modelo.
Hubo excepciones relevantes: la apelación a la autoridad y el encuadre tipo pendiente resbaladiza aumentaron la susceptibilidad. Dicho de otro modo, no todo “framing” empeora el resultado; pero algunos recursos retóricos —justamente los más persuasivos— pueden volver al modelo más crédulo.
Por qué esto toca de cerca a radiología
Radiología es uno de los campos que más rápido está integrando IA en el flujo de trabajo, y no solo IA de imagen: también herramientas generativas para texto (triage, priorización, plantillas, resúmenes, comunicación).
Si un LLM toma como “verdadero por defecto” lo que suena clínicamente sólido, el riesgo no es una alucinación aislada: es la propagación de una desinformación plausible a través de borradores, notas y reportes.
En escenarios de alta carga, ese tipo de error puede sobrevivir a múltiples copias y pegados, especialmente si nadie lo “ancla” a evidencia verificable.
Qué tipo de seguridad parece más prometedora
Los autores proponen que mejorar la seguridad depende menos del tamaño del modelo y más de anclaje en hechos (fact-grounding) y guardrails contextuales: mecanismos que obliguen a justificar, citar o declarar incertidumbre cuando el texto no aporta evidencia sólida.
También sugieren usar su marco como una prueba de estrés (“stress test”) para comparar modelos y versiones, midiendo con qué frecuencia transmiten una falsedad y si esa tasa baja en generaciones futuras.
Inmunización del modelo como idea complementaria
En un comentario invitado asociado, se plantea que los LLM podrían necesitar una suerte de “inmunización” frente a la desinformación para reducir conductas desalineadas, especialmente cuando el contenido llega con apariencia legítima.
La discusión suma una capa útil: no alcanza con que el modelo “sepa” medicina; también debe aprender a reconocer cuándo un texto intenta parecer incuestionable sin serlo.
Para más detalles puede visitar este articulo y este otro del The Lancet Digital Health.
0 comentarios