2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.

Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.

academic

Aprendizaje Guiado por Explicaciones Híbridas para Diagnóstico de Radiografías de Tórax Basado en Transformers

Información Básica

ID del Artículo: 2510.12704
Título: Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Autores: Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
Clasificación: cs.CV cs.AI
Fecha de Publicación: 14 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.12704v1

Resumen

Los modelos de aprendizaje profundo basados en Transformers han demostrado capacidades excepcionales de representación de características e interpretabilidad a través de mecanismos de atención en imágenes médicas. Sin embargo, estos modelos son propensos a aprender correlaciones espurias, lo que genera sesgos y capacidad de generalización limitada. Aunque la alineación de atención humano-máquina puede mitigar estos problemas, a menudo depende de supervisión manual costosa. Este trabajo propone el marco de Aprendizaje Guiado por Explicaciones Híbridas (H-EGL), que combina restricciones autosupervisadas y guiadas por humanos para mejorar la alineación de atención y la capacidad de generalización. El componente autosupervisado de H-EGL aprovecha la atención discriminativa de clases sin depender de prioridades restrictivas, promoviendo robustez y flexibilidad. Validado en tareas de clasificación de radiografías de tórax utilizando Vision Transformer (ViT), H-EGL supera dos métodos de aprendizaje guiado por explicaciones de última generación, demostrando precisión de clasificación superior y capacidad de generalización, mientras produce mapas de atención mejor alineados con expertos humanos.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es el de las correlaciones espurias de aprendizaje y los problemas de alineación de atención en modelos de imágenes médicas basados en Transformers. Específicamente incluye:

Problema de Correlaciones Espurias: Las redes neuronales profundas tienden a aprender correlaciones espurias en los datos, causando aprendizaje de atajos, sesgos y problemas de equidad
Desafío de Alineación de Atención: Aunque la alineación de atención humano-máquina puede mejorar la robustez del modelo, requiere anotaciones manuales costosas
Limitaciones de Métodos Existentes: Los métodos puramente autosupervisados pueden reforzar interpretaciones erróneas, mientras que los métodos de aprendizaje contrastivo carecen de métodos estandarizados para generar muestras positivas y negativas

Importancia de la Investigación

En el diagnóstico de imágenes médicas, la interpretabilidad y confiabilidad del modelo son cruciales. Los patrones de atención incorrectos pueden conducir a:

Errores en la toma de decisiones clínicas
Omisión de características patológicas críticas
Fallo en la generalización del modelo en diferentes distribuciones de datos

Limitaciones de Métodos Existentes

Métodos Puramente Supervisados: Dependen de anotaciones costosas de expertos, con alto costo
Métodos Puramente Autosupervisados: Pueden reforzar interpretaciones falsas o incorrectamente alineadas
Métodos de Restricción Tradicionales: Dependen de prioridades rígidas como escasez y suavidad, que pueden inhibir el aprendizaje de características complejas

Contribuciones Principales

Propuesta del Marco H-EGL: Primera aplicación de métodos de explicación guiada híbrida a arquitecturas Transformer, evaluando y mejorando la alineación de atención humano-máquina
Diseño del Componente DAL: Propuesta de Aprendizaje de Atención Discriminativa (Discriminative Attention Learning), utilizando mapas de atención discriminativa de clases para aprendizaje autosupervisado
Mejora de Rendimiento: Supera métodos de última generación en tareas de clasificación de radiografías de tórax, alcanzando un AUC del 89.3%
Interpretabilidad Mejorada: Genera mapas de atención mejor alineados con conocimiento de expertos, manteniendo el rendimiento de clasificación

Explicación Detallada del Método

Definición de la Tarea

Entrada: Imágenes de radiografías de tórax y etiquetas de enfermedades en texto Salida: Predicciones de clasificación de enfermedades multiétiqueta y mapas de atención específicos de clase Objetivo: Mejorar la precisión de clasificación mientras se generan mapas de atención alineados con regiones anotadas por expertos humanos

Arquitectura del Modelo

Marco General

H-EGL se construye sobre la arquitectura DWARF, adoptando una estructura codificador-decodificador ViT:

Codificador de Texto: Med-KEBERT congelado, procesando etiquetas de enfermedades
Codificador Visual: ViT-B entrenable, procesando imágenes de entrada de 224×224
Decodificador de Atención Cruzada: Fusionando características visuales y textuales

Componentes Principales

1. Módulo de Alineación Humano-Máquina Implementa alineación de mapas de atención con anotaciones de expertos mediante pérdida Dice penalizada:

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

Donde A_i es el mapa de atención generado por el modelo y M_i es la máscara del experto.

2. Aprendizaje de Atención Discriminativa (DAL) Mejora la discriminabilidad de clases minimizando la similitud de mapas de atención entre diferentes clases:

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

Donde S(A_i, A_j) es la similitud del coseno entre los mapas de atención A_i y A_j.

Función de Pérdida Unificada

L_H-EGL = L_CE + α×L_HA + β×L_DAL

Puntos de Innovación Técnica

Sin Necesidad de Generación de Muestras Negativas: DAL evita el problema complejo de construcción de muestras negativas en aprendizaje contrastivo tradicional
Sesgo Inductivo Flexible: No depende de restricciones rígidas como escasez, manteniendo la capacidad del modelo para aprender características complejas
Aprovechamiento Directo de Atención ViT: Utiliza completamente el mecanismo de atención inherente de Transformers, en lugar de herramientas de explicación posteriores
Estrategia de Supervisión Híbrida: Equilibra la guía humana y el aprendizaje autónomo, logrando un balance óptimo entre costo-beneficio y rendimiento

Configuración Experimental

Conjunto de Datos

Conjunto de Datos ChestXDet: Subconjunto del ChestX-ray14 del NIH
Escala: 3,578 pacientes, 3,025 muestras en conjunto de entrenamiento, 553 muestras en conjunto de prueba
Anotaciones: Incluye anotaciones de cuadros delimitadores y polígonos para 4 patologías torácicas (atelectasia, cardiomegalia, consolidación, derrame)
Validación: Validación de calidad de anotaciones por tres radiólogos
División: División de entrenamiento-validación 80-20

Métricas de Evaluación

Métricas de Clasificación: AUC, puntuación F1, MCC (Coeficiente de Correlación de Matthews)
Capacidad de Generalización: Brecha de rendimiento entre conjunto de validación y prueba
Robustez: Rendimiento bajo diferentes niveles de ruido

Métodos de Comparación

KAD: Marco de detección consciente del conocimiento, mejorando el razonamiento visual mediante gráficos de conocimiento
GAIN: Red de atención basada en gradientes, mejorando la interpretabilidad mediante mecanismo de atención refinado
DWARF* (β=0): Aprendizaje guiado por explicaciones utilizando solo guía de anotaciones humanas
DAL (α=0): Aprendizaje guiado por explicaciones puramente autosupervisado

Detalles de Implementación

Optimizador: AdamW, tasa de aprendizaje 1e-5
Estrategia de Entrenamiento: 1000 épocas de entrenamiento, paciencia de parada temprana 50, precalentamiento de 20 épocas
Tamaño de Lote: 32
Hardware: GPU RTX 4090, CUDA v12.2
Hiperparámetros: α=1.0, β=1.0, w_FP=1

Resultados Experimentales

Resultados Principales

Método	AUC_test(%)	AUC_gap(%)	F1_test(%)	F1_gap(%)	MCC_test(%)	MCC_gap(%)
KAD	88.1±0.3	2.5	68.2±2.5	1.8	57.5±2.3	4.8
GAIN	88.0±0.4	2.7	67.8±2.2	2.4	57.2±2.0	5.6
H-EGL	89.3±0.7	1.5	69.4±1.9	0.5	58.3±2.5	3.8

Hallazgos Clave:

H-EGL logra el mejor rendimiento en todas las métricas
Reduce significativamente la brecha de generalización, indicando mejor robustez
Varianza baja (0.7%), mostrando rendimiento estable

Experimentos de Ablación

H-EGL (α=0): AUC 89.3±1.0%, validando la efectividad de DAL
H-EGL (β=0): AUC 88.4±0.2%, mostrando la contribución de la alineación humana
El método híbrido supera a cualquier componente individual

Análisis de Robustez

Pruebas bajo diferentes niveles de ruido (σ=0, 0.03, 0.05, 0.1) demuestran:

Todos los métodos muestran degradación de rendimiento con aumento de ruido
H-EGL mantiene rendimiento óptimo en todos los niveles de ruido
Demuestra robustez superior

Análisis Cualitativo

La visualización de mapas de atención muestra:

KAD Base: Aunque cubre regiones anotadas manualmente, resalta erróneamente los lóbulos inferiores bilaterales
DWARF: Reduce falsos positivos inferiores, pero enfatiza erróneamente el pulmón izquierdo
H-EGL y DAL: Identifican más precisamente regiones patológicas, reduciendo significativamente falsos positivos

Trabajo Relacionado

Direcciones Principales de Investigación

Aprendizaje Guiado por Explicaciones (EGL): Utilización de información de explicación para guiar el aprendizaje del modelo
Alineación de Atención Humano-Máquina: Integración de conocimiento humano para mejorar la interpretabilidad del modelo
Aplicación de Transformers en Imágenes Médicas: Utilización de mecanismos de atención para diagnóstico de enfermedades

Ventajas de Este Trabajo

Primera aplicación de métodos de explicación guiada híbrida en Transformers de imágenes médicas
Propuesta de estrategia de aprendizaje de atención autosupervisada sin necesidad de muestras negativas
Logra mejora dual en rendimiento e interpretabilidad

Conclusiones y Discusión

Conclusiones Principales

H-EGL combina efectivamente supervisión autosupervisada y humana, logrando rendimiento de clasificación superior y alineación de atención
El componente DAL proporciona sesgo inductivo flexible, evitando regularización excesiva
La estrategia híbrida logra un buen equilibrio entre costo-beneficio y rendimiento

Limitaciones

Escala del Conjunto de Datos: Validación solo en el conjunto de datos ChestXDet relativamente pequeño
Categorías de Enfermedades: Evaluación de solo 4 enfermedades torácicas
Dependencia de Arquitectura: Diseñado principalmente para arquitectura ViT
Sensibilidad de Hiperparámetros: La configuración óptima de parámetros α y β puede variar según la tarea

Direcciones Futuras

Mecanismo de Alineación Dinámica: Exploración de ajuste adaptativo del grado de supervisión autosupervisada y alineación humana durante el entrenamiento
Validación a Gran Escala: Verificación en conjuntos de datos más grandes y más categorías de enfermedades
Extensión Multimodal: Extensión a otras modalidades de imágenes médicas
Despliegue Clínico: Investigación de efectos de aplicación en entornos clínicos reales

Evaluación Profunda

Fortalezas

Innovación Metodológica: Primera aplicación de aprendizaje guiado por explicaciones híbrido a Transformers de imágenes médicas
Solidez Técnica: Diseño ingenioso de DAL, evitando complejidad del aprendizaje contrastivo tradicional
Suficiencia Experimental: Incluye experimentos comparativos exhaustivos, experimentos de ablación y análisis de robustez
Valor Práctico: Mejora significativa de interpretabilidad manteniendo rendimiento

Insuficiencias

Análisis Teórico Limitado: Falta de explicación teórica profunda sobre por qué el método híbrido es efectivo
Complejidad Computacional: Análisis insuficiente del impacto de términos de pérdida adicionales en eficiencia de entrenamiento
Orientación de Hiperparámetros: Orientación insuficiente sobre selección de parámetros α y β
Validación Clínica Ausente: Falta de evaluación de expertos en entorno clínico real

Impacto

Contribución Académica: Proporciona nuevas perspectivas para investigación de interpretabilidad en imágenes médicas
Valor Práctico: Aplicable directamente a sistemas existentes de diagnóstico de imágenes médicas
Reproducibilidad: Proporciona detalles de implementación detallados, facilitando la reproducción

Escenarios Aplicables

Diagnóstico de Imágenes Médicas: Particularmente adecuado para aplicaciones clínicas que requieren alta interpretabilidad
Tareas de Clasificación Multiétiqueta: Extensible a otros problemas de clasificación que requieren alineación de atención
Entornos con Recursos Limitados: La estrategia de supervisión híbrida es adecuada para escenarios con recursos de anotación limitados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

Artículo original de Vision Transformer (ViT) 3
Investigación sobre correlaciones espurias en imágenes médicas 2,5,6
Revisión de aprendizaje guiado por explicaciones 4
Métodos DWARF 11 y KAD 19

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones significativas en el campo de la interpretabilidad de imágenes médicas. El marco de aprendizaje guiado por explicaciones híbridas está bien diseñado, la validación experimental es exhaustiva y los resultados son convincentes. Aunque existen algunas limitaciones, proporciona una base sólida y dirección para investigación futura.