2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.
Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
academic

Aprendizaje Guiado por Explicaciones Híbridas para Diagnóstico de Radiografías de Tórax Basado en Transformers

Información Básica

  • ID del Artículo: 2510.12704
  • Título: Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
  • Autores: Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
  • Clasificación: cs.CV cs.AI
  • Fecha de Publicación: 14 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.12704v1

Resumen

Los modelos de aprendizaje profundo basados en Transformers han demostrado capacidades excepcionales de representación de características e interpretabilidad a través de mecanismos de atención en imágenes médicas. Sin embargo, estos modelos son propensos a aprender correlaciones espurias, lo que genera sesgos y capacidad de generalización limitada. Aunque la alineación de atención humano-máquina puede mitigar estos problemas, a menudo depende de supervisión manual costosa. Este trabajo propone el marco de Aprendizaje Guiado por Explicaciones Híbridas (H-EGL), que combina restricciones autosupervisadas y guiadas por humanos para mejorar la alineación de atención y la capacidad de generalización. El componente autosupervisado de H-EGL aprovecha la atención discriminativa de clases sin depender de prioridades restrictivas, promoviendo robustez y flexibilidad. Validado en tareas de clasificación de radiografías de tórax utilizando Vision Transformer (ViT), H-EGL supera dos métodos de aprendizaje guiado por explicaciones de última generación, demostrando precisión de clasificación superior y capacidad de generalización, mientras produce mapas de atención mejor alineados con expertos humanos.

Contexto de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es el de las correlaciones espurias de aprendizaje y los problemas de alineación de atención en modelos de imágenes médicas basados en Transformers. Específicamente incluye:

  1. Problema de Correlaciones Espurias: Las redes neuronales profundas tienden a aprender correlaciones espurias en los datos, causando aprendizaje de atajos, sesgos y problemas de equidad
  2. Desafío de Alineación de Atención: Aunque la alineación de atención humano-máquina puede mejorar la robustez del modelo, requiere anotaciones manuales costosas
  3. Limitaciones de Métodos Existentes: Los métodos puramente autosupervisados pueden reforzar interpretaciones erróneas, mientras que los métodos de aprendizaje contrastivo carecen de métodos estandarizados para generar muestras positivas y negativas

Importancia de la Investigación

En el diagnóstico de imágenes médicas, la interpretabilidad y confiabilidad del modelo son cruciales. Los patrones de atención incorrectos pueden conducir a:

  • Errores en la toma de decisiones clínicas
  • Omisión de características patológicas críticas
  • Fallo en la generalización del modelo en diferentes distribuciones de datos

Limitaciones de Métodos Existentes

  1. Métodos Puramente Supervisados: Dependen de anotaciones costosas de expertos, con alto costo
  2. Métodos Puramente Autosupervisados: Pueden reforzar interpretaciones falsas o incorrectamente alineadas
  3. Métodos de Restricción Tradicionales: Dependen de prioridades rígidas como escasez y suavidad, que pueden inhibir el aprendizaje de características complejas

Contribuciones Principales

  1. Propuesta del Marco H-EGL: Primera aplicación de métodos de explicación guiada híbrida a arquitecturas Transformer, evaluando y mejorando la alineación de atención humano-máquina
  2. Diseño del Componente DAL: Propuesta de Aprendizaje de Atención Discriminativa (Discriminative Attention Learning), utilizando mapas de atención discriminativa de clases para aprendizaje autosupervisado
  3. Mejora de Rendimiento: Supera métodos de última generación en tareas de clasificación de radiografías de tórax, alcanzando un AUC del 89.3%
  4. Interpretabilidad Mejorada: Genera mapas de atención mejor alineados con conocimiento de expertos, manteniendo el rendimiento de clasificación

Explicación Detallada del Método

Definición de la Tarea

Entrada: Imágenes de radiografías de tórax y etiquetas de enfermedades en texto Salida: Predicciones de clasificación de enfermedades multiétiqueta y mapas de atención específicos de clase Objetivo: Mejorar la precisión de clasificación mientras se generan mapas de atención alineados con regiones anotadas por expertos humanos

Arquitectura del Modelo

Marco General

H-EGL se construye sobre la arquitectura DWARF, adoptando una estructura codificador-decodificador ViT:

  1. Codificador de Texto: Med-KEBERT congelado, procesando etiquetas de enfermedades
  2. Codificador Visual: ViT-B entrenable, procesando imágenes de entrada de 224×224
  3. Decodificador de Atención Cruzada: Fusionando características visuales y textuales

Componentes Principales

1. Módulo de Alineación Humano-Máquina Implementa alineación de mapas de atención con anotaciones de expertos mediante pérdida Dice penalizada:

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

Donde A_i es el mapa de atención generado por el modelo y M_i es la máscara del experto.

2. Aprendizaje de Atención Discriminativa (DAL) Mejora la discriminabilidad de clases minimizando la similitud de mapas de atención entre diferentes clases:

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

Donde S(A_i, A_j) es la similitud del coseno entre los mapas de atención A_i y A_j.

Función de Pérdida Unificada

L_H-EGL = L_CE + α×L_HA + β×L_DAL

Puntos de Innovación Técnica

  1. Sin Necesidad de Generación de Muestras Negativas: DAL evita el problema complejo de construcción de muestras negativas en aprendizaje contrastivo tradicional
  2. Sesgo Inductivo Flexible: No depende de restricciones rígidas como escasez, manteniendo la capacidad del modelo para aprender características complejas
  3. Aprovechamiento Directo de Atención ViT: Utiliza completamente el mecanismo de atención inherente de Transformers, en lugar de herramientas de explicación posteriores
  4. Estrategia de Supervisión Híbrida: Equilibra la guía humana y el aprendizaje autónomo, logrando un balance óptimo entre costo-beneficio y rendimiento

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos ChestXDet: Subconjunto del ChestX-ray14 del NIH
  • Escala: 3,578 pacientes, 3,025 muestras en conjunto de entrenamiento, 553 muestras en conjunto de prueba
  • Anotaciones: Incluye anotaciones de cuadros delimitadores y polígonos para 4 patologías torácicas (atelectasia, cardiomegalia, consolidación, derrame)
  • Validación: Validación de calidad de anotaciones por tres radiólogos
  • División: División de entrenamiento-validación 80-20

Métricas de Evaluación

  • Métricas de Clasificación: AUC, puntuación F1, MCC (Coeficiente de Correlación de Matthews)
  • Capacidad de Generalización: Brecha de rendimiento entre conjunto de validación y prueba
  • Robustez: Rendimiento bajo diferentes niveles de ruido

Métodos de Comparación

  1. KAD: Marco de detección consciente del conocimiento, mejorando el razonamiento visual mediante gráficos de conocimiento
  2. GAIN: Red de atención basada en gradientes, mejorando la interpretabilidad mediante mecanismo de atención refinado
  3. DWARF* (β=0): Aprendizaje guiado por explicaciones utilizando solo guía de anotaciones humanas
  4. DAL (α=0): Aprendizaje guiado por explicaciones puramente autosupervisado

Detalles de Implementación

  • Optimizador: AdamW, tasa de aprendizaje 1e-5
  • Estrategia de Entrenamiento: 1000 épocas de entrenamiento, paciencia de parada temprana 50, precalentamiento de 20 épocas
  • Tamaño de Lote: 32
  • Hardware: GPU RTX 4090, CUDA v12.2
  • Hiperparámetros: α=1.0, β=1.0, w_FP=1

Resultados Experimentales

Resultados Principales

MétodoAUC_test(%)AUC_gap(%)F1_test(%)F1_gap(%)MCC_test(%)MCC_gap(%)
KAD88.1±0.32.568.2±2.51.857.5±2.34.8
GAIN88.0±0.42.767.8±2.22.457.2±2.05.6
H-EGL89.3±0.71.569.4±1.90.558.3±2.53.8

Hallazgos Clave:

  • H-EGL logra el mejor rendimiento en todas las métricas
  • Reduce significativamente la brecha de generalización, indicando mejor robustez
  • Varianza baja (0.7%), mostrando rendimiento estable

Experimentos de Ablación

  • H-EGL (α=0): AUC 89.3±1.0%, validando la efectividad de DAL
  • H-EGL (β=0): AUC 88.4±0.2%, mostrando la contribución de la alineación humana
  • El método híbrido supera a cualquier componente individual

Análisis de Robustez

Pruebas bajo diferentes niveles de ruido (σ=0, 0.03, 0.05, 0.1) demuestran:

  • Todos los métodos muestran degradación de rendimiento con aumento de ruido
  • H-EGL mantiene rendimiento óptimo en todos los niveles de ruido
  • Demuestra robustez superior

Análisis Cualitativo

La visualización de mapas de atención muestra:

  • KAD Base: Aunque cubre regiones anotadas manualmente, resalta erróneamente los lóbulos inferiores bilaterales
  • DWARF: Reduce falsos positivos inferiores, pero enfatiza erróneamente el pulmón izquierdo
  • H-EGL y DAL: Identifican más precisamente regiones patológicas, reduciendo significativamente falsos positivos

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Aprendizaje Guiado por Explicaciones (EGL): Utilización de información de explicación para guiar el aprendizaje del modelo
  2. Alineación de Atención Humano-Máquina: Integración de conocimiento humano para mejorar la interpretabilidad del modelo
  3. Aplicación de Transformers en Imágenes Médicas: Utilización de mecanismos de atención para diagnóstico de enfermedades

Ventajas de Este Trabajo

  • Primera aplicación de métodos de explicación guiada híbrida en Transformers de imágenes médicas
  • Propuesta de estrategia de aprendizaje de atención autosupervisada sin necesidad de muestras negativas
  • Logra mejora dual en rendimiento e interpretabilidad

Conclusiones y Discusión

Conclusiones Principales

  1. H-EGL combina efectivamente supervisión autosupervisada y humana, logrando rendimiento de clasificación superior y alineación de atención
  2. El componente DAL proporciona sesgo inductivo flexible, evitando regularización excesiva
  3. La estrategia híbrida logra un buen equilibrio entre costo-beneficio y rendimiento

Limitaciones

  1. Escala del Conjunto de Datos: Validación solo en el conjunto de datos ChestXDet relativamente pequeño
  2. Categorías de Enfermedades: Evaluación de solo 4 enfermedades torácicas
  3. Dependencia de Arquitectura: Diseñado principalmente para arquitectura ViT
  4. Sensibilidad de Hiperparámetros: La configuración óptima de parámetros α y β puede variar según la tarea

Direcciones Futuras

  1. Mecanismo de Alineación Dinámica: Exploración de ajuste adaptativo del grado de supervisión autosupervisada y alineación humana durante el entrenamiento
  2. Validación a Gran Escala: Verificación en conjuntos de datos más grandes y más categorías de enfermedades
  3. Extensión Multimodal: Extensión a otras modalidades de imágenes médicas
  4. Despliegue Clínico: Investigación de efectos de aplicación en entornos clínicos reales

Evaluación Profunda

Fortalezas

  1. Innovación Metodológica: Primera aplicación de aprendizaje guiado por explicaciones híbrido a Transformers de imágenes médicas
  2. Solidez Técnica: Diseño ingenioso de DAL, evitando complejidad del aprendizaje contrastivo tradicional
  3. Suficiencia Experimental: Incluye experimentos comparativos exhaustivos, experimentos de ablación y análisis de robustez
  4. Valor Práctico: Mejora significativa de interpretabilidad manteniendo rendimiento

Insuficiencias

  1. Análisis Teórico Limitado: Falta de explicación teórica profunda sobre por qué el método híbrido es efectivo
  2. Complejidad Computacional: Análisis insuficiente del impacto de términos de pérdida adicionales en eficiencia de entrenamiento
  3. Orientación de Hiperparámetros: Orientación insuficiente sobre selección de parámetros α y β
  4. Validación Clínica Ausente: Falta de evaluación de expertos en entorno clínico real

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas para investigación de interpretabilidad en imágenes médicas
  2. Valor Práctico: Aplicable directamente a sistemas existentes de diagnóstico de imágenes médicas
  3. Reproducibilidad: Proporciona detalles de implementación detallados, facilitando la reproducción

Escenarios Aplicables

  1. Diagnóstico de Imágenes Médicas: Particularmente adecuado para aplicaciones clínicas que requieren alta interpretabilidad
  2. Tareas de Clasificación Multiétiqueta: Extensible a otros problemas de clasificación que requieren alineación de atención
  3. Entornos con Recursos Limitados: La estrategia de supervisión híbrida es adecuada para escenarios con recursos de anotación limitados

Referencias

El artículo cita múltiples trabajos relacionados importantes, incluyendo:

  • Artículo original de Vision Transformer (ViT) 3
  • Investigación sobre correlaciones espurias en imágenes médicas 2,5,6
  • Revisión de aprendizaje guiado por explicaciones 4
  • Métodos DWARF 11 y KAD 19

Evaluación General: Este es un artículo de investigación de alta calidad que realiza contribuciones significativas en el campo de la interpretabilidad de imágenes médicas. El marco de aprendizaje guiado por explicaciones híbridas está bien diseñado, la validación experimental es exhaustiva y los resultados son convincentes. Aunque existen algunas limitaciones, proporciona una base sólida y dirección para investigación futura.