2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.
Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
academic

Apprentissage Hybride Guidé par Explications pour le Diagnostic de Radiographies Thoraciques basé sur Transformers

Informations Fondamentales

  • ID de l'article : 2510.12704
  • Titre : Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
  • Auteurs : Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
  • Classification : cs.CV cs.AI
  • Date de publication : 14 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.12704v1

Résumé

Les modèles d'apprentissage profond basés sur Transformers ont démontré des capacités exceptionnelles de représentation des caractéristiques et d'interprétabilité dans l'imagerie médicale grâce aux mécanismes d'attention. Cependant, ces modèles sont susceptibles d'apprendre des corrélations fallacieuses, entraînant des biais et une capacité de généralisation limitée. Bien que l'alignement de l'attention homme-machine puisse atténuer ces problèmes, il dépend souvent d'une supervision manuelle coûteuse. Ce travail propose le cadre d'apprentissage hybride guidé par explications (H-EGL), combinant des contraintes auto-supervisées et guidées par l'homme pour améliorer l'alignement de l'attention et la capacité de généralisation. La composante auto-supervisée de H-EGL exploite l'attention discriminante des classes, sans dépendre de priors restrictifs, favorisant la robustesse et la flexibilité. Validée sur la tâche de classification de radiographies thoraciques avec Vision Transformer (ViT), H-EGL surpasse deux méthodes d'apprentissage guidé par explications de pointe, démontrant une précision de classification supérieure et une capacité de généralisation, tout en produisant des cartes d'attention mieux alignées avec les experts humains.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche aborde concerne les corrélations fallacieuses et les problèmes d'alignement de l'attention dans les modèles d'imagerie médicale basés sur Transformers. Cela inclut spécifiquement :

  1. Problème des corrélations fallacieuses : Les réseaux de neurones profonds sont susceptibles d'apprendre des corrélations fallacieuses dans les données, entraînant un apprentissage par raccourci, des biais et des problèmes d'équité
  2. Défi de l'alignement de l'attention : Bien que l'alignement de l'attention homme-machine puisse améliorer la robustesse du modèle, il nécessite une annotation manuelle coûteuse
  3. Limitations des méthodes existantes : Les méthodes purement auto-supervisées peuvent renforcer les interprétations erronées, tandis que les méthodes d'apprentissage contrastif manquent de méthodes standardisées pour générer des échantillons positifs et négatifs

Importance de la Recherche

En diagnostic d'imagerie médicale, l'interprétabilité et la fiabilité du modèle sont cruciales. Les motifs d'attention erronés peuvent entraîner :

  • Des erreurs de décision clinique
  • L'omission de caractéristiques pathologiques critiques
  • L'échec de la généralisation du modèle sur différentes distributions de données

Limitations des Méthodes Existantes

  1. Méthodes purement supervisées : Dépendent d'annotations d'experts coûteuses, avec un coût élevé
  2. Méthodes purement auto-supervisées : Peuvent renforcer des explications fallacieuses ou mal alignées
  3. Méthodes de contrainte traditionnelles : Dépendent de priors rigides tels que la parcimonie et la régularité, pouvant inhiber l'apprentissage de caractéristiques complexes

Contributions Principales

  1. Proposition du cadre H-EGL : Première application d'une méthode d'apprentissage guidé par explications hybride à l'architecture Transformer, évaluant et améliorant l'alignement de l'attention homme-machine
  2. Conception de la composante DAL : Proposition de l'apprentissage d'attention discriminante (Discriminative Attention Learning), exploitant les cartes d'attention discriminantes des classes pour l'apprentissage auto-supervisé
  3. Amélioration des performances : Surpasse les méthodes de pointe existantes sur la tâche de classification de radiographies thoraciques, atteignant une AUC de 89,3%
  4. Amélioration de l'interprétabilité : Génère des cartes d'attention mieux alignées avec les connaissances des experts, tout en maintenant les performances de classification

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Images de radiographies thoraciques et étiquettes de texte de maladies Sortie : Prédictions de classification multi-étiquettes de maladies et cartes d'attention spécifiques aux classes Objectif : Améliorer la précision de classification tout en générant des cartes d'attention alignées avec les régions annotées par les experts humains

Architecture du Modèle

Cadre Global

H-EGL est construit sur l'architecture DWARF, adoptant une structure encodeur-décodeur ViT :

  1. Encodeur de texte : Med-KEBERT gelé, traitant les étiquettes de maladies
  2. Encodeur visuel : ViT-B entraînable, traitant les images d'entrée 224×224
  3. Décodeur d'attention croisée : Fusionnant les caractéristiques visuelles et textuelles

Composantes Principales

1. Module d'Alignement Homme-Machine Utilisant la perte Dice pénalisée pour aligner les cartes d'attention avec les masques d'experts :

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

où A_i est la carte d'attention générée par le modèle et M_i est le masque d'expert.

2. Apprentissage d'Attention Discriminante (DAL) Amélioration de la discriminabilité des classes en minimisant la similarité des cartes d'attention entre différentes classes :

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

où S(A_i, A_j) est la similarité cosinus entre les cartes d'attention A_i et A_j.

Fonction de Perte Unifiée

L_H-EGL = L_CE + α×L_HA + β×L_DAL

Points d'Innovation Technique

  1. Pas de génération d'échantillons négatifs : DAL évite les problèmes complexes de construction d'échantillons négatifs de l'apprentissage contrastif traditionnel
  2. Biais inductif flexible : Ne dépend pas de contraintes rigides telles que la parcimonie, préservant la capacité du modèle à apprendre des caractéristiques complexes
  3. Exploitation directe de l'attention ViT : Tire pleinement parti du mécanisme d'attention inhérent aux Transformers, plutôt que d'utiliser des outils d'interprétation a posteriori
  4. Stratégie de supervision hybride : Équilibre la guidance humaine et l'apprentissage autonome, réalisant un équilibre optimal entre efficacité des coûts et performances

Configuration Expérimentale

Ensemble de Données

  • Ensemble de données ChestXDet : Sous-ensemble de NIH ChestX-ray14
  • Échelle : 3 578 patients, 3 025 échantillons d'entraînement, 553 échantillons de test
  • Annotations : Annotations de boîtes englobantes et polygonales pour 4 pathologies thoraciques (atélectasie, cardiomégalie, consolidation, épanchement)
  • Validation : Validation de la qualité des annotations par trois radiologues
  • Division : Division entraînement-validation 80-20

Métriques d'Évaluation

  • Métriques de classification : AUC, score F1, MCC (coefficient de corrélation de Matthews)
  • Capacité de généralisation : Écart de performance entre les ensembles de validation et de test
  • Robustesse : Performance sous différents niveaux de bruit

Méthodes de Comparaison

  1. KAD : Cadre de détection conscient des connaissances, exploitant les graphes de connaissances pour améliorer le raisonnement visuel
  2. GAIN : Réseau d'attention basé sur les gradients, améliorant l'interprétabilité par des mécanismes d'attention affinés
  3. DWARF* (β=0) : Apprentissage guidé par explications utilisant uniquement la guidance manuelle
  4. DAL (α=0) : Apprentissage guidé par explications purement auto-supervisé

Détails d'Implémentation

  • Optimiseur : AdamW, taux d'apprentissage 1e-5
  • Stratégie d'entraînement : 1 000 epochs d'entraînement, arrêt précoce avec patience de 50, préchauffage de 20 epochs
  • Taille de batch : 32
  • Matériel : GPU RTX 4090, CUDA v12.2
  • Hyperparamètres : α=1.0, β=1.0, w_FP=1

Résultats Expérimentaux

Résultats Principaux

MéthodeAUC_test(%)AUC_gap(%)F1_test(%)F1_gap(%)MCC_test(%)MCC_gap(%)
KAD88.1±0.32.568.2±2.51.857.5±2.34.8
GAIN88.0±0.42.767.8±2.22.457.2±2.05.6
H-EGL89.3±0.71.569.4±1.90.558.3±2.53.8

Résultats Clés :

  • H-EGL atteint les meilleures performances sur toutes les métriques
  • Réduit significativement l'écart de généralisation, indiquant une meilleure robustesse
  • Variance faible (0.7%), démontrant une performance stable

Études d'Ablation

  • H-EGL(α=0) : AUC 89.3±1.0%, validant l'efficacité de DAL
  • H-EGL(β=0) : AUC 88.4±0.2%, montrant la contribution de l'alignement manuel
  • La méthode hybride surpasse chaque composante individuelle

Analyse de Robustesse

Tests sous différents niveaux de bruit (σ=0, 0.03, 0.05, 0.1) démontrant :

  • Dégradation des performances de toutes les méthodes avec l'augmentation du bruit
  • H-EGL maintient les meilleures performances à tous les niveaux de bruit
  • Démontre une robustesse supérieure

Analyse Qualitative

La visualisation des cartes d'attention révèle :

  • KAD de base : Bien que couvrant les régions annotées manuellement, met incorrectement en évidence les lobes inférieurs bilatéraux
  • DWARF : Réduit les faux positifs inférieurs, mais met incorrectement l'accent sur le poumon gauche
  • H-EGL et DAL : Identifient plus précisément les régions pathologiques, réduisant significativement les faux positifs

Travaux Connexes

Directions de Recherche Principales

  1. Apprentissage guidé par explications (EGL) : Utilisation d'informations d'explication pour guider l'apprentissage du modèle
  2. Alignement de l'attention homme-machine : Intégration des connaissances humaines pour améliorer l'interprétabilité du modèle
  3. Application des Transformers en imagerie médicale : Exploitation des mécanismes d'attention pour le diagnostic de maladies

Avantages de ce Travail

  • Première application d'une méthode d'apprentissage guidé par explications hybride aux Transformers en imagerie médicale
  • Proposition d'une stratégie d'apprentissage d'attention auto-supervisée sans nécessité d'échantillons négatifs
  • Réalisation d'une double amélioration des performances et de l'interprétabilité

Conclusions et Discussion

Conclusions Principales

  1. H-EGL combine efficacement la supervision auto-supervisée et manuelle, réalisant des performances de classification supérieures et un alignement d'attention
  2. La composante DAL fournit un biais inductif flexible, évitant la sur-régularisation
  3. La stratégie hybride atteint un bon équilibre entre efficacité des coûts et performances

Limitations

  1. Taille de l'ensemble de données : Validation uniquement sur l'ensemble de données ChestXDet relativement petit
  2. Catégories de maladies : Évaluation de seulement 4 maladies thoraciques
  3. Dépendance architecturale : Conçu principalement pour l'architecture ViT
  4. Sensibilité aux hyperparamètres : Les paramètres optimaux α et β peuvent varier selon la tâche

Directions Futures

  1. Mécanismes d'alignement dynamique : Exploration de l'ajustement adaptatif du degré de supervision auto-supervisée et manuelle pendant l'entraînement
  2. Validation à grande échelle : Validation sur des ensembles de données plus volumineux et davantage de catégories de maladies
  3. Extension multimodale : Extension à d'autres modalités d'imagerie médicale
  4. Déploiement clinique : Étude des effets d'application dans les environnements cliniques réels

Évaluation Approfondie

Points Forts

  1. Innovativité méthodologique : Première application de l'apprentissage guidé par explications hybride aux Transformers en imagerie médicale
  2. Rationalité technique : La conception de DAL est ingénieuse, évitant la complexité de l'apprentissage contrastif traditionnel
  3. Complétude expérimentale : Inclut des expériences comparatives complètes, des études d'ablation et des analyses de robustesse
  4. Valeur pratique : Améliore significativement l'interprétabilité tout en maintenant les performances

Insuffisances

  1. Analyse théorique insuffisante : Manque d'explication théorique approfondie sur l'efficacité de la méthode hybride
  2. Complexité computationnelle : Analyse insuffisante de l'impact des termes de perte supplémentaires sur l'efficacité d'entraînement
  3. Sensibilité aux hyperparamètres : Guidance insuffisante sur le choix des paramètres α et β
  4. Absence de validation clinique : Pas d'évaluation par des experts en environnement clinique réel

Impact

  1. Contribution académique : Fournit de nouvelles perspectives pour la recherche sur l'interprétabilité en imagerie médicale
  2. Valeur pratique : Peut être directement appliquée aux systèmes de diagnostic d'imagerie médicale existants
  3. Reproductibilité : Fournit des détails d'implémentation détaillés facilitant la reproduction

Scénarios d'Application

  1. Diagnostic d'imagerie médicale : Particulièrement adapté aux applications cliniques nécessitant une haute interprétabilité
  2. Tâches de classification multi-étiquettes : Extensible à d'autres problèmes de classification nécessitant un alignement d'attention
  3. Environnements aux ressources limitées : La stratégie de supervision hybride convient aux scénarios avec ressources d'annotation limitées

Références

L'article cite plusieurs travaux connexes importants, notamment :

  • L'article original Vision Transformer (ViT) 3
  • Recherches sur les corrélations fallacieuses en imagerie médicale 2,5,6
  • Synthèse de l'apprentissage guidé par explications 4
  • Méthodes DWARF 11 et KAD 19

Évaluation Globale : Cet article de recherche de haute qualité apporte des contributions significatives au domaine de l'interprétabilité en imagerie médicale. Le cadre d'apprentissage hybride guidé par explications est bien conçu, la validation expérimentale est complète et les résultats sont convaincants. Malgré quelques limitations, il fournit une base solide et des directions prometteuses pour les recherches futures.