2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.

Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.

academic

Apprentissage Hybride Guidé par Explications pour le Diagnostic de Radiographies Thoraciques basé sur Transformers

Informations Fondamentales

ID de l'article : 2510.12704
Titre : Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Auteurs : Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
Classification : cs.CV cs.AI
Date de publication : 14 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.12704v1

Résumé

Les modèles d'apprentissage profond basés sur Transformers ont démontré des capacités exceptionnelles de représentation des caractéristiques et d'interprétabilité dans l'imagerie médicale grâce aux mécanismes d'attention. Cependant, ces modèles sont susceptibles d'apprendre des corrélations fallacieuses, entraînant des biais et une capacité de généralisation limitée. Bien que l'alignement de l'attention homme-machine puisse atténuer ces problèmes, il dépend souvent d'une supervision manuelle coûteuse. Ce travail propose le cadre d'apprentissage hybride guidé par explications (H-EGL), combinant des contraintes auto-supervisées et guidées par l'homme pour améliorer l'alignement de l'attention et la capacité de généralisation. La composante auto-supervisée de H-EGL exploite l'attention discriminante des classes, sans dépendre de priors restrictifs, favorisant la robustesse et la flexibilité. Validée sur la tâche de classification de radiographies thoraciques avec Vision Transformer (ViT), H-EGL surpasse deux méthodes d'apprentissage guidé par explications de pointe, démontrant une précision de classification supérieure et une capacité de généralisation, tout en produisant des cartes d'attention mieux alignées avec les experts humains.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche aborde concerne les corrélations fallacieuses et les problèmes d'alignement de l'attention dans les modèles d'imagerie médicale basés sur Transformers. Cela inclut spécifiquement :

Problème des corrélations fallacieuses : Les réseaux de neurones profonds sont susceptibles d'apprendre des corrélations fallacieuses dans les données, entraînant un apprentissage par raccourci, des biais et des problèmes d'équité
Défi de l'alignement de l'attention : Bien que l'alignement de l'attention homme-machine puisse améliorer la robustesse du modèle, il nécessite une annotation manuelle coûteuse
Limitations des méthodes existantes : Les méthodes purement auto-supervisées peuvent renforcer les interprétations erronées, tandis que les méthodes d'apprentissage contrastif manquent de méthodes standardisées pour générer des échantillons positifs et négatifs

Importance de la Recherche

En diagnostic d'imagerie médicale, l'interprétabilité et la fiabilité du modèle sont cruciales. Les motifs d'attention erronés peuvent entraîner :

Des erreurs de décision clinique
L'omission de caractéristiques pathologiques critiques
L'échec de la généralisation du modèle sur différentes distributions de données

Limitations des Méthodes Existantes

Méthodes purement supervisées : Dépendent d'annotations d'experts coûteuses, avec un coût élevé
Méthodes purement auto-supervisées : Peuvent renforcer des explications fallacieuses ou mal alignées
Méthodes de contrainte traditionnelles : Dépendent de priors rigides tels que la parcimonie et la régularité, pouvant inhiber l'apprentissage de caractéristiques complexes

Contributions Principales

Proposition du cadre H-EGL : Première application d'une méthode d'apprentissage guidé par explications hybride à l'architecture Transformer, évaluant et améliorant l'alignement de l'attention homme-machine
Conception de la composante DAL : Proposition de l'apprentissage d'attention discriminante (Discriminative Attention Learning), exploitant les cartes d'attention discriminantes des classes pour l'apprentissage auto-supervisé
Amélioration des performances : Surpasse les méthodes de pointe existantes sur la tâche de classification de radiographies thoraciques, atteignant une AUC de 89,3%
Amélioration de l'interprétabilité : Génère des cartes d'attention mieux alignées avec les connaissances des experts, tout en maintenant les performances de classification

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Images de radiographies thoraciques et étiquettes de texte de maladies Sortie : Prédictions de classification multi-étiquettes de maladies et cartes d'attention spécifiques aux classes Objectif : Améliorer la précision de classification tout en générant des cartes d'attention alignées avec les régions annotées par les experts humains

Architecture du Modèle

Cadre Global

H-EGL est construit sur l'architecture DWARF, adoptant une structure encodeur-décodeur ViT :

Encodeur de texte : Med-KEBERT gelé, traitant les étiquettes de maladies
Encodeur visuel : ViT-B entraînable, traitant les images d'entrée 224×224
Décodeur d'attention croisée : Fusionnant les caractéristiques visuelles et textuelles

Composantes Principales

1. Module d'Alignement Homme-Machine Utilisant la perte Dice pénalisée pour aligner les cartes d'attention avec les masques d'experts :

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

où A_i est la carte d'attention générée par le modèle et M_i est le masque d'expert.

2. Apprentissage d'Attention Discriminante (DAL) Amélioration de la discriminabilité des classes en minimisant la similarité des cartes d'attention entre différentes classes :

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

où S(A_i, A_j) est la similarité cosinus entre les cartes d'attention A_i et A_j.

Fonction de Perte Unifiée

L_H-EGL = L_CE + α×L_HA + β×L_DAL

Points d'Innovation Technique

Pas de génération d'échantillons négatifs : DAL évite les problèmes complexes de construction d'échantillons négatifs de l'apprentissage contrastif traditionnel
Biais inductif flexible : Ne dépend pas de contraintes rigides telles que la parcimonie, préservant la capacité du modèle à apprendre des caractéristiques complexes
Exploitation directe de l'attention ViT : Tire pleinement parti du mécanisme d'attention inhérent aux Transformers, plutôt que d'utiliser des outils d'interprétation a posteriori
Stratégie de supervision hybride : Équilibre la guidance humaine et l'apprentissage autonome, réalisant un équilibre optimal entre efficacité des coûts et performances

Configuration Expérimentale

Ensemble de Données

Ensemble de données ChestXDet : Sous-ensemble de NIH ChestX-ray14
Échelle : 3 578 patients, 3 025 échantillons d'entraînement, 553 échantillons de test
Annotations : Annotations de boîtes englobantes et polygonales pour 4 pathologies thoraciques (atélectasie, cardiomégalie, consolidation, épanchement)
Validation : Validation de la qualité des annotations par trois radiologues
Division : Division entraînement-validation 80-20

Métriques d'Évaluation

Métriques de classification : AUC, score F1, MCC (coefficient de corrélation de Matthews)
Capacité de généralisation : Écart de performance entre les ensembles de validation et de test
Robustesse : Performance sous différents niveaux de bruit

Méthodes de Comparaison

KAD : Cadre de détection conscient des connaissances, exploitant les graphes de connaissances pour améliorer le raisonnement visuel
GAIN : Réseau d'attention basé sur les gradients, améliorant l'interprétabilité par des mécanismes d'attention affinés
DWARF* (β=0) : Apprentissage guidé par explications utilisant uniquement la guidance manuelle
DAL (α=0) : Apprentissage guidé par explications purement auto-supervisé

Détails d'Implémentation

Optimiseur : AdamW, taux d'apprentissage 1e-5
Stratégie d'entraînement : 1 000 epochs d'entraînement, arrêt précoce avec patience de 50, préchauffage de 20 epochs
Taille de batch : 32
Matériel : GPU RTX 4090, CUDA v12.2
Hyperparamètres : α=1.0, β=1.0, w_FP=1

Résultats Expérimentaux

Résultats Principaux

Méthode	AUC_test(%)	AUC_gap(%)	F1_test(%)	F1_gap(%)	MCC_test(%)	MCC_gap(%)
KAD	88.1±0.3	2.5	68.2±2.5	1.8	57.5±2.3	4.8
GAIN	88.0±0.4	2.7	67.8±2.2	2.4	57.2±2.0	5.6
H-EGL	89.3±0.7	1.5	69.4±1.9	0.5	58.3±2.5	3.8

Résultats Clés :

H-EGL atteint les meilleures performances sur toutes les métriques
Réduit significativement l'écart de généralisation, indiquant une meilleure robustesse
Variance faible (0.7%), démontrant une performance stable

Études d'Ablation

H-EGL(α=0) : AUC 89.3±1.0%, validant l'efficacité de DAL
H-EGL(β=0) : AUC 88.4±0.2%, montrant la contribution de l'alignement manuel
La méthode hybride surpasse chaque composante individuelle

Analyse de Robustesse

Tests sous différents niveaux de bruit (σ=0, 0.03, 0.05, 0.1) démontrant :

Dégradation des performances de toutes les méthodes avec l'augmentation du bruit
H-EGL maintient les meilleures performances à tous les niveaux de bruit
Démontre une robustesse supérieure

Analyse Qualitative

La visualisation des cartes d'attention révèle :

KAD de base : Bien que couvrant les régions annotées manuellement, met incorrectement en évidence les lobes inférieurs bilatéraux
DWARF : Réduit les faux positifs inférieurs, mais met incorrectement l'accent sur le poumon gauche
H-EGL et DAL : Identifient plus précisément les régions pathologiques, réduisant significativement les faux positifs

Travaux Connexes

Directions de Recherche Principales

Apprentissage guidé par explications (EGL) : Utilisation d'informations d'explication pour guider l'apprentissage du modèle
Alignement de l'attention homme-machine : Intégration des connaissances humaines pour améliorer l'interprétabilité du modèle
Application des Transformers en imagerie médicale : Exploitation des mécanismes d'attention pour le diagnostic de maladies

Avantages de ce Travail

Première application d'une méthode d'apprentissage guidé par explications hybride aux Transformers en imagerie médicale
Proposition d'une stratégie d'apprentissage d'attention auto-supervisée sans nécessité d'échantillons négatifs
Réalisation d'une double amélioration des performances et de l'interprétabilité

Conclusions et Discussion

Conclusions Principales

H-EGL combine efficacement la supervision auto-supervisée et manuelle, réalisant des performances de classification supérieures et un alignement d'attention
La composante DAL fournit un biais inductif flexible, évitant la sur-régularisation
La stratégie hybride atteint un bon équilibre entre efficacité des coûts et performances

Limitations

Taille de l'ensemble de données : Validation uniquement sur l'ensemble de données ChestXDet relativement petit
Catégories de maladies : Évaluation de seulement 4 maladies thoraciques
Dépendance architecturale : Conçu principalement pour l'architecture ViT
Sensibilité aux hyperparamètres : Les paramètres optimaux α et β peuvent varier selon la tâche

Directions Futures

Mécanismes d'alignement dynamique : Exploration de l'ajustement adaptatif du degré de supervision auto-supervisée et manuelle pendant l'entraînement
Validation à grande échelle : Validation sur des ensembles de données plus volumineux et davantage de catégories de maladies
Extension multimodale : Extension à d'autres modalités d'imagerie médicale
Déploiement clinique : Étude des effets d'application dans les environnements cliniques réels

Évaluation Approfondie

Points Forts

Innovativité méthodologique : Première application de l'apprentissage guidé par explications hybride aux Transformers en imagerie médicale
Rationalité technique : La conception de DAL est ingénieuse, évitant la complexité de l'apprentissage contrastif traditionnel
Complétude expérimentale : Inclut des expériences comparatives complètes, des études d'ablation et des analyses de robustesse
Valeur pratique : Améliore significativement l'interprétabilité tout en maintenant les performances

Insuffisances

Analyse théorique insuffisante : Manque d'explication théorique approfondie sur l'efficacité de la méthode hybride
Complexité computationnelle : Analyse insuffisante de l'impact des termes de perte supplémentaires sur l'efficacité d'entraînement
Sensibilité aux hyperparamètres : Guidance insuffisante sur le choix des paramètres α et β
Absence de validation clinique : Pas d'évaluation par des experts en environnement clinique réel

Impact

Contribution académique : Fournit de nouvelles perspectives pour la recherche sur l'interprétabilité en imagerie médicale
Valeur pratique : Peut être directement appliquée aux systèmes de diagnostic d'imagerie médicale existants
Reproductibilité : Fournit des détails d'implémentation détaillés facilitant la reproduction

Scénarios d'Application

Diagnostic d'imagerie médicale : Particulièrement adapté aux applications cliniques nécessitant une haute interprétabilité
Tâches de classification multi-étiquettes : Extensible à d'autres problèmes de classification nécessitant un alignement d'attention
Environnements aux ressources limitées : La stratégie de supervision hybride convient aux scénarios avec ressources d'annotation limitées

Références

L'article cite plusieurs travaux connexes importants, notamment :

L'article original Vision Transformer (ViT) 3
Recherches sur les corrélations fallacieuses en imagerie médicale 2,5,6
Synthèse de l'apprentissage guidé par explications 4
Méthodes DWARF 11 et KAD 19

Évaluation Globale : Cet article de recherche de haute qualité apporte des contributions significatives au domaine de l'interprétabilité en imagerie médicale. Le cadre d'apprentissage hybride guidé par explications est bien conçu, la validation expérimentale est complète et les résultats sont convaincants. Malgré quelques limitations, il fournit une base solide et des directions prometteuses pour les recherches futures.