2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.

Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.

academic

Apprendimento Ibrido Guidato da Spiegazioni per la Diagnosi di Radiografie Toraciche Basata su Transformer

Informazioni Fondamentali

ID Articolo: 2510.12704
Titolo: Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Autori: Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
Classificazione: cs.CV cs.AI
Data di Pubblicazione: 14 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.12704v1

Riassunto

I modelli di apprendimento profondo basati su Transformer hanno dimostrato capacità eccezionali nella rappresentazione delle caratteristiche e nell'interpretabilità nelle immagini mediche attraverso meccanismi di attenzione. Tuttavia, questi modelli sono inclini ad apprendere correlazioni spurie, causando distorsioni e capacità di generalizzazione limitata. Sebbene l'allineamento dell'attenzione uomo-macchina possa mitigare questi problemi, spesso dipende da supervisione manuale costosa. Questo lavoro propone il framework H-EGL (Hybrid Explanation-Guided Learning), che combina vincoli auto-supervisionati e guidati dall'uomo per migliorare l'allineamento dell'attenzione e la capacità di generalizzazione. La componente auto-supervisionata di H-EGL sfrutta l'attenzione discriminativa di classe, senza dipendere da priori restrittivi, promuovendo robustezza e flessibilità. Validato su compiti di classificazione di radiografie toraciche utilizzando Vision Transformer (ViT), H-EGL supera due metodi di apprendimento guidato da spiegazioni all'avanguardia, dimostrando accuratezza di classificazione superiore e capacità di generalizzazione, mentre produce mappe di attenzione meglio allineate con gli esperti umani.

Contesto di Ricerca e Motivazione

Definizione del Problema

Il problema centrale affrontato da questa ricerca è quello delle correlazioni spurie e dell'allineamento dell'attenzione nei modelli di imaging medico basati su Transformer. Nello specifico:

Problema delle correlazioni spurie: Le reti neurali profonde tendono ad apprendere correlazioni spurie nei dati, causando apprendimento di scorciatoie, distorsioni e problemi di equità
Sfida dell'allineamento dell'attenzione: Sebbene l'allineamento dell'attenzione uomo-macchina possa migliorare la robustezza del modello, richiede annotazioni manuali costose
Limitazioni dei metodi esistenti: I metodi puramente auto-supervisionati potrebbero rafforzare interpretazioni errate, mentre i metodi di apprendimento contrastivo mancano di metodi standardizzati per generare campioni positivi e negativi

Importanza della Ricerca

Nella diagnosi di imaging medico, l'interpretabilità e l'affidabilità del modello sono cruciali. Modelli di attenzione errati potrebbero causare:

Errori nelle decisioni cliniche
Omissione di caratteristiche patologiche critiche
Fallimento della generalizzazione del modello su diverse distribuzioni di dati

Limitazioni dei Metodi Esistenti

Metodi puramente supervisionati: Dipendono da annotazioni di esperti costose, con costi elevati
Metodi puramente auto-supervisionati: Potrebbero rafforzare interpretazioni spurie o erroneamente allineate
Metodi di vincolo tradizionali: Dipendono da priori rigidi come sparsità e levigatezza, che potrebbero inibire l'apprendimento di caratteristiche complesse

Contributi Principali

Propone il framework H-EGL: Prima applicazione di metodi di spiegazione ibrida guidata all'architettura Transformer, valutando e migliorando l'allineamento dell'attenzione uomo-macchina
Progetta la componente DAL: Propone l'Apprendimento dell'Attenzione Discriminativa (Discriminative Attention Learning), sfruttando mappe di attenzione discriminative di classe per l'apprendimento auto-supervisionato
Realizza miglioramenti di prestazioni: Supera i metodi all'avanguardia su compiti di classificazione di radiografie toraciche, raggiungendo un AUC del 89,3%
Migliora l'interpretabilità: Genera mappe di attenzione meglio allineate con la conoscenza degli esperti, mantenendo le prestazioni di classificazione

Spiegazione Dettagliata del Metodo

Definizione del Compito

Input: Immagini di radiografie toraciche ed etichette di malattie in formato testo Output: Previsioni di classificazione multi-etichetta di malattie e mappe di attenzione specifiche per classe Obiettivo: Aumentare l'accuratezza della classificazione generando contemporaneamente mappe di attenzione allineate con le regioni annotate da esperti umani

Architettura del Modello

Framework Generale

H-EGL è costruito sulla base dell'architettura DWARF, adottando una struttura encoder-decoder ViT:

Encoder di testo: Med-KEBERT congelato, elabora le etichette di malattie
Encoder visivo: ViT-B addestrabile, elabora immagini di input 224×224
Decoder di attenzione incrociata: Fonde caratteristiche visive e testuali

Componenti Principali

1. Modulo di Allineamento Uomo-Macchina Implementa l'allineamento tra mappe di attenzione e maschere di esperti utilizzando una perdita Dice penalizzata:

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

dove A_i è la mappa di attenzione generata dal modello e M_i è la maschera dell'esperto.

2. Apprendimento dell'Attenzione Discriminativa (DAL) Migliora la discriminatività di classe minimizzando la similarità tra mappe di attenzione di classi diverse:

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

dove S(A_i, A_j) è la similarità del coseno tra le mappe di attenzione A_i e A_j.

Funzione di Perdita Unificata

L_H-EGL = L_CE + α×L_HA + β×L_DAL

Punti di Innovazione Tecnica

Nessuna generazione di campioni negativi: DAL evita il complesso problema della costruzione di campioni negativi nell'apprendimento contrastivo tradizionale
Bias induttivo flessibile: Non dipende da vincoli rigidi come la sparsità, mantenendo la capacità del modello di apprendere caratteristiche complesse
Sfruttamento diretto dell'attenzione ViT: Utilizza pienamente il meccanismo di attenzione intrinseco di Transformer, piuttosto che strumenti di interpretazione a posteriori
Strategia di supervisione ibrida: Bilancia la guida umana e l'apprendimento autonomo, realizzando un equilibrio ottimale tra efficienza dei costi e prestazioni

Configurazione Sperimentale

Dataset

Dataset ChestXDet: Sottoinsieme di NIH ChestX-ray14
Scala: 3.578 pazienti, 3.025 campioni nel set di addestramento, 553 campioni nel set di test
Annotazioni: Include annotazioni di riquadri di delimitazione e poligoni per 4 patologie toraciche (atelettasia, cardiomegalia, consolidamento, versamento)
Validazione: Qualità delle annotazioni verificata da tre radiologi
Divisione: Divisione addestramento-validazione 80-20

Metriche di Valutazione

Metriche di classificazione: AUC, punteggio F1, MCC (coefficiente di correlazione di Matthews)
Capacità di generalizzazione: Differenza di prestazioni tra set di validazione e test
Robustezza: Prestazioni a diversi livelli di rumore

Metodi di Confronto

KAD: Framework di rilevamento consapevole della conoscenza, sfrutta grafi di conoscenza per migliorare il ragionamento visivo
GAIN: Rete di attenzione basata su gradienti, migliora l'interpretabilità attraverso meccanismi di attenzione raffinati
DWARF(β=0): Apprendimento guidato da spiegazioni utilizzando solo guida di annotazione umana
DAL(α=0): Apprendimento guidato da spiegazioni puramente auto-supervisionato

Dettagli di Implementazione

Ottimizzatore: AdamW, tasso di apprendimento 1e-5
Strategia di addestramento: 1000 epoche di addestramento, early stopping con pazienza 50, riscaldamento 20 epoche
Dimensione del batch: 32
Hardware: GPU RTX 4090, CUDA v12.2
Iperparametri: α=1.0, β=1.0, w_FP=1

Risultati Sperimentali

Risultati Principali

Metodo	AUC_test(%)	AUC_gap(%)	F1_test(%)	F1_gap(%)	MCC_test(%)	MCC_gap(%)
KAD	88.1±0.3	2.5	68.2±2.5	1.8	57.5±2.3	4.8
GAIN	88.0±0.4	2.7	67.8±2.2	2.4	57.2±2.0	5.6
H-EGL	89.3±0.7	1.5	69.4±1.9	0.5	58.3±2.5	3.8

Scoperte Chiave:

H-EGL raggiunge le migliori prestazioni su tutte le metriche
Riduce significativamente il divario di generalizzazione, indicando migliore robustezza
Varianza bassa (0.7%), dimostrando prestazioni stabili

Esperimenti di Ablazione

H-EGL(α=0): AUC 89.3±1.0%, verifica l'efficacia di DAL
H-EGL(β=0): AUC 88.4±0.2%, mostra il contributo dell'allineamento umano
Il metodo ibrido supera qualsiasi componente singola

Analisi di Robustezza

Test a diversi livelli di rumore (σ=0, 0.03, 0.05, 0.1) dimostrano:

Tutte le prestazioni dei metodi diminuiscono con l'aumento del rumore
H-EGL mantiene prestazioni ottimali a tutti i livelli di rumore
Dimostra robustezza superiore

Analisi Qualitativa

La visualizzazione delle mappe di attenzione mostra:

KAD di base: Sebbene copra le regioni annotate manualmente, evidenzia erroneamente i lobi inferiori bilaterali
DWARF: Riduce i falsi positivi inferiori, ma si concentra erroneamente sul polmone sinistro
H-EGL e DAL: Identificano più accuratamente le regioni patologiche, riducono significativamente i falsi positivi

Lavori Correlati

Principali Direzioni di Ricerca

Apprendimento Guidato da Spiegazioni (EGL): Sfrutta informazioni di spiegazione per guidare l'apprendimento del modello
Allineamento dell'Attenzione Uomo-Macchina: Integra la conoscenza umana per migliorare l'interpretabilità del modello
Applicazione di Transformer nell'Imaging Medico: Utilizza meccanismi di attenzione per la diagnosi di malattie

Vantaggi di Questo Lavoro

Prima applicazione di metodi di spiegazione ibrida guidata in Transformer per imaging medico
Propone una strategia di apprendimento dell'attenzione auto-supervisionata senza necessità di campioni negativi
Realizza il doppio miglioramento di prestazioni e interpretabilità

Conclusioni e Discussione

Conclusioni Principali

H-EGL combina efficacemente supervisione auto-supervisionata e umana, realizzando prestazioni di classificazione superiori e allineamento dell'attenzione
La componente DAL fornisce bias induttivo flessibile, evitando la regolarizzazione eccessiva
La strategia ibrida raggiunge un buon equilibrio tra efficienza dei costi e prestazioni

Limitazioni

Scala del dataset: Validazione solo su dataset ChestXDet relativamente piccolo
Categorie di malattie: Valutazione solo di 4 malattie toraciche
Dipendenza dall'architettura: Progettato principalmente per l'architettura ViT
Sensibilità agli iperparametri: Le impostazioni ottimali dei parametri α e β potrebbero variare in base al compito

Direzioni Future

Meccanismi di allineamento dinamico: Esplorare l'adattamento automatico del grado di supervisione auto-supervisionata e umana durante l'addestramento
Validazione su larga scala: Verificare su dataset più grandi e più categorie di malattie
Estensione multimodale: Estendere ad altre modalità di imaging medico
Distribuzione clinica: Ricercare gli effetti dell'applicazione in ambienti clinici reali

Valutazione Approfondita

Punti di Forza

Innovazione metodologica: Prima applicazione di apprendimento guidato da spiegazioni ibrido a Transformer per imaging medico
Razionalità tecnica: Il design di DAL è ingegnoso, evitando la complessità dell'apprendimento contrastivo tradizionale
Completezza sperimentale: Include esperimenti di confronto completi, esperimenti di ablazione e analisi di robustezza
Valore pratico: Migliora significativamente l'interpretabilità mantenendo le prestazioni

Insufficienze

Analisi teorica insufficiente: Manca una spiegazione teorica approfondita del perché il metodo ibrido è efficace
Complessità computazionale: Manca un'analisi dettagliata dell'impatto dei termini di perdita aggiuntivi sull'efficienza di addestramento
Guida sulla sensibilità agli iperparametri: Guida insufficiente sulla scelta dei parametri α e β
Assenza di validazione clinica: Non include valutazione di esperti in ambienti clinici reali

Impatto

Contributo accademico: Fornisce nuove prospettive per la ricerca sull'interpretabilità dell'imaging medico
Valore pratico: Può essere direttamente applicato ai sistemi di diagnosi di imaging medico esistenti
Riproducibilità: Fornisce dettagli di implementazione dettagliati, facilitando la riproduzione

Scenari Applicabili

Diagnosi di imaging medico: Particolarmente adatto per applicazioni cliniche che richiedono alta interpretabilità
Compiti di classificazione multi-etichetta: Estendibile ad altri problemi di classificazione che richiedono allineamento dell'attenzione
Ambienti con risorse limitate: La strategia di supervisione ibrida è adatta a scenari con risorse di annotazione limitate

Bibliografia

L'articolo cita numerosi lavori correlati importanti, inclusi:

Articolo originale di Vision Transformer (ViT)3
Ricerca su correlazioni spurie nell'imaging medico2,5,6
Revisione dell'apprendimento guidato da spiegazioni4
Metodo DWARF11 e metodo KAD19

Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce contributi significativi nel campo dell'interpretabilità dell'imaging medico. Il framework di apprendimento guidato da spiegazioni ibrido è ben progettato, la verifica sperimentale è completa e i risultati sono convincenti. Nonostante alcune limitazioni, fornisce una base solida e direzioni per la ricerca futura.