Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Shu, Luo, Poellinger et al.
Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
academic
Apprendimento Ibrido Guidato da Spiegazioni per la Diagnosi di Radiografie Toraciche Basata su Transformer
I modelli di apprendimento profondo basati su Transformer hanno dimostrato capacità eccezionali nella rappresentazione delle caratteristiche e nell'interpretabilità nelle immagini mediche attraverso meccanismi di attenzione. Tuttavia, questi modelli sono inclini ad apprendere correlazioni spurie, causando distorsioni e capacità di generalizzazione limitata. Sebbene l'allineamento dell'attenzione uomo-macchina possa mitigare questi problemi, spesso dipende da supervisione manuale costosa. Questo lavoro propone il framework H-EGL (Hybrid Explanation-Guided Learning), che combina vincoli auto-supervisionati e guidati dall'uomo per migliorare l'allineamento dell'attenzione e la capacità di generalizzazione. La componente auto-supervisionata di H-EGL sfrutta l'attenzione discriminativa di classe, senza dipendere da priori restrittivi, promuovendo robustezza e flessibilità. Validato su compiti di classificazione di radiografie toraciche utilizzando Vision Transformer (ViT), H-EGL supera due metodi di apprendimento guidato da spiegazioni all'avanguardia, dimostrando accuratezza di classificazione superiore e capacità di generalizzazione, mentre produce mappe di attenzione meglio allineate con gli esperti umani.
Il problema centrale affrontato da questa ricerca è quello delle correlazioni spurie e dell'allineamento dell'attenzione nei modelli di imaging medico basati su Transformer. Nello specifico:
Problema delle correlazioni spurie: Le reti neurali profonde tendono ad apprendere correlazioni spurie nei dati, causando apprendimento di scorciatoie, distorsioni e problemi di equità
Sfida dell'allineamento dell'attenzione: Sebbene l'allineamento dell'attenzione uomo-macchina possa migliorare la robustezza del modello, richiede annotazioni manuali costose
Limitazioni dei metodi esistenti: I metodi puramente auto-supervisionati potrebbero rafforzare interpretazioni errate, mentre i metodi di apprendimento contrastivo mancano di metodi standardizzati per generare campioni positivi e negativi
Metodi puramente supervisionati: Dipendono da annotazioni di esperti costose, con costi elevati
Metodi puramente auto-supervisionati: Potrebbero rafforzare interpretazioni spurie o erroneamente allineate
Metodi di vincolo tradizionali: Dipendono da priori rigidi come sparsità e levigatezza, che potrebbero inibire l'apprendimento di caratteristiche complesse
Propone il framework H-EGL: Prima applicazione di metodi di spiegazione ibrida guidata all'architettura Transformer, valutando e migliorando l'allineamento dell'attenzione uomo-macchina
Progetta la componente DAL: Propone l'Apprendimento dell'Attenzione Discriminativa (Discriminative Attention Learning), sfruttando mappe di attenzione discriminative di classe per l'apprendimento auto-supervisionato
Realizza miglioramenti di prestazioni: Supera i metodi all'avanguardia su compiti di classificazione di radiografie toraciche, raggiungendo un AUC del 89,3%
Migliora l'interpretabilità: Genera mappe di attenzione meglio allineate con la conoscenza degli esperti, mantenendo le prestazioni di classificazione
Input: Immagini di radiografie toraciche ed etichette di malattie in formato testo
Output: Previsioni di classificazione multi-etichetta di malattie e mappe di attenzione specifiche per classe
Obiettivo: Aumentare l'accuratezza della classificazione generando contemporaneamente mappe di attenzione allineate con le regioni annotate da esperti umani
1. Modulo di Allineamento Uomo-Macchina
Implementa l'allineamento tra mappe di attenzione e maschere di esperti utilizzando una perdita Dice penalizzata:
dove A_i è la mappa di attenzione generata dal modello e M_i è la maschera dell'esperto.
2. Apprendimento dell'Attenzione Discriminativa (DAL)
Migliora la discriminatività di classe minimizzando la similarità tra mappe di attenzione di classi diverse:
L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|
dove S(A_i, A_j) è la similarità del coseno tra le mappe di attenzione A_i e A_j.
Nessuna generazione di campioni negativi: DAL evita il complesso problema della costruzione di campioni negativi nell'apprendimento contrastivo tradizionale
Bias induttivo flessibile: Non dipende da vincoli rigidi come la sparsità, mantenendo la capacità del modello di apprendere caratteristiche complesse
Sfruttamento diretto dell'attenzione ViT: Utilizza pienamente il meccanismo di attenzione intrinseco di Transformer, piuttosto che strumenti di interpretazione a posteriori
Strategia di supervisione ibrida: Bilancia la guida umana e l'apprendimento autonomo, realizzando un equilibrio ottimale tra efficienza dei costi e prestazioni
Dataset ChestXDet: Sottoinsieme di NIH ChestX-ray14
Scala: 3.578 pazienti, 3.025 campioni nel set di addestramento, 553 campioni nel set di test
Annotazioni: Include annotazioni di riquadri di delimitazione e poligoni per 4 patologie toraciche (atelettasia, cardiomegalia, consolidamento, versamento)
Validazione: Qualità delle annotazioni verificata da tre radiologi
H-EGL combina efficacemente supervisione auto-supervisionata e umana, realizzando prestazioni di classificazione superiori e allineamento dell'attenzione
La componente DAL fornisce bias induttivo flessibile, evitando la regolarizzazione eccessiva
La strategia ibrida raggiunge un buon equilibrio tra efficienza dei costi e prestazioni
L'articolo cita numerosi lavori correlati importanti, inclusi:
Articolo originale di Vision Transformer (ViT)3
Ricerca su correlazioni spurie nell'imaging medico2,5,6
Revisione dell'apprendimento guidato da spiegazioni4
Metodo DWARF11 e metodo KAD19
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità che fornisce contributi significativi nel campo dell'interpretabilità dell'imaging medico. Il framework di apprendimento guidato da spiegazioni ibrido è ben progettato, la verifica sperimentale è completa e i risultati sono convincenti. Nonostante alcune limitazioni, fornisce una base solida e direzioni per la ricerca futura.