2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.

Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.

academic

Hybrid Explanation-Guided Learning für Transformer-basierte Thorax-Röntgen-Diagnose

Grundinformationen

Paper-ID: 2510.12704
Titel: Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Autoren: Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
Klassifizierung: cs.CV cs.AI
Veröffentlichungsdatum: 14. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.12704v1

Zusammenfassung

Transformer-basierte Deep-Learning-Modelle haben durch Aufmerksamkeitsmechanismen außergewöhnliche Fähigkeiten in der Merkmalsdarstellung und Interpretierbarkeit in der medizinischen Bildgebung demonstriert. Diese Modelle neigen jedoch dazu, falsche Korrelationen zu erlernen, was zu Verzerrungen und begrenzter Verallgemeinerungsfähigkeit führt. Obwohl die Ausrichtung von Mensch-Maschinen-Aufmerksamkeit diese Probleme lindern kann, ist sie oft auf teure manuelle Überwachung angewiesen. Diese Arbeit präsentiert das Hybrid Explanation-Guided Learning (H-EGL)-Framework, das selbstüberwachte und manuell gelenkte Einschränkungen kombiniert, um die Aufmerksamkeitsausrichtung zu verbessern und die Verallgemeinerungsfähigkeit zu erhöhen. Die selbstüberwachte Komponente von H-EGL nutzt klassenunterscheidende Aufmerksamkeit ohne Abhängigkeit von restriktiven Priors und fördert Robustheit und Flexibilität. Die Validierung auf Thorax-Röntgen-Klassifizierungsaufgaben mit Vision Transformer (ViT) zeigt, dass H-EGL zwei hochmoderne Explanation-Guided-Learning-Methoden übertrifft und überlegene Klassifizierungsgenauigkeit, Verallgemeinerungsfähigkeit und Aufmerksamkeitskarten aufweist, die besser mit menschlichen Experten übereinstimmen.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme, die diese Forschung adressiert, sind falsche Korrelationen beim Lernen und Aufmerksamkeitsausrichtung in Transformer-basierten medizinischen Bildgebungsmodellen. Dies umfasst speziell:

Problem falscher Korrelationen: Tiefe neuronale Netze neigen dazu, falsche Korrelationen in Daten zu erlernen, was zu Shortcut-Lernen, Verzerrungen und Fairness-Problemen führt
Herausforderung der Aufmerksamkeitsausrichtung: Obwohl die Ausrichtung von Mensch-Maschinen-Aufmerksamkeit die Modellrobustheit verbessern kann, erfordert sie teure manuelle Annotationen
Einschränkungen bestehender Methoden: Rein selbstüberwachte Methoden können fehlerhafte Interpretationen verstärken, während Contrastive-Learning-Methoden standardisierte Methoden zur Generierung positiver und negativer Stichproben vermissen lassen

Forschungsbedeutung

In der medizinischen Bildgebungsdiagnose sind Interpretierbarkeit und Zuverlässigkeit des Modells von entscheidender Bedeutung. Fehlerhafte Aufmerksamkeitsmuster können zu folgenden Konsequenzen führen:

Fehler bei klinischen Entscheidungen
Übersehen kritischer pathologischer Merkmale
Verallgemeinerungsversagen des Modells bei unterschiedlichen Datenverteilungen

Einschränkungen bestehender Methoden

Rein überwachte Methoden: Abhängig von teurer Expertenkommentierung mit hohen Kosten
Rein selbstüberwachte Methoden: Können fehlerhafte oder falsch ausgerichtete Interpretationen verstärken
Traditionelle Constraint-Methoden: Abhängig von starren Priors wie Sparsität und Glätte, die komplexes Merkmalslernen möglicherweise hemmen

Kernbeiträge

H-EGL-Framework: Erstmalige Anwendung einer hybriden Explanation-Guided-Methode auf Transformer-Architektur mit Bewertung und Verbesserung der Mensch-Maschinen-Aufmerksamkeitsausrichtung
DAL-Komponente: Vorschlag von Discriminative Attention Learning (DAL), das klassenunterscheidende Aufmerksamkeitskarten für selbstüberwachtes Lernen nutzt
Leistungsverbesserung: Übertreffung bestehender hochmoderner Methoden bei Thorax-Röntgen-Klassifizierungsaufgaben mit AUC von 89,3%
Verbesserte Interpretierbarkeit: Generierung von Aufmerksamkeitskarten, die besser mit Expertenwissen übereinstimmen, während die Klassifizierungsleistung erhalten bleibt

Methodische Details

Aufgabendefinition

Eingabe: Thorax-Röntgenbilder und Krankheitsetikett-Text Ausgabe: Vorhersagen der Mehrklassen-Krankheitsklassifizierung und klassenspezifische Aufmerksamkeitskarten Ziel: Verbesserung der Klassifizierungsgenauigkeit bei gleichzeitiger Generierung von Aufmerksamkeitskarten, die mit von menschlichen Experten annotierten Regionen übereinstimmen

Modellarchitektur

Gesamtrahmen

H-EGL basiert auf der DWARF-Architektur mit einer ViT-Encoder-Decoder-Struktur:

Text-Encoder: Gefrorenes Med-KEBERT zur Verarbeitung von Krankheitsetiketten
Visueller Encoder: Trainierbares ViT-B zur Verarbeitung von 224×224-Eingabebildern
Cross-Attention-Decoder: Fusion von visuellen und Textmerkmalen

Kernkomponenten

1. Mensch-Maschinen-Ausrichtungsmodul Implementierung der Aufmerksamkeitskarten-Ausrichtung mit Experten-Annotationen mittels Penalty-Dice-Verlust:

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

Wobei A_i die vom Modell generierte Aufmerksamkeitskarte ist und M_i die Experten-Maske darstellt.

2. Discriminative Attention Learning (DAL) Verbesserung der Klassenunterscheidung durch Minimierung der Ähnlichkeit von Aufmerksamkeitskarten verschiedener Klassen:

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

Wobei S(A_i, A_j) die Kosinus-Ähnlichkeit zwischen den Aufmerksamkeitskarten A_i und A_j ist.

Einheitliche Verlustfunktion

L_H-EGL = L_CE + α×L_HA + β×L_DAL

Technische Innovationen

Keine Generierung negativer Stichproben erforderlich: DAL vermeidet die komplexe Konstruktion negativer Stichproben im traditionellen Contrastive Learning
Flexible induktive Verzerrung: Nicht abhängig von starren Constraints wie Sparsität, behält die Fähigkeit des Modells zur Erlernung komplexer Merkmale
Direkte Nutzung von ViT-Aufmerksamkeit: Vollständige Nutzung des inhärenten Aufmerksamkeitsmechanismus von Transformern statt Post-hoc-Interpretationswerkzeugen
Hybride Überwachungsstrategie: Ausgewogene Kombination von manueller Anleitung und autonomem Lernen für optimale Kosteneffizienz und Leistung

Experimentelle Einrichtung

Datensätze

ChestXDet-Datensatz: Teilmenge des NIH ChestX-ray14
Umfang: 3.578 Patienten, 3.025 Trainingsmuster, 553 Testmuster
Annotationen: Begrenzungsrahmen und Polygon-Annotationen für vier Thorax-Pathologien (Atelektase, Kardiomegalie, Konsolidierung, Erguss)
Validierung: Qualitätsprüfung durch drei Radiologen
Aufteilung: 80-20 Trainings-Validierungs-Aufteilung

Bewertungsmetriken

Klassifizierungsmetriken: AUC, F1-Score, MCC (Matthews-Korrelationskoeffizient)
Verallgemeinerungsfähigkeit: Leistungslücke zwischen Validierungs- und Testmenge
Robustheit: Leistung bei verschiedenen Rauschpegeln

Vergleichsmethoden

KAD: Knowledge-Aware Detection Framework, nutzt Wissensgraphen zur Verbesserung des visuellen Denkens
GAIN: Gradient-basiertes Attention Network, verbessert Interpretierbarkeit durch verfeinerte Aufmerksamkeitsmechanismen
DWARF(β=0): Nur mit manueller Annotation geleitetes Explanation-Guided Learning
DAL(α=0): Rein selbstüberwachtes Explanation-Guided Learning

Implementierungsdetails

Optimierer: AdamW, Lernrate 1e-5
Trainingsstrategie: 1000 Epochen, Early Stopping mit Geduld 50, 20 Epochen Aufwärmphase
Batch-Größe: 32
Hardware: RTX 4090 GPU, CUDA v12.2
Hyperparameter: α=1,0, β=1,0, w_FP=1

Experimentelle Ergebnisse

Hauptergebnisse

Methode	AUC_test(%)	AUC_gap(%)	F1_test(%)	F1_gap(%)	MCC_test(%)	MCC_gap(%)
KAD	88,1±0,3	2,5	68,2±2,5	1,8	57,5±2,3	4,8
GAIN	88,0±0,4	2,7	67,8±2,2	2,4	57,2±2,0	5,6
H-EGL	89,3±0,7	1,5	69,4±1,9	0,5	58,3±2,5	3,8

Schlüsselfunde:

H-EGL erreicht optimale Leistung bei allen Metriken
Signifikante Reduzierung der Verallgemeinerungslücke, was auf bessere Robustheit hinweist
Niedrige Varianz (0,7%), was stabile Leistung anzeigt

Ablationsstudien

H-EGL(α=0): AUC 89,3±1,0%, validiert die Effektivität von DAL
H-EGL(β=0): AUC 88,4±0,2%, zeigt den Beitrag der manuellen Ausrichtung
Hybridmethode übertrifft jede einzelne Komponente

Robustheitsanalyse

Tests bei verschiedenen Rauschpegeln (σ=0, 0,03, 0,05, 0,1) zeigen:

Alle Methoden zeigen Leistungsabfall bei erhöhtem Rauschen
H-EGL behält optimale Leistung bei allen Rauschpegeln
Demonstriert überlegene Robustheit

Qualitative Analyse

Visualisierung von Aufmerksamkeitskarten zeigt:

Baseline KAD: Deckt zwar manuell annotierte Regionen ab, hebt aber fälschlicherweise die unteren Lungenlappen hervor
DWARF: Reduziert falsche positive Ergebnisse in der unteren Region, konzentriert sich aber fälschlicherweise auf die linke Lunge
H-EGL und DAL: Identifizieren pathologische Regionen genauer, reduzieren falsche positive Ergebnisse erheblich

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

H-EGL kombiniert effektiv selbstüberwachtes und manuelles Lernen und erreicht überlegene Klassifizierungsleistung und Aufmerksamkeitsausrichtung
Die DAL-Komponente bietet flexible induktive Verzerrung und vermeidet Überregularisierung
Die Hybridstrategie erreicht gutes Gleichgewicht zwischen Kosteneffizienz und Leistung

Einschränkungen

Datensatzgröße: Validierung nur auf dem relativ kleinen ChestXDet-Datensatz
Krankheitskategorien: Bewertung nur von vier Thorax-Erkrankungen
Architekturabhängigkeit: Hauptsächlich für ViT-Architektur konzipiert
Hyperparameter-Sensitivität: Optimale Einstellungen für α und β können je nach Aufgabe variieren

Zukünftige Richtungen

Dynamische Ausrichtungsmechanismen: Erkundung adaptiver Anpassung des Verhältnisses zwischen selbstüberwachtem und manuellem Lernen während des Trainings
Großflächige Validierung: Validierung auf größeren Datensätzen und mehr Krankheitskategorien
Cross-Modality-Erweiterung: Erweiterung auf andere medizinische Bildgebungsmodalitäten
Klinische Bereitstellung: Untersuchung der Anwendungseffektivität in echten klinischen Umgebungen

Tiefgreifende Bewertung

Stärken

Methodische Innovation: Erstmalige Anwendung von Hybrid Explanation-Guided Learning auf medizinische Bildgebungs-Transformer
Technische Rationalität: Geschicktes DAL-Design vermeidet Komplexität des traditionellen Contrastive Learning
Experimentelle Vollständigkeit: Umfassende Vergleichsexperimente, Ablationsstudien und Robustheitsanalysen
Praktischer Wert: Signifikante Verbesserung der Interpretierbarkeit bei Beibehaltung der Leistung

Mängel

Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum die Hybridmethode effektiv ist
Rechenkomplexität: Unzureichende Analyse der Auswirkungen zusätzlicher Verlustterme auf Trainingseffizienz
Hyperparameter-Sensitivität: Unzureichende Anleitung zur Auswahl von α- und β-Parametern
Fehlende klinische Validierung: Keine Expertenbeurteilung in echten klinischen Umgebungen

Auswirkungen

Akademischer Beitrag: Bietet neue Perspektiven für Interpretierbarkeitsforschung in der medizinischen Bildgebung
Praktischer Wert: Direkt anwendbar auf bestehende medizinische Bildgebungsdiagnosesysteme
Reproduzierbarkeit: Detaillierte Implementierungsdetails ermöglichen einfache Reproduktion

Anwendungsszenarien

Medizinische Bildgebungsdiagnose: Besonders geeignet für klinische Anwendungen mit hohen Anforderungen an Interpretierbarkeit
Mehrklassen-Klassifizierungsaufgaben: Erweiterbar auf andere Klassifizierungsprobleme, die Aufmerksamkeitsausrichtung erfordern
Ressourcenbegrenzte Umgebungen: Hybride Überwachungsstrategie geeignet für Szenarien mit begrenzten Annotationsressourcen

Referenzen

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

Vision Transformer (ViT) Originalpapier 3
Forschung zu falschen Korrelationen in der medizinischen Bildgebung 2,5,6
Übersicht über Explanation-Guided Learning 4
DWARF-Methode 11 und KAD-Methode 19

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das einen bedeutsamen Beitrag zum Bereich der Interpretierbarkeit in der medizinischen Bildgebung leistet. Das Hybrid Explanation-Guided-Learning-Framework ist rational konzipiert, die experimentelle Validierung ist umfassend und die Ergebnisse sind überzeugend. Trotz einiger Einschränkungen bietet es eine solide Grundlage und Richtung für zukünftige Forschung.