2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.
Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
academic

Hybrid Explanation-Guided Learning für Transformer-basierte Thorax-Röntgen-Diagnose

Grundinformationen

  • Paper-ID: 2510.12704
  • Titel: Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
  • Autoren: Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
  • Klassifizierung: cs.CV cs.AI
  • Veröffentlichungsdatum: 14. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.12704v1

Zusammenfassung

Transformer-basierte Deep-Learning-Modelle haben durch Aufmerksamkeitsmechanismen außergewöhnliche Fähigkeiten in der Merkmalsdarstellung und Interpretierbarkeit in der medizinischen Bildgebung demonstriert. Diese Modelle neigen jedoch dazu, falsche Korrelationen zu erlernen, was zu Verzerrungen und begrenzter Verallgemeinerungsfähigkeit führt. Obwohl die Ausrichtung von Mensch-Maschinen-Aufmerksamkeit diese Probleme lindern kann, ist sie oft auf teure manuelle Überwachung angewiesen. Diese Arbeit präsentiert das Hybrid Explanation-Guided Learning (H-EGL)-Framework, das selbstüberwachte und manuell gelenkte Einschränkungen kombiniert, um die Aufmerksamkeitsausrichtung zu verbessern und die Verallgemeinerungsfähigkeit zu erhöhen. Die selbstüberwachte Komponente von H-EGL nutzt klassenunterscheidende Aufmerksamkeit ohne Abhängigkeit von restriktiven Priors und fördert Robustheit und Flexibilität. Die Validierung auf Thorax-Röntgen-Klassifizierungsaufgaben mit Vision Transformer (ViT) zeigt, dass H-EGL zwei hochmoderne Explanation-Guided-Learning-Methoden übertrifft und überlegene Klassifizierungsgenauigkeit, Verallgemeinerungsfähigkeit und Aufmerksamkeitskarten aufweist, die besser mit menschlichen Experten übereinstimmen.

Forschungshintergrund und Motivation

Problemdefinition

Die Kernprobleme, die diese Forschung adressiert, sind falsche Korrelationen beim Lernen und Aufmerksamkeitsausrichtung in Transformer-basierten medizinischen Bildgebungsmodellen. Dies umfasst speziell:

  1. Problem falscher Korrelationen: Tiefe neuronale Netze neigen dazu, falsche Korrelationen in Daten zu erlernen, was zu Shortcut-Lernen, Verzerrungen und Fairness-Problemen führt
  2. Herausforderung der Aufmerksamkeitsausrichtung: Obwohl die Ausrichtung von Mensch-Maschinen-Aufmerksamkeit die Modellrobustheit verbessern kann, erfordert sie teure manuelle Annotationen
  3. Einschränkungen bestehender Methoden: Rein selbstüberwachte Methoden können fehlerhafte Interpretationen verstärken, während Contrastive-Learning-Methoden standardisierte Methoden zur Generierung positiver und negativer Stichproben vermissen lassen

Forschungsbedeutung

In der medizinischen Bildgebungsdiagnose sind Interpretierbarkeit und Zuverlässigkeit des Modells von entscheidender Bedeutung. Fehlerhafte Aufmerksamkeitsmuster können zu folgenden Konsequenzen führen:

  • Fehler bei klinischen Entscheidungen
  • Übersehen kritischer pathologischer Merkmale
  • Verallgemeinerungsversagen des Modells bei unterschiedlichen Datenverteilungen

Einschränkungen bestehender Methoden

  1. Rein überwachte Methoden: Abhängig von teurer Expertenkommentierung mit hohen Kosten
  2. Rein selbstüberwachte Methoden: Können fehlerhafte oder falsch ausgerichtete Interpretationen verstärken
  3. Traditionelle Constraint-Methoden: Abhängig von starren Priors wie Sparsität und Glätte, die komplexes Merkmalslernen möglicherweise hemmen

Kernbeiträge

  1. H-EGL-Framework: Erstmalige Anwendung einer hybriden Explanation-Guided-Methode auf Transformer-Architektur mit Bewertung und Verbesserung der Mensch-Maschinen-Aufmerksamkeitsausrichtung
  2. DAL-Komponente: Vorschlag von Discriminative Attention Learning (DAL), das klassenunterscheidende Aufmerksamkeitskarten für selbstüberwachtes Lernen nutzt
  3. Leistungsverbesserung: Übertreffung bestehender hochmoderner Methoden bei Thorax-Röntgen-Klassifizierungsaufgaben mit AUC von 89,3%
  4. Verbesserte Interpretierbarkeit: Generierung von Aufmerksamkeitskarten, die besser mit Expertenwissen übereinstimmen, während die Klassifizierungsleistung erhalten bleibt

Methodische Details

Aufgabendefinition

Eingabe: Thorax-Röntgenbilder und Krankheitsetikett-Text Ausgabe: Vorhersagen der Mehrklassen-Krankheitsklassifizierung und klassenspezifische Aufmerksamkeitskarten Ziel: Verbesserung der Klassifizierungsgenauigkeit bei gleichzeitiger Generierung von Aufmerksamkeitskarten, die mit von menschlichen Experten annotierten Regionen übereinstimmen

Modellarchitektur

Gesamtrahmen

H-EGL basiert auf der DWARF-Architektur mit einer ViT-Encoder-Decoder-Struktur:

  1. Text-Encoder: Gefrorenes Med-KEBERT zur Verarbeitung von Krankheitsetiketten
  2. Visueller Encoder: Trainierbares ViT-B zur Verarbeitung von 224×224-Eingabebildern
  3. Cross-Attention-Decoder: Fusion von visuellen und Textmerkmalen

Kernkomponenten

1. Mensch-Maschinen-Ausrichtungsmodul Implementierung der Aufmerksamkeitskarten-Ausrichtung mit Experten-Annotationen mittels Penalty-Dice-Verlust:

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

Wobei A_i die vom Modell generierte Aufmerksamkeitskarte ist und M_i die Experten-Maske darstellt.

2. Discriminative Attention Learning (DAL) Verbesserung der Klassenunterscheidung durch Minimierung der Ähnlichkeit von Aufmerksamkeitskarten verschiedener Klassen:

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

Wobei S(A_i, A_j) die Kosinus-Ähnlichkeit zwischen den Aufmerksamkeitskarten A_i und A_j ist.

Einheitliche Verlustfunktion

L_H-EGL = L_CE + α×L_HA + β×L_DAL

Technische Innovationen

  1. Keine Generierung negativer Stichproben erforderlich: DAL vermeidet die komplexe Konstruktion negativer Stichproben im traditionellen Contrastive Learning
  2. Flexible induktive Verzerrung: Nicht abhängig von starren Constraints wie Sparsität, behält die Fähigkeit des Modells zur Erlernung komplexer Merkmale
  3. Direkte Nutzung von ViT-Aufmerksamkeit: Vollständige Nutzung des inhärenten Aufmerksamkeitsmechanismus von Transformern statt Post-hoc-Interpretationswerkzeugen
  4. Hybride Überwachungsstrategie: Ausgewogene Kombination von manueller Anleitung und autonomem Lernen für optimale Kosteneffizienz und Leistung

Experimentelle Einrichtung

Datensätze

  • ChestXDet-Datensatz: Teilmenge des NIH ChestX-ray14
  • Umfang: 3.578 Patienten, 3.025 Trainingsmuster, 553 Testmuster
  • Annotationen: Begrenzungsrahmen und Polygon-Annotationen für vier Thorax-Pathologien (Atelektase, Kardiomegalie, Konsolidierung, Erguss)
  • Validierung: Qualitätsprüfung durch drei Radiologen
  • Aufteilung: 80-20 Trainings-Validierungs-Aufteilung

Bewertungsmetriken

  • Klassifizierungsmetriken: AUC, F1-Score, MCC (Matthews-Korrelationskoeffizient)
  • Verallgemeinerungsfähigkeit: Leistungslücke zwischen Validierungs- und Testmenge
  • Robustheit: Leistung bei verschiedenen Rauschpegeln

Vergleichsmethoden

  1. KAD: Knowledge-Aware Detection Framework, nutzt Wissensgraphen zur Verbesserung des visuellen Denkens
  2. GAIN: Gradient-basiertes Attention Network, verbessert Interpretierbarkeit durch verfeinerte Aufmerksamkeitsmechanismen
  3. DWARF(β=0): Nur mit manueller Annotation geleitetes Explanation-Guided Learning
  4. DAL(α=0): Rein selbstüberwachtes Explanation-Guided Learning

Implementierungsdetails

  • Optimierer: AdamW, Lernrate 1e-5
  • Trainingsstrategie: 1000 Epochen, Early Stopping mit Geduld 50, 20 Epochen Aufwärmphase
  • Batch-Größe: 32
  • Hardware: RTX 4090 GPU, CUDA v12.2
  • Hyperparameter: α=1,0, β=1,0, w_FP=1

Experimentelle Ergebnisse

Hauptergebnisse

MethodeAUC_test(%)AUC_gap(%)F1_test(%)F1_gap(%)MCC_test(%)MCC_gap(%)
KAD88,1±0,32,568,2±2,51,857,5±2,34,8
GAIN88,0±0,42,767,8±2,22,457,2±2,05,6
H-EGL89,3±0,71,569,4±1,90,558,3±2,53,8

Schlüsselfunde:

  • H-EGL erreicht optimale Leistung bei allen Metriken
  • Signifikante Reduzierung der Verallgemeinerungslücke, was auf bessere Robustheit hinweist
  • Niedrige Varianz (0,7%), was stabile Leistung anzeigt

Ablationsstudien

  • H-EGL(α=0): AUC 89,3±1,0%, validiert die Effektivität von DAL
  • H-EGL(β=0): AUC 88,4±0,2%, zeigt den Beitrag der manuellen Ausrichtung
  • Hybridmethode übertrifft jede einzelne Komponente

Robustheitsanalyse

Tests bei verschiedenen Rauschpegeln (σ=0, 0,03, 0,05, 0,1) zeigen:

  • Alle Methoden zeigen Leistungsabfall bei erhöhtem Rauschen
  • H-EGL behält optimale Leistung bei allen Rauschpegeln
  • Demonstriert überlegene Robustheit

Qualitative Analyse

Visualisierung von Aufmerksamkeitskarten zeigt:

  • Baseline KAD: Deckt zwar manuell annotierte Regionen ab, hebt aber fälschlicherweise die unteren Lungenlappen hervor
  • DWARF: Reduziert falsche positive Ergebnisse in der unteren Region, konzentriert sich aber fälschlicherweise auf die linke Lunge
  • H-EGL und DAL: Identifizieren pathologische Regionen genauer, reduzieren falsche positive Ergebnisse erheblich

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Explanation-Guided Learning (EGL): Nutzung von Interpretationsinformationen zur Anleitung des Modelltrainings
  2. Mensch-Maschinen-Aufmerksamkeitsausrichtung: Integration menschlichen Wissens zur Verbesserung der Modellinterpretierbarkeit
  3. Transformer-Anwendungen in der medizinischen Bildgebung: Nutzung von Aufmerksamkeitsmechanismen für Krankheitsdiagnose

Vorteile dieser Arbeit

  • Erstmalige Anwendung einer hybriden Explanation-Guided-Methode in Transformern für medizinische Bildgebung
  • Vorschlag einer selbstüberwachten Aufmerksamkeitslernstrategie ohne negative Stichproben
  • Erreichung doppelter Verbesserung in Leistung und Interpretierbarkeit

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. H-EGL kombiniert effektiv selbstüberwachtes und manuelles Lernen und erreicht überlegene Klassifizierungsleistung und Aufmerksamkeitsausrichtung
  2. Die DAL-Komponente bietet flexible induktive Verzerrung und vermeidet Überregularisierung
  3. Die Hybridstrategie erreicht gutes Gleichgewicht zwischen Kosteneffizienz und Leistung

Einschränkungen

  1. Datensatzgröße: Validierung nur auf dem relativ kleinen ChestXDet-Datensatz
  2. Krankheitskategorien: Bewertung nur von vier Thorax-Erkrankungen
  3. Architekturabhängigkeit: Hauptsächlich für ViT-Architektur konzipiert
  4. Hyperparameter-Sensitivität: Optimale Einstellungen für α und β können je nach Aufgabe variieren

Zukünftige Richtungen

  1. Dynamische Ausrichtungsmechanismen: Erkundung adaptiver Anpassung des Verhältnisses zwischen selbstüberwachtem und manuellem Lernen während des Trainings
  2. Großflächige Validierung: Validierung auf größeren Datensätzen und mehr Krankheitskategorien
  3. Cross-Modality-Erweiterung: Erweiterung auf andere medizinische Bildgebungsmodalitäten
  4. Klinische Bereitstellung: Untersuchung der Anwendungseffektivität in echten klinischen Umgebungen

Tiefgreifende Bewertung

Stärken

  1. Methodische Innovation: Erstmalige Anwendung von Hybrid Explanation-Guided Learning auf medizinische Bildgebungs-Transformer
  2. Technische Rationalität: Geschicktes DAL-Design vermeidet Komplexität des traditionellen Contrastive Learning
  3. Experimentelle Vollständigkeit: Umfassende Vergleichsexperimente, Ablationsstudien und Robustheitsanalysen
  4. Praktischer Wert: Signifikante Verbesserung der Interpretierbarkeit bei Beibehaltung der Leistung

Mängel

  1. Unzureichende theoretische Analyse: Mangel an tiefgreifender theoretischer Erklärung, warum die Hybridmethode effektiv ist
  2. Rechenkomplexität: Unzureichende Analyse der Auswirkungen zusätzlicher Verlustterme auf Trainingseffizienz
  3. Hyperparameter-Sensitivität: Unzureichende Anleitung zur Auswahl von α- und β-Parametern
  4. Fehlende klinische Validierung: Keine Expertenbeurteilung in echten klinischen Umgebungen

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Perspektiven für Interpretierbarkeitsforschung in der medizinischen Bildgebung
  2. Praktischer Wert: Direkt anwendbar auf bestehende medizinische Bildgebungsdiagnosesysteme
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails ermöglichen einfache Reproduktion

Anwendungsszenarien

  1. Medizinische Bildgebungsdiagnose: Besonders geeignet für klinische Anwendungen mit hohen Anforderungen an Interpretierbarkeit
  2. Mehrklassen-Klassifizierungsaufgaben: Erweiterbar auf andere Klassifizierungsprobleme, die Aufmerksamkeitsausrichtung erfordern
  3. Ressourcenbegrenzte Umgebungen: Hybride Überwachungsstrategie geeignet für Szenarien mit begrenzten Annotationsressourcen

Referenzen

Das Papier zitiert mehrere wichtige verwandte Arbeiten, einschließlich:

  • Vision Transformer (ViT) Originalpapier 3
  • Forschung zu falschen Korrelationen in der medizinischen Bildgebung 2,5,6
  • Übersicht über Explanation-Guided Learning 4
  • DWARF-Methode 11 und KAD-Methode 19

Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier, das einen bedeutsamen Beitrag zum Bereich der Interpretierbarkeit in der medizinischen Bildgebung leistet. Das Hybrid Explanation-Guided-Learning-Framework ist rational konzipiert, die experimentelle Validierung ist umfassend und die Ergebnisse sind überzeugend. Trotz einiger Einschränkungen bietet es eine solide Grundlage und Richtung für zukünftige Forschung.