2025-11-20T19:34:14.388746

Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis

Shu, Luo, Poellinger et al.

Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.

academic

हाइब्रिड व्याख्या-निर्देशित शिक्षा ट्रांसफॉर्मर-आधारित छाती एक्स-रे निदान के लिए

मूल जानकारी

पेपर ID: 2510.12704
शीर्षक: Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
लेखक: Shelley Zixin Shu, Haozhe Luo, Alexander Poellinger, Mauricio Reyes
वर्गीकरण: cs.CV cs.AI
प्रकाशन समय: 14 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.12704v1

सारांश

ट्रांसफॉर्मर-आधारित गहन शिक्षण मॉडल ध्यान तंत्र के माध्यम से चिकित्सा प्रतिबिंबन में उत्कृष्ट विशेषता प्रतिनिधित्व और व्याख्यात्मक क्षमता प्रदर्शित करते हैं। हालांकि, ये मॉडल आसानी से नकली सहसंबंध सीखते हैं, जिससे पूर्वाग्रह और सीमित सामान्यीकरण क्षमता होती है। जबकि मानव-मशीन ध्यान संरेखण इन समस्याओं को कम कर सकता है, यह अक्सर महंगी मैनुअल निगरानी पर निर्भर करता है। यह कार्य हाइब्रिड व्याख्या-निर्देशित शिक्षा (H-EGL) ढांचा प्रस्तावित करता है, जो स्व-निरीक्षित और मानव-निर्देशित बाधाओं को जोड़ता है ताकि ध्यान संरेखण को बढ़ाया जा सके और सामान्यीकरण क्षमता में सुधार हो सके। H-EGL का स्व-निरीक्षित घटक वर्ग-विभेदक ध्यान का उपयोग करता है, जो प्रतिबंधक पूर्वधारणाओं पर निर्भरता के बिना, मजबूती और लचीलापन को बढ़ावा देता है। छाती के एक्स-रे वर्गीकरण कार्य पर Vision Transformer (ViT) का उपयोग करके सत्यापित, H-EGL दो अत्याधुनिक व्याख्या-निर्देशित शिक्षण विधियों को पार करता है, उत्कृष्ट वर्गीकरण सटीकता और सामान्यीकरण क्षमता प्रदर्शित करते हुए, साथ ही मानव विशेषज्ञों के साथ बेहतर संरेखित ध्यान मानचित्र उत्पन्न करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान ट्रांसफॉर्मर-आधारित चिकित्सा प्रतिबिंबन मॉडल में नकली सहसंबंध शिक्षा और ध्यान संरेखण समस्याओं को हल करने का प्रयास करता है। विशेष रूप से शामिल हैं:

नकली सहसंबंध समस्या: गहन तंत्रिका नेटवर्क डेटा में नकली सहसंबंध सीखने के लिए प्रवण होते हैं, जिससे शॉर्टकट शिक्षा, पूर्वाग्रह और निष्पक्षता समस्याएं होती हैं
ध्यान संरेखण चुनौती: जबकि मानव-मशीन ध्यान संरेखण मॉडल की मजबूती में सुधार कर सकता है, इसके लिए महंगी मैनुअल व्याख्या की आवश्यकता होती है
मौजूदा विधियों की सीमाएं: शुद्ध स्व-निरीक्षित विधियां गलत व्याख्याओं को मजबूत कर सकती हैं, जबकि विपरीत शिक्षण विधियों में सकारात्मक और नकारात्मक नमूने उत्पन्न करने के लिए मानकीकृत विधि की कमी है

अनुसंधान का महत्व

चिकित्सा प्रतिबिंबन निदान में, मॉडल की व्याख्यात्मकता और विश्वसनीयता महत्वपूर्ण है। गलत ध्यान पैटर्न निम्नलिखित का कारण बन सकते हैं:

नैदानिक निर्णय त्रुटियां
महत्वपूर्ण रोगविज्ञान विशेषताओं की चूक
विभिन्न डेटा वितरण पर मॉडल सामान्यीकरण विफलता

मौजूदा विधियों की सीमाएं

शुद्ध निरीक्षित विधियां: महंगी विशेषज्ञ व्याख्या पर निर्भर, उच्च लागत
शुद्ध स्व-निरीक्षित विधियां: गलत या गलत संरेखित व्याख्याओं को मजबूत कर सकती हैं
पारंपरिक बाधा विधियां: विरलता, चिकनाई जैसी कठोर पूर्वधारणाओं पर निर्भर, जटिल विशेषता शिक्षा को दबा सकती हैं

मुख्य योगदान

H-EGL ढांचा प्रस्तावित करना: पहली बार ट्रांसफॉर्मर आर्किटेक्चर के लिए हाइब्रिड व्याख्या-निर्देशित विधि लागू करना, मानव-मशीन ध्यान संरेखण का मूल्यांकन और वृद्धि करना
DAL घटक डिजाइन करना: विभेदक ध्यान शिक्षा (Discriminative Attention Learning) प्रस्तावित करना, वर्ग-विभेदक ध्यान मानचित्र का उपयोग करके स्व-निरीक्षित शिक्षा के लिए
प्रदर्शन में सुधार: छाती के एक्स-रे वर्गीकरण कार्य पर मौजूदा अत्याधुनिक विधियों को पार करना, AUC 89.3% तक पहुंचना
व्याख्यात्मकता बढ़ाना: विशेषज्ञ ज्ञान के साथ बेहतर संरेखित ध्यान मानचित्र उत्पन्न करना, वर्गीकरण प्रदर्शन बनाए रखते हुए

विधि विवरण

कार्य परिभाषा

इनपुट: छाती के एक्स-रे चित्र और रोग लेबल पाठ आउटपुट: बहु-लेबल रोग वर्गीकरण भविष्यवाणी और वर्ग-विशिष्ट ध्यान मानचित्र उद्देश्य: वर्गीकरण सटीकता में सुधार करते हुए, मानव विशेषज्ञ व्याख्या क्षेत्रों के साथ संरेखित ध्यान मानचित्र उत्पन्न करना

मॉडल आर्किटेक्चर

समग्र ढांचा

H-EGL DWARF आर्किटेक्चर पर निर्मित है, ViT एनकोडर-डिकोडर संरचना का उपयोग करता है:

पाठ एनकोडर: फ्रीज किया गया Med-KEBERT, रोग लेबल प्रक्रिया करता है
दृश्य एनकोडर: प्रशिक्षणीय ViT-B, 224×224 इनपुट चित्र प्रक्रिया करता है
क्रॉस-ध्यान डिकोडर: दृश्य और पाठ विशेषताओं को संलयित करता है

मुख्य घटक

1. मानव-मशीन संरेखण मॉड्यूल दंडित Dice हानि का उपयोग करके ध्यान मानचित्र को विशेषज्ञ व्याख्या के साथ संरेखित करना:

L_HA = 1 - (2×|A_i ⊙ M_i|)/(|A_i| + |M_i| + w_FP×N_FP)

जहां A_i मॉडल द्वारा उत्पन्न ध्यान मानचित्र है, M_i विशेषज्ञ मुखौटा है।

2. विभेदक ध्यान शिक्षा (DAL) विभिन्न वर्गों के ध्यान मानचित्रों की समानता को कम करके वर्ग विभेदकता को बढ़ाना:

L_DAL = (2)/(C(C-1)) × ∑∑|S(A_i, A_j)|

जहां S(A_i, A_j) ध्यान मानचित्र A_i और A_j के बीच कोसाइन समानता है।

एकीकृत हानि फलन

L_H-EGL = L_CE + α×L_HA + β×L_DAL

तकनीकी नवाचार बिंदु

नकारात्मक नमूने उत्पन्न करने की आवश्यकता नहीं: DAL पारंपरिक विपरीत शिक्षा में जटिल नकारात्मक नमूना निर्माण समस्या से बचता है
लचीली प्रेरक पूर्वधारणा: विरलता जैसी कठोर बाधाओं पर निर्भर नहीं, मॉडल को जटिल विशेषताएं सीखने की क्षमता बनाए रखता है
ViT ध्यान का सीधा उपयोग: ट्रांसफॉर्मर की अंतर्निहित ध्यान तंत्र का पूरी तरह से उपयोग करता है, पश्च व्याख्या उपकरणों के बजाय
मिश्रित निरीक्षण रणनीति: मानव मार्गदर्शन और स्वायत्त शिक्षा को संतुलित करता है, लागत प्रभावशीलता और प्रदर्शन का इष्टतम संतुलन प्राप्त करता है

प्रयोगात्मक सेटअप

डेटासेट

ChestXDet डेटासेट: NIH ChestX-ray14 का उपसमुच्चय
पैमाना: 3,578 रोगी, 3,025 प्रशिक्षण नमूने, 553 परीक्षण नमूने
व्याख्या: 4 प्रकार की छाती रोगविज्ञान (फुफ्फुस पतन, हृदय विस्तार, समेकन, बहाव) के लिए सीमा बॉक्स और बहुभुज व्याख्या
सत्यापन: तीन रेडियोलॉजिस्ट द्वारा व्याख्या गुणवत्ता सत्यापित
विभाजन: 80-20 प्रशिक्षण सत्यापन विभाजन

मूल्यांकन मेट्रिक्स

वर्गीकरण मेट्रिक्स: AUC, F1 स्कोर, MCC (Matthews सहसंबंध गुणांक)
सामान्यीकरण क्षमता: सत्यापन और परीक्षण सेट प्रदर्शन अंतर
मजबूती: विभिन्न शोर स्तरों पर प्रदर्शन

तुलनात्मक विधियां

KAD: ज्ञान-जागरूक पहचान ढांचा, दृश्य तर्क को बढ़ाने के लिए ज्ञान ग्राफ का उपयोग करता है
GAIN: ढाल-आधारित ध्यान नेटवर्क, परिष्कृत ध्यान तंत्र के माध्यम से व्याख्यात्मकता में सुधार करता है
DWARF(β=0): केवल मानव व्याख्या-निर्देशित व्याख्या शिक्षा का उपयोग करता है
DAL(α=0): शुद्ध स्व-निरीक्षित व्याख्या-निर्देशित शिक्षा

कार्यान्वयन विवरण

अनुकूलक: AdamW, सीखने की दर 1e-5
प्रशिक्षण रणनीति: 1000 युग प्रशिक्षण, प्रारंभिक रोक धैर्य 50, 20 युग वार्मअप
बैच आकार: 32
हार्डवेयर: RTX 4090 GPU, CUDA v12.2
हाइपरपैरामीटर: α=1.0, β=1.0, w_FP=1

प्रयोगात्मक परिणाम

मुख्य परिणाम

विधि	AUC_test(%)	AUC_gap(%)	F1_test(%)	F1_gap(%)	MCC_test(%)	MCC_gap(%)
KAD	88.1±0.3	2.5	68.2±2.5	1.8	57.5±2.3	4.8
GAIN	88.0±0.4	2.7	67.8±2.2	2.4	57.2±2.0	5.6
H-EGL	89.3±0.7	1.5	69.4±1.9	0.5	58.3±2.5	3.8

मुख्य निष्कर्ष:

H-EGL सभी मेट्रिक्स पर सर्वोत्तम प्रदर्शन प्राप्त करता है
सामान्यीकरण अंतर में उल्लेखनीय कमी, बेहतर मजबूती का संकेत देता है
कम विचरण (0.7%), स्थिर प्रदर्शन दर्शाता है

विलोपन प्रयोग

H-EGL(α=0): AUC 89.3±1.0%, DAL की प्रभावशीलता सत्यापित करता है
H-EGL(β=0): AUC 88.4±0.2%, मानव संरेखण का योगदान दर्शाता है
मिश्रित विधि किसी भी एकल घटक से बेहतर है

मजबूती विश्लेषण

विभिन्न शोर स्तरों (σ=0, 0.03, 0.05, 0.1) पर परीक्षण से पता चलता है:

शोर बढ़ने पर सभी विधियों का प्रदर्शन घटता है
H-EGL सभी शोर स्तरों पर इष्टतम प्रदर्शन बनाए रखता है
उत्कृष्ट मजबूती प्रदर्शित करता है

गुणात्मक विश्लेषण

ध्यान मानचित्र दृश्य से पता चलता है:

आधारभूत KAD: हालांकि मानव व्याख्या क्षेत्र को कवर करता है, लेकिन गलती से दोनों फेफड़ों के निचले लोब को हाइलाइट करता है
DWARF: निचले हिस्से में झूठी सकारात्मकता को कम करता है, लेकिन गलती से बाएं फेफड़े पर ध्यान केंद्रित करता है
H-EGL और DAL: रोगविज्ञान क्षेत्रों की अधिक सटीक पहचान, झूठी सकारात्मकता में उल्लेखनीय कमी

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

H-EGL स्व-निरीक्षित और मानव निरीक्षण को प्रभावी ढंग से जोड़ता है, उत्कृष्ट वर्गीकरण प्रदर्शन और ध्यान संरेखण प्राप्त करता है
DAL घटक लचीली प्रेरक पूर्वधारणा प्रदान करता है, अत्यधिक नियमितकरण से बचता है
मिश्रित रणनीति लागत प्रभावशीलता और प्रदर्शन के बीच अच्छा संतुलन प्राप्त करती है

सीमाएं

डेटासेट पैमाना: केवल अपेक्षाकृत छोटे ChestXDet डेटासेट पर सत्यापित
रोग श्रेणियां: केवल 4 प्रकार की छाती रोगविज्ञान का मूल्यांकन किया गया
आर्किटेक्चर निर्भरता: मुख्य रूप से ViT आर्किटेक्चर के लिए डिजाइन किया गया
हाइपरपैरामीटर संवेदनशीलता: α और β पैरामीटर की इष्टतम सेटिंग कार्य के अनुसार भिन्न हो सकती है

भविष्य की दिशाएं

गतिशील संरेखण तंत्र: प्रशिक्षण प्रक्रिया में स्व-निरीक्षण और मानव संरेखण की डिग्री को स्वचालित रूप से समायोजित करने का अन्वेषण करना
बड़े पैमाने पर सत्यापन: बड़े डेटासेट और अधिक रोग श्रेणियों पर सत्यापन करना
क्रॉस-मोडल विस्तार: अन्य चिकित्सा प्रतिबिंबन तरीकों तक विस्तार करना
नैदानिक तैनाती: वास्तविक नैदानिक वातावरण में अनुप्रयोग प्रभाव का अध्ययन करना

गहन मूल्यांकन

लाभ

विधि नवाचार: चिकित्सा प्रतिबिंबन ट्रांसफॉर्मर में पहली बार हाइब्रिड व्याख्या-निर्देशित शिक्षा लागू करना
तकनीकी तर्कसंगतता: DAL डिजाइन चतुर है, पारंपरिक विपरीत शिक्षा की जटिलता से बचता है
प्रयोग पूर्णता: व्यापक तुलनात्मक प्रयोग, विलोपन प्रयोग और मजबूती विश्लेषण शामिल है
व्यावहारिक मूल्य: प्रदर्शन बनाए रखते हुए व्याख्यात्मकता में उल्लेखनीय सुधार

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: मिश्रित विधि प्रभावी क्यों है इसके गहन सैद्धांतिक व्याख्या की कमी
कम्प्यूटेशनल जटिलता: अतिरिक्त हानि शर्तों के प्रशिक्षण दक्षता पर प्रभाव का विस्तृत विश्लेषण नहीं
हाइपरपैरामीटर संवेदनशीलता: α और β पैरामीटर चयन के लिए पर्याप्त मार्गदर्शन नहीं
नैदानिक सत्यापन अनुपस्थित: वास्तविक नैदानिक वातावरण में विशेषज्ञ मूल्यांकन शामिल नहीं

प्रभाव

शैक्षणिक योगदान: चिकित्सा प्रतिबिंबन व्याख्यात्मकता अनुसंधान के लिए नई सोच प्रदान करता है
व्यावहारिक मूल्य: मौजूदा चिकित्सा प्रतिबिंबन निदान प्रणालियों में सीधे लागू किया जा सकता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन को सुविधाजनक बनाता है

लागू परिदृश्य

चिकित्सा प्रतिबिंबन निदान: विशेष रूप से उच्च व्याख्यात्मकता की आवश्यकता वाले नैदानिक अनुप्रयोगों के लिए उपयुक्त
बहु-लेबल वर्गीकरण कार्य: ध्यान संरेखण की आवश्यकता वाली अन्य वर्गीकरण समस्याओं तक विस्तार किया जा सकता है
संसाधन-सीमित वातावरण: मिश्रित निरीक्षण रणनीति सीमित व्याख्या संसाधनों वाले परिदृश्यों के लिए उपयुक्त है

संदर्भ

पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:

Vision Transformer (ViT) मूल पेपर 3
चिकित्सा प्रतिबिंबन में नकली सहसंबंध अनुसंधान 2,5,6
व्याख्या-निर्देशित शिक्षा सर्वेक्षण 4
DWARF विधि 11 और KAD विधि 19

समग्र मूल्यांकन: यह चिकित्सा प्रतिबिंबन व्याख्यात्मकता क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो सार्थक योगदान देता है। हाइब्रिड व्याख्या-निर्देशित शिक्षा ढांचा तर्कसंगत रूप से डिजाइन किया गया है, प्रयोग पूरी तरह से सत्यापित हैं, और परिणाम विश्वसनीय हैं। कुछ सीमाओं के बावजूद, यह भविष्य के अनुसंधान के लिए एक अच्छा आधार और दिशा प्रदान करता है।