Hybrid Explanation-Guided Learning for Transformer-Based Chest X-Ray Diagnosis
Shu, Luo, Poellinger et al.
Transformer-based deep learning models have demonstrated exceptional performance in medical imaging by leveraging attention mechanisms for feature representation and interpretability. However, these models are prone to learning spurious correlations, leading to biases and limited generalization. While human-AI attention alignment can mitigate these issues, it often depends on costly manual supervision. In this work, we propose a Hybrid Explanation-Guided Learning (H-EGL) framework that combines self-supervised and human-guided constraints to enhance attention alignment and improve generalization. The self-supervised component of H-EGL leverages class-distinctive attention without relying on restrictive priors, promoting robustness and flexibility. We validate our approach on chest X-ray classification using the Vision Transformer (ViT), where H-EGL outperforms two state-of-the-art Explanation-Guided Learning (EGL) methods, demonstrating superior classification accuracy and generalization capability. Additionally, it produces attention maps that are better aligned with human expertise.
academic
हाइब्रिड व्याख्या-निर्देशित शिक्षा ट्रांसफॉर्मर-आधारित छाती एक्स-रे निदान के लिए
ट्रांसफॉर्मर-आधारित गहन शिक्षण मॉडल ध्यान तंत्र के माध्यम से चिकित्सा प्रतिबिंबन में उत्कृष्ट विशेषता प्रतिनिधित्व और व्याख्यात्मक क्षमता प्रदर्शित करते हैं। हालांकि, ये मॉडल आसानी से नकली सहसंबंध सीखते हैं, जिससे पूर्वाग्रह और सीमित सामान्यीकरण क्षमता होती है। जबकि मानव-मशीन ध्यान संरेखण इन समस्याओं को कम कर सकता है, यह अक्सर महंगी मैनुअल निगरानी पर निर्भर करता है। यह कार्य हाइब्रिड व्याख्या-निर्देशित शिक्षा (H-EGL) ढांचा प्रस्तावित करता है, जो स्व-निरीक्षित और मानव-निर्देशित बाधाओं को जोड़ता है ताकि ध्यान संरेखण को बढ़ाया जा सके और सामान्यीकरण क्षमता में सुधार हो सके। H-EGL का स्व-निरीक्षित घटक वर्ग-विभेदक ध्यान का उपयोग करता है, जो प्रतिबंधक पूर्वधारणाओं पर निर्भरता के बिना, मजबूती और लचीलापन को बढ़ावा देता है। छाती के एक्स-रे वर्गीकरण कार्य पर Vision Transformer (ViT) का उपयोग करके सत्यापित, H-EGL दो अत्याधुनिक व्याख्या-निर्देशित शिक्षण विधियों को पार करता है, उत्कृष्ट वर्गीकरण सटीकता और सामान्यीकरण क्षमता प्रदर्शित करते हुए, साथ ही मानव विशेषज्ञों के साथ बेहतर संरेखित ध्यान मानचित्र उत्पन्न करता है।
यह अनुसंधान ट्रांसफॉर्मर-आधारित चिकित्सा प्रतिबिंबन मॉडल में नकली सहसंबंध शिक्षा और ध्यान संरेखण समस्याओं को हल करने का प्रयास करता है। विशेष रूप से शामिल हैं:
नकली सहसंबंध समस्या: गहन तंत्रिका नेटवर्क डेटा में नकली सहसंबंध सीखने के लिए प्रवण होते हैं, जिससे शॉर्टकट शिक्षा, पूर्वाग्रह और निष्पक्षता समस्याएं होती हैं
ध्यान संरेखण चुनौती: जबकि मानव-मशीन ध्यान संरेखण मॉडल की मजबूती में सुधार कर सकता है, इसके लिए महंगी मैनुअल व्याख्या की आवश्यकता होती है
मौजूदा विधियों की सीमाएं: शुद्ध स्व-निरीक्षित विधियां गलत व्याख्याओं को मजबूत कर सकती हैं, जबकि विपरीत शिक्षण विधियों में सकारात्मक और नकारात्मक नमूने उत्पन्न करने के लिए मानकीकृत विधि की कमी है
H-EGL ढांचा प्रस्तावित करना: पहली बार ट्रांसफॉर्मर आर्किटेक्चर के लिए हाइब्रिड व्याख्या-निर्देशित विधि लागू करना, मानव-मशीन ध्यान संरेखण का मूल्यांकन और वृद्धि करना
DAL घटक डिजाइन करना: विभेदक ध्यान शिक्षा (Discriminative Attention Learning) प्रस्तावित करना, वर्ग-विभेदक ध्यान मानचित्र का उपयोग करके स्व-निरीक्षित शिक्षा के लिए
प्रदर्शन में सुधार: छाती के एक्स-रे वर्गीकरण कार्य पर मौजूदा अत्याधुनिक विधियों को पार करना, AUC 89.3% तक पहुंचना
व्याख्यात्मकता बढ़ाना: विशेषज्ञ ज्ञान के साथ बेहतर संरेखित ध्यान मानचित्र उत्पन्न करना, वर्गीकरण प्रदर्शन बनाए रखते हुए
इनपुट: छाती के एक्स-रे चित्र और रोग लेबल पाठ
आउटपुट: बहु-लेबल रोग वर्गीकरण भविष्यवाणी और वर्ग-विशिष्ट ध्यान मानचित्र
उद्देश्य: वर्गीकरण सटीकता में सुधार करते हुए, मानव विशेषज्ञ व्याख्या क्षेत्रों के साथ संरेखित ध्यान मानचित्र उत्पन्न करना
पेपर कई महत्वपूर्ण संबंधित कार्यों का हवाला देता है, जिनमें शामिल हैं:
Vision Transformer (ViT) मूल पेपर 3
चिकित्सा प्रतिबिंबन में नकली सहसंबंध अनुसंधान 2,5,6
व्याख्या-निर्देशित शिक्षा सर्वेक्षण 4
DWARF विधि 11 और KAD विधि 19
समग्र मूल्यांकन: यह चिकित्सा प्रतिबिंबन व्याख्यात्मकता क्षेत्र में एक उच्च-गुणवत्ता वाला अनुसंधान पेपर है जो सार्थक योगदान देता है। हाइब्रिड व्याख्या-निर्देशित शिक्षा ढांचा तर्कसंगत रूप से डिजाइन किया गया है, प्रयोग पूरी तरह से सत्यापित हैं, और परिणाम विश्वसनीय हैं। कुछ सीमाओं के बावजूद, यह भविष्य के अनुसंधान के लिए एक अच्छा आधार और दिशा प्रदान करता है।