Multi Head Attention Enhanced Inception v3 for Cardiomegaly Detection
Karthik, V
The healthcare industry has been revolutionized significantly by novel imaging technologies, not just in the diagnosis of cardiovascular diseases but also by the visualization of structural abnormalities like cardiomegaly. This article explains an integrated approach to the use of deep learning tools and attention mechanisms for automatic detection of cardiomegaly using X-ray images. The initiation of the project is grounded on a strong Data Collection phase and gathering the data of annotated X-ray images of various types. Then, while the Preprocessing module fine-tunes image quality, it is feasible to utilize the best out of the data quality in the proposed system. In our proposed system, the process is a CNN configuration leveraging the inception V3 model as one of the key blocks. Besides, we also employ a multilayer attention mechanism to enhance the strength. The most important feature of the method is the multi-head attention mechanism that can learn features automatically. By exact selective focusing on only some regions of input, the model can thus identify cardiomegaly in a sensitive manner. Attention rating is calculated, duplicated, and applied to enhance representation of main data, and therefore there is a successful diagnosis. The Evaluation stage will be extremely strict and it will thoroughly evaluate the model based on such measures as accuracy and precision. This will validate that the model can identify cardiomegaly and will also show the clinical significance of this method. The model has accuracy of 95.6, precision of 95.2, recall of 96.2, sensitivity of 95.7, specificity of 96.1 and an Area Under Curve(AUC) of 96.0 and their respective graphs are plotted for visualisation.
academic
बहु-सिर ध्यान संवर्धित Inception v3 कार्डियोमेगली पहचान के लिए
यह पेपर गहन शिक्षा और ध्यान तंत्र को जोड़कर कार्डियोमेगली (हृदय वृद्धि) की स्वचालित पहचान के लिए एक विधि प्रस्तावित करता है। यह विधि Inception V3 मॉडल पर आधारित है, जिसमें बहु-सिर ध्यान तंत्र को एकीकृत किया गया है, जो एक्स-रे छवियों में महत्वपूर्ण क्षेत्रों पर चयनात्मक रूप से ध्यान केंद्रित कर सकता है, जिससे उच्च संवेदनशीलता वाली हृदय वृद्धि की पहचान संभव होती है। मॉडल ChestX-Ray14 डेटासेट पर उत्कृष्ट प्रदर्शन प्राप्त करता है: सटीकता 95.6%, सूक्ष्मता 95.2%, पुनः प्राप्ति दर 96.2%, संवेदनशीलता 95.7%, विशिष्टता 96.1%, AUC 96.0%, जो मौजूदा विधियों से काफी बेहतर है।
कार्डियोमेगली एक रोग संबंधी स्थिति है जिसमें हृदय कक्ष असामान्य रूप से फैल जाते हैं, आमतौर पर पुरानी उच्च रक्तचाप, कोरोनरी धमनी रोग, वाल्व असामान्यताओं, कार्डियोमायोपैथी या जन्मजात हृदय दोषों के कारण होता है। यह रोग हृदय विफलता, अतालता या अचानक मृत्यु का कारण बन सकता है, इसलिए प्रारंभिक निदान अत्यंत महत्वपूर्ण है।
यह पेपर Inception V3 की बहु-पैमाने की विशेषता निष्कर्षण क्षमता और बहु-सिर ध्यान तंत्र की चयनात्मक ध्यान केंद्रित करने की क्षमता को जोड़कर एक सटीक, कुशल, नैदानिक रूप से उपयोगी कार्डियोमेगली स्वचालित पहचान प्रणाली विकसित करने का लक्ष्य रखता है।
नवीन आर्किटेक्चर डिजाइन: बहु-सिर चैनल ध्यान संवर्धित Inception V3 मॉडल (CMMCA-V3) प्रस्तावित किया, जो ध्यान तंत्र को गहन CNN के साथ प्रभावी ढंग से जोड़ता है
व्यापक पूर्व-प्रसंस्करण प्रवाह: ग्रेस्केल रूपांतरण, हिस्टोग्राम समीकरण, तीक्ष्ण फिल्टरिंग, किनारा पहचान और आकृतिविज्ञान संचालन सहित एक पूर्ण पूर्व-प्रसंस्करण पाइपलाइन डिजाइन की
उत्कृष्ट पहचान प्रदर्शन: ChestX-Ray14 डेटासेट पर 95.6% सटीकता प्राप्त की, जो मौजूदा विधियों (जैसे Iqbal et al. का 92.0%, Bar et al. का 92.5%) से काफी बेहतर है
संतुलित डेटासेट डिजाइन: 2500 सकारात्मक और 2500 नकारात्मक नमूनों के संतुलित डेटासेट का उपयोग किया, जो मॉडल के निष्पक्ष प्रशिक्षण को सुनिश्चित करता है
विस्तृत प्रायोगिक सत्यापन: मिश्रण मैट्रिक्स, कई प्रदर्शन संकेतक (सटीकता, सूक्ष्मता, पुनः प्राप्ति दर, संवेदनशीलता, विशिष्टता, AUC) सहित व्यापक मूल्यांकन प्रदान किया
इनपुट: छाती के एक्स-रे छवि (ग्रेस्केल छवि) आउटपुट: द्विआधारी वर्गीकरण परिणाम (कार्डियोमेगली मौजूद/अनुपस्थित) और इसकी संभाव्यता स्कोर बाधाएँ: नैदानिक अनुप्रयोग आवश्यकताओं को पूरा करने के लिए उच्च संवेदनशीलता (झूठी नकारात्मकता कम करने) और उच्च विशिष्टता (झूठी सकारात्मकता कम करने) की आवश्यकता है
आधार मॉडल: ImageNet पर पूर्व-प्रशिक्षित Inception V3 का उपयोग विशेषता निष्कर्षक के रूप में, पूर्व-प्रशिक्षित ज्ञान को संरक्षित करने के लिए इसकी परतों को फ्रीज किया
सटीकता वक्र: प्रशिक्षण और सत्यापन सटीकता तेजी से अभिसरित होती है, सत्यापन सटीकता 95.6% के पास स्थिर रहती है, प्रशिक्षण और सत्यापन वक्र में कम अंतर है, कम अतिफिटिंग दर्शाता है
F1 स्कोर वक्र: सत्यापन F1 स्कोर 90% से ऊपर स्थिर रहता है, सूक्ष्मता और पुनः प्राप्ति दर के बीच अच्छे संतुलन को दर्शाता है
पुनः प्राप्ति दर वक्र: सत्यापन पुनः प्राप्ति दर 90% से अधिक है, मॉडल कार्डियोमेगली मामलों की प्रभावी पहचान दर्शाता है, झूठी नकारात्मकता कम है
विशिष्टता वक्र: उच्च और स्थिर सत्यापन विशिष्टता, मॉडल सामान्य एक्स-रे को प्रभावी ढंग से अलग कर सकता है, झूठी सकारात्मकता कम करता है
संवेदनशीलता वक्र: सत्यापन संवेदनशीलता लगभग 90% से अधिक है, वास्तविक मामलों की पहचान सुनिश्चित करता है
AUC वक्र: प्रशिक्षण और सत्यापन AUC दोनों उच्च मान बनाए रखते हैं, मॉडल की अच्छी विभेदक क्षमता दर्शाता है
ध्यान तंत्र की प्रभावशीलता: बहु-सिर ध्यान ने विशेषता निष्कर्षण क्षमता में काफी सुधार किया, मॉडल को एक्स-रे छवि में महत्वपूर्ण क्षेत्रों पर ध्यान केंद्रित करने में सक्षम बनाया
पूर्व-प्रसंस्करण की महत्ता: व्यापक पूर्व-प्रसंस्करण प्रवाह (विशेष रूप से आकृतिविज्ञान संचालन और किनारा पहचान) मॉडल प्रदर्शन में सुधार के लिए महत्वपूर्ण है
संतुलित डेटासेट का लाभ: 2500:2500 संतुलित डेटासेट दोनों वर्गों पर मॉडल के निष्पक्ष प्रशिक्षण को सुनिश्चित करता है
झूठी नकारात्मकता नियंत्रण: केवल 4 झूठी नकारात्मक मामले, नैदानिक अनुप्रयोग के लिए महत्वपूर्ण है, निदान छूटने से बचाता है
झूठी सकारात्मकता नियंत्रण: केवल 7 झूठी सकारात्मक मामले, अनावश्यक आगे की जाँच को कम करता है
चिकित्सा छवियों में ध्यान तंत्र: Li et al. ने वर्गीकरण, विभाजन और वृद्धि कार्यों में ध्यान तंत्र के अनुप्रयोग का सर्वेक्षण किया
पूर्व-प्रशिक्षित मॉडल का स्थानांतरण शिक्षा: Xie et al. ने साबित किया कि ग्रेस्केल ImageNet पर पूर्व-प्रशिक्षण चिकित्सा छवि वर्गीकरण में सुधार कर सकता है
गैर-चिकित्सा डेटा का स्थानांतरण: Bar et al. ने छाती रोग पहचान में गैर-चिकित्सा प्रशिक्षण डेटा की खोज की
वर्ग असंतुलन प्रबंधन: Iqbal et al. ने गतिशील शिक्षण एल्गोरिदम प्रस्तावित किया, Ozenne et al. ने सूक्ष्मता-पुनः प्राप्ति दर वक्र का उपयोग करने की सिफारिश की
प्रेक्षक के बीच अंतर: Kulberg et al. ने सुसंगत निदान के लिए कई स्वतंत्र पाठकों की महत्ता पर जोर दिया
बहु-दृश्य विश्लेषण: Rubin et al. का DualNet सामने और पार्श्व दृश्य का उपयोग करता है
CTR-आधारित विधियाँ: पारंपरिक विधियाँ हृदय-वक्ष अनुपात पर निर्भर करती हैं, लेकिन सीमा निर्धारण और व्यक्तिपरकता समस्याएँ हैं
यह एक उच्च गुणवत्ता वाला अनुप्रयोग-उन्मुख अनुसंधान पेपर है, जो बहु-सिर ध्यान तंत्र को Inception V3 के साथ कार्डियोमेगली पहचान में सफलतापूर्वक लागू करता है, मौजूदा विधियों से काफी बेहतर प्रदर्शन (95.6% सटीकता) प्राप्त करता है। पेपर की मुख्य शक्तियाँ विधि डिजाइन तर्कसंगत, प्रायोगिक परिणाम उत्कृष्ट, लेखन स्पष्ट और पूर्ण हैं, विशेष रूप से व्यापक पूर्व-प्रसंस्करण प्रवाह और ध्यान तंत्र का प्रभावी अनुप्रयोग।
हालांकि, पेपर में स्पष्ट कमियाँ भी हैं: बाहरी सत्यापन की कमी, विलोपन प्रयोग अपर्याप्त, व्याख्यात्मकता विश्लेषण सीमित। ये सीमाएँ इसके नैदानिक अनुप्रयोग की विश्वसनीयता और विधि की सामान्यीकरण क्षमता को सीमित करती हैं।
अनुशंसा सूचकांक: 4/5 उपयुक्त पाठक: चिकित्सा छवि विश्लेषण शोधकर्ता, कंप्यूटर विजन शोधकर्ता, नैदानिक रेडियोलॉजिस्ट अनुवर्ती कार्य सिफारिशें: बहु-केंद्र सत्यापन करें, ध्यान दृश्य प्रदान करें, अग्रगामी नैदानिक अनुसंधान करें, कोड और मॉडल सार्वजनिक करें