2025-11-12T18:16:10.275762

A Novel Approach using CapsNet and Deep Belief Network for Detection and Identification of Oral Leukopenia

GV, M, S
Oral cancer constitutes a significant global health concern, resulting in 277,484 fatalities in 2023, with the highest prevalence observed in low- and middle-income nations. Facilitating automation in the detection of possibly malignant and malignant lesions in the oral cavity could result in cost-effective and early disease diagnosis. Establishing an extensive repository of meticulously annotated oral lesions is essential. In this research photos are being collected from global clinical experts, who have been equipped with an annotation tool to generate comprehensive labelling. This research presents a novel approach for integrating bounding box annotations from various doctors. Additionally, Deep Belief Network combined with CAPSNET is employed to develop automated systems that extracted intricate patterns to address this challenging problem. This study evaluated two deep learning-based computer vision methodologies for the automated detection and classification of oral lesions to facilitate the early detection of oral cancer: image classification utilizing CAPSNET. Image classification attained an F1 score of 94.23% for detecting photos with lesions 93.46% for identifying images necessitating referral. Object detection attained an F1 score of 89.34% for identifying lesions for referral. Subsequent performances are documented about classification based on the sort of referral decision. Our preliminary findings indicate that deep learning possesses the capability to address this complex problem.
academic

कैप्सनेट और डीप बिलीफ नेटवर्क का उपयोग करके मौखिक कैंसर की पहचान और पहचान के लिए एक नोवल दृष्टिकोण

मूल जानकारी

  • पेपर ID: 2501.00876
  • शीर्षक: गहन शिक्षण तकनीकों का उपयोग करके मौखिक कैंसर का बेहतर वर्गीकरण
  • लेखक: डॉ. सेंथिल पंडी एस, हिर्थिक मैथेश जीवी, कविन चक्रवर्ती एम (राजलक्ष्मी इंजीनियरिंग कॉलेज, चेन्नई, भारत)
  • वर्गीकरण: eess.IV cs.CV cs.LG
  • अनुसंधान क्षेत्र: चिकित्सा छवि प्रसंस्करण, गहन शिक्षण, कंप्यूटर दृष्टि
  • पेपर लिंक: https://arxiv.org/abs/2501.00876

सारांश

मौखिक कैंसर एक वैश्विक स्वास्थ्य समस्या है, जिससे 2023 में 277,484 लोगों की मृत्यु हुई, विशेषकर निम्न और मध्यम आय वाले देशों में सर्वाधिक घटनाएं देखी गई हैं। यह अनुसंधान मौखिक घावों की स्वचालित पहचान और वर्गीकरण के लिए कैप्सनेट और डीप बिलीफ नेटवर्क (DBN) को जोड़ने वाली एक नई विधि प्रस्तावित करता है। अनुसंधान में वैश्विक नैदानिक विशेषज्ञों से छवि डेटा एकत्र किया गया और व्यापक लेबलिंग के लिए एनोटेशन उपकरण से सुसज्जित किया गया। यह विधि छवि वर्गीकरण कार्यों में घाव छवियों की पहचान के लिए 94.23% F1 स्कोर, रेफरल की आवश्यकता वाली छवियों की पहचान के लिए 93.46% F1 स्कोर, और ऑब्जेक्ट डिटेक्शन कार्यों में 89.34% F1 स्कोर प्राप्त करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की महत्ता

  1. वैश्विक स्वास्थ्य बोझ: मौखिक कैंसर विश्व स्तर पर एक प्रमुख स्वास्थ्य समस्या है, 2021 के GLOBOCAN पूर्वानुमान में 387,864 नए मामले और 234,384 मृत्यु दर्ज की गई
  2. भौगोलिक असमानता: तीन-चौथाई मामले निम्न आय वाले देशों में होते हैं, अफ्रीका और भारत वैश्विक मामलों का आधा हिस्सा हैं
  3. निदान में देरी: निम्न और मध्यम आय वाले देशों (LMICs) में, दो-तिहाई से अधिक मामले देर से खोजे जाते हैं, जिससे जीवन दर कम होती है
  4. आर्थिक बोझ: कैंसर उपचार की लागत अत्यधिक है, विशेषकर देर से निदान के मामलों में

मौजूदा विधियों की सीमाएं

  1. विशेषज्ञ की कमी: विशेषज्ञ डॉक्टरों और चिकित्सा संसाधनों की कमी, विशेषकर LMICs क्षेत्रों में
  2. निदान की व्यक्तिपरकता: पारंपरिक निदान नैदानिक अनुभव पर निर्भर करता है, मानकीकृत विधियों की कमी
  3. उपकरण आवश्यकताएं: मौजूदा गहन शिक्षण विधियों को महंगे उपकरण या विशेष रूप से डिज़ाइन किए गए स्क्रीनिंग प्लेटफॉर्म की आवश्यकता होती है
  4. पहुंच समस्याएं: ROI की उच्च आवर्धन माइक्रोस्कोपी जांच की आवश्यकता व्यापक अनुप्रयोग को सीमित करती है

अनुसंधान प्रेरणा

  1. लागत प्रभावी प्रारंभिक निदान स्वचालन प्रणाली विकसित करना
  2. मोबाइल डिवाइस छवियों का उपयोग करके टेलीमेडिसिन स्क्रीनिंग का लाभ उठाना
  3. स्क्रीनिंग कार्यक्रमों की रेफरल सटीकता में सुधार करना
  4. विशेषज्ञ उपकरण और कर्मियों पर निर्भरता को कम करना

मुख्य योगदान

  1. नवीन आर्किटेक्चर: कैप्सनेट और डीप बिलीफ नेटवर्क (DBN) को जोड़ने वाली एक हाइब्रिड गहन शिक्षण रूपरेखा प्रस्तावित की गई
  2. बहु-चिकित्सक एनोटेशन संलयन: कई चिकित्सकों की सीमा बॉक्स एनोटेशन को एकीकृत करने के लिए एक नई विधि विकसित की गई
  3. उच्च-प्रदर्शन पहचान: मौखिक घाव पहचान और वर्गीकरण कार्यों में उत्कृष्ट प्रदर्शन प्राप्त किया गया
  4. व्यावहारिक डिजाइन: मोबाइल डिवाइस छवियों के वास्तविक अनुप्रयोग परिदृश्यों के लिए डिज़ाइन किया गया

विधि विवरण

कार्य परिभाषा

  • इनपुट: मौखिक गुहा छवियां (मोबाइल डिवाइस या नैदानिक उपकरण से)
  • आउटपुट: घाव पहचान परिणाम, वर्गीकरण लेबल, रेफरल सिफारिशें
  • उद्देश्य: मौखिक घावों की स्वचालित पहचान और दुर्दमता वर्गीकरण

मॉडल आर्किटेक्चर

1. हाइब्रिड आर्किटेक्चर डिजाइन

इस अनुसंधान द्वारा प्रस्तावित हाइब्रिड मॉडल दो मुख्य घटकों को जोड़ता है:

  • कैप्सनेट: छवि वर्गीकरण कार्यों के लिए
  • डीप बिलीफ नेटवर्क (DBN): विशेषता निष्कर्षण और पैटर्न पहचान के लिए

2. कैप्सनेट घटक

मुख्य विचार: मानव मस्तिष्क में "कैप्सूल" प्रसंस्करण इकाइयों का अनुकरण करना

  • कैप्सूल संरचना: प्रत्येक कैप्सूल छवि में एक विशिष्ट इकाई का प्रतिनिधित्व करता है, न्यूरॉन स्थिति इकाई विशेषताओं को एन्कोड करती है
  • वेक्टर आउटपुट: आउटपुट वेक्टर की लंबाई इकाई उपस्थिति की संभावना को दर्शाती है, दिशा इकाई विशेषताओं को प्रतिबिंबित करती है
  • गतिशील रूटिंग: "सामंजस्य रूटिंग" तंत्र के माध्यम से पारंपरिक अधिकतम पूलिंग को प्रतिस्थापित करना
  • संपीड़न फ़ंक्शन: वेक्टर आउटपुट पर गैर-रैखिक परिवर्तन लागू करना, उपयुक्त पैमाने प्रतिनिधित्व सुनिश्चित करना

तकनीकी लाभ:

पारंपरिक CNN: परत दर परत स्टैकिंग → विशेषता हानि
कैप्सनेट: पदानुक्रमित नेस्टिंग → स्थानिक संबंध संरक्षण

3. डीप बिलीफ नेटवर्क (DBN)

पूर्वप्रसंस्करण प्रवाह:

  1. छवि व्हाइटनिंग: आसन्न पिक्सल के बीच सहसंबंध को कम करना, मानक विचलन को 0 में सामान्य करना
  2. मिनी-बैच प्रसंस्करण: इनपुट डेटा को यादृच्छिक रूप से विभाजित करना, शोर प्रभाव को कम करना

नेटवर्क संरचना:

  • तीन-परत DBN आर्किटेक्चर: न्यूरोब्लास्टोमा हिस्टोलॉजी छवि विशेषता निष्कर्षण के लिए
  • CRBM स्टैकिंग: ऊर्ध्वाधर रूप से स्टैक किए गए कनवल्शनल प्रतिबंधित बोल्ट्जमैन मशीनें
  • पदानुक्रमित संरचना: दृश्यमान परत (RK×RK) → छिपी परत (N समूह MQ×MQ इकाइयां) → पूलिंग परत

मुख्य पैरामीटर:

  • न्यूरॉन की कुल संख्या
  • छिपी परत समूहों की संख्या
  • मिनी-बैच आकार

तकनीकी नवाचार

  1. कैप्सूल नेटवर्क अनुप्रयोग: मौखिक कैंसर पहचान के लिए कैप्सनेट का पहला अनुप्रयोग, स्थानिक पदानुक्रमित जानकारी संरक्षण
  2. हाइब्रिड आर्किटेक्चर: DBN और कैप्सनेट का प्रभावी संयोजन, प्रत्येक के लाभों का उपयोग
  3. बहु-चिकित्सक एनोटेशन: सीमा बॉक्स एनोटेशन संलयन की नवीन रणनीति
  4. अंत-से-अंत शिक्षण: कच्ची छवि से अंतिम निदान सिफारिश तक पूर्ण प्रक्रिया

प्रायोगिक सेटअप

डेटासेट

  • डेटा स्रोत: वैश्विक नैदानिक विशेषज्ञों द्वारा एकत्र की गई मौखिक छवियां
  • एनोटेशन विधि: बहु-चिकित्सक सीमा बॉक्स एनोटेशन
  • डेटा संवर्धन: प्रशिक्षण सेट का विस्तार करने के लिए घूर्णन, फ्लिपिंग आदि तकनीकें लागू करना
  • पूर्वप्रसंस्करण:
    • रंग मानकीकरण रंग भिन्नता को समाप्त करना
    • माध्यिका फ़िल्टरिंग शोर को कम करना
    • छवि वृद्धि अधिक-फिटिंग को कम करना

मूल्यांकन मेट्रिक्स

  • F1 स्कोर: सटीकता और रिकॉल का हार्मोनिक माध्य
  • सटीकता (Precision): सही भविष्यवाणी किए गए सकारात्मक उदाहरणों का अनुपात कुल भविष्यवाणी किए गए सकारात्मक उदाहरणों में
  • रिकॉल (Recall): सही भविष्यवाणी किए गए सकारात्मक उदाहरणों का अनुपात वास्तविक सकारात्मक उदाहरणों में
  • सटीकता (Accuracy): कुल सही भविष्यवाणियों का अनुपात

प्रशिक्षण रणनीति

  • प्रशिक्षण दौर: प्रारंभिक 10 दौर, बाद में 30 दौर तक विस्तारित
  • प्रारंभिक रोकथाम रणनीति: 12वें दौर में सर्वोत्तम सत्यापन सटीकता 97.1% प्राप्त करने के बाद रोकथाम
  • हानि फ़ंक्शन: प्रशिक्षण और सत्यापन हानि दोनों में गिरावट की प्रवृत्ति और स्थिरता

प्रायोगिक परिणाम

मुख्य परिणाम

समग्र प्रदर्शन मेट्रिक्स

  • छवि वर्गीकरण:
    • घाव पहचान: F1 स्कोर 94.23%
    • रेफरल पहचान: F1 स्कोर 93.46%
  • ऑब्जेक्ट डिटेक्शन:
    • रेफरल घाव पहचान: F1 स्कोर 89.34%

विस्तृत वर्गीकरण परिणाम

छवि श्रेणीसटीकता (%)रिकॉल (%)F1 स्कोर (%)
कोई घाव नहीं मिला90.8691.2380.65
रेफरल की आवश्यकता नहीं93.2690.2194.52
अन्य कारणों से मिलना89.3291.2480.15
कम कैंसर जोखिम90.8889.2387.21
उच्च कैंसर जोखिम94.2490.2184.21

प्रशिक्षण प्रक्रिया विश्लेषण

  • सटीकता परिवर्तन: पहले 12 दौर में घातीय वृद्धि, बाद में स्थिर
  • अंतिम प्रशिक्षण सटीकता: 94.28%
  • अंतिम सत्यापन सटीकता: 94.55%
  • हानि मान: प्रशिक्षण हानि 0.18432, सत्यापन हानि 0.16543

प्रायोगिक निष्कर्ष

  1. अभिसरण विशेषताएं: मॉडल 30 दौर के भीतर प्रभावी रूप से अभिसरित होता है
  2. सामान्यीकरण क्षमता: प्रशिक्षण और सत्यापन वक्र प्रवृत्ति सुसंगत, अच्छी सामान्यीकरण दिखाता है
  3. स्थिरता: हानि फ़ंक्शन सुचारु रूप से गिरता है, मॉडल प्रशिक्षण स्थिर है
  4. प्रदर्शन स्तरीकरण: विभिन्न जोखिम स्तरों की पहचान प्रदर्शन में भिन्नता है

संबंधित कार्य

पारंपरिक विधि विकास

  1. बनावट विशेषताएं: प्रारंभिक अनुसंधान ग्रेस्केल और बनावट विशेषताओं पर केंद्रित
  2. उच्च-क्रम तकनीकें: बाद में उच्च-क्रम इमेजिंग तकनीकें और बनावट ऊर्जा कानून पेश किए गए
  3. गहन शिक्षण: ImageNet प्रतियोगिता के बाद चिकित्सा छवि विश्लेषण में CNN का व्यापक अनुप्रयोग

मौजूदा गहन शिक्षण विधियां

  1. बहु-मोडल विधि: रोगी मेटाडेटा को जोड़ने वाली बहु-मोडल गहन शिक्षण रूपरेखा (सटीकता 87%)
  2. Ada Boosting: पांच रंग स्थानों का उपयोग करने वाली विधि (सटीकता 97.25%)
  3. समेकित शिक्षण: पूर्व-प्रशिक्षित CNN समेकित मॉडल (सटीकता 97.88%)
  4. स्थानांतरण शिक्षण: ResNet50 जैसे पूर्व-प्रशिक्षित मॉडल का अनुप्रयोग

इस पेपर के लाभ

  1. कम उपकरण आवश्यकताएं: मोबाइल डिवाइस छवियों के लिए उपयुक्त, विशेषज्ञ उपकरण की आवश्यकता नहीं
  2. आर्किटेक्चर नवाचार: कैप्सनेट+DBN का अद्वितीय संयोजन
  3. व्यावहारिकता: वास्तविक नैदानिक अनुप्रयोग परिदृश्यों के लिए डिज़ाइन किया गया

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी व्यवहार्यता: गहन शिक्षण मौखिक कैंसर पहचान की जटिल समस्या को हल करने की क्षमता रखती है
  2. उत्कृष्ट प्रदर्शन: कई मूल्यांकन मेट्रिक्स पर 90% से अधिक प्रदर्शन प्राप्त करना
  3. नैदानिक मूल्य: प्रारंभिक निदान और रेफरल निर्णयों का समर्थन कर सकता है

सीमाएं

  1. डेटासेट आकार: डेटासेट के विशिष्ट आकार को स्पष्ट नहीं किया गया है
  2. अंतर-जातीय सत्यापन: विभिन्न जनसंख्या में सत्यापन परिणामों की कमी
  3. वास्तविक समय प्रदर्शन: मॉडल अनुमान समय और कम्प्यूटेशनल जटिलता की रिपोर्ट नहीं की गई
  4. शीर्षक असंगति: पेपर शीर्षक "मौखिक ल्यूकोपेनिया" का उल्लेख करता है लेकिन सामग्री मुख्य रूप से मौखिक कैंसर पर केंद्रित है

भविष्य की दिशाएं

  1. बहु-मोडल संलयन: अधिक नैदानिक डेटा प्रकारों को एकीकृत करना
  2. जनसंख्या विस्तार: व्यापक जनसंख्या में मॉडल प्रदर्शन को सत्यापित करना
  3. वास्तविक समय तैनाती: मोबाइल डिवाइस वास्तविक समय अनुमान का समर्थन करने के लिए मॉडल को अनुकूलित करना
  4. मानकीकरण: एकीकृत मूल्यांकन मानदंड और डेटासेट स्थापित करना

गहन मूल्यांकन

शक्तियां

  1. विधि नवाचार: कैप्सनेट और DBN का संयोजन नवीनता रखता है
  2. वास्तविक आवश्यकता: वैश्विक स्वास्थ्य समस्या के महत्वपूर्ण अनुप्रयोग
  3. उत्कृष्ट प्रदर्शन: कई संकेतकों पर उच्च स्तर प्राप्त करना
  4. व्यावहारिक डिजाइन: वास्तविक तैनाती की व्यवहार्यता पर विचार किया गया

कमियां

  1. सैद्धांतिक विश्लेषण: हाइब्रिड आर्किटेक्चर के गहन सैद्धांतिक विश्लेषण की कमी
  2. तुलनात्मक प्रयोग: अन्य SOTA विधियों के साथ तुलना अपर्याप्त है
  3. विलोपन प्रयोग: प्रत्येक घटक के स्वतंत्र योगदान को पूरी तरह से सत्यापित नहीं किया गया
  4. सामान्यीकरण सत्यापन: क्रॉस-डेटासेट सत्यापन परिणामों की कमी

प्रभाव

  1. शैक्षणिक मूल्य: चिकित्सा छवि विश्लेषण के लिए नई तकनीकी पथ प्रदान करना
  2. व्यावहारिक मूल्य: संसाधन-सीमित क्षेत्रों में स्क्रीनिंग के लिए अनुप्रयोग की संभावना
  3. पुनरुत्पादनीयता: पुनरुत्पादन का समर्थन करने के लिए अधिक विस्तृत कार्यान्वयन विवरण की आवश्यकता है

लागू परिदृश्य

  1. टेलीमेडिसिन: विशेषज्ञ डॉक्टरों की कमी वाले क्षेत्रों के लिए उपयुक्त
  2. प्रारंभिक स्क्रीनिंग: नैदानिक परीक्षा के लिए सहायक उपकरण के रूप में कार्य कर सकता है
  3. शैक्षणिक प्रशिक्षण: चिकित्सा छात्रों और सामान्य चिकित्सकों के प्रशिक्षण के लिए उपयोग किया जा सकता है
  4. बड़े पैमाने पर स्क्रीनिंग: जनसंख्या स्तर के मौखिक कैंसर स्क्रीनिंग कार्यक्रमों का समर्थन करना

संदर्भ

पेपर में 15 संबंधित अनुसंधानों का हवाला दिया गया है, जिसमें मौखिक कैंसर पहचान, गहन शिक्षण अनुप्रयोग, बहु-मोडल विधियां आदि कई पहलू शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तकनीकी तुलना प्रदान करते हैं।


समग्र मूल्यांकन: यह अनुसंधान मौखिक कैंसर पहचान के लिए एक नवीन हाइब्रिड गहन शिक्षण रूपरेखा प्रस्तावित करता है, जिसका महत्वपूर्ण नैदानिक अनुप्रयोग मूल्य है। हालांकि सैद्धांतिक विश्लेषण और प्रायोगिक सत्यापन में सुधार की गुंजाइश है, लेकिन वास्तविक आवश्यकताओं के लिए इसकी डिजाइन सोच और उत्कृष्ट प्रदर्शन इसे इस क्षेत्र में एक मूल्यवान योगदान बनाते हैं।