2025-11-20T12:19:22.539414

Deep Attention-guided Adaptive Subsampling

Shankaranarayana, Roy, Sudhakar et al.
Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.
academic

गहन ध्यान-निर्देशित अनुकूली उप-नमूनाकरण

बुनियादी जानकारी

  • पेपर ID: 2510.12376
  • शीर्षक: Deep Attention-guided Adaptive Subsampling
  • लेखक: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
  • वर्गीकरण: cs.CV, cs.AI, cs.LG
  • प्रकाशन समय: 14 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.12376v1

सारांश

यद्यपि गहन तंत्रिका नेटवर्क के प्रदर्शन में उल्लेखनीय सुधार हुए हैं, लेकिन ये सुधार अक्सर कम्प्यूटेशनल जटिलता और लागत में वृद्धि की कीमत पर आते हैं। कई मामलों में, जैसे 3D वॉल्यूम या वीडियो वर्गीकरण कार्यों में, अंतर्निहित अनावश्यकता के कारण सभी स्लाइस या फ्रेम आवश्यक नहीं होते हैं। इस समस्या को हल करने के लिए, लेखकों ने एक नवीन सीखने योग्य उप-नमूनाकरण ढांचा प्रस्तावित किया है जिसे किसी भी तंत्रिका नेटवर्क आर्किटेक्चर में एकीकृत किया जा सकता है। यह ढांचा ध्यान-निर्देशित नमूनाकरण मॉड्यूल के माध्यम से अनुमान प्रक्रिया के दौरान इनपुट के अनुकूल रूप से अनुकूलित होता है, जिससे प्रदर्शन में सुधार होता है और गहन तंत्रिका नेटवर्क मॉडल की जटिलता कम होती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

  1. कम्प्यूटेशनल दक्षता चुनौती: गहन तंत्रिका नेटवर्क उच्च-आयामी डेटा (जैसे वीडियो और वॉल्यूमेट्रिक स्कैन) को संसाधित करते समय विशाल कम्प्यूटेशनल लागत का सामना करते हैं
  2. डेटा अनावश्यकता: 3D चिकित्सा इमेजिंग और वीडियो डेटा में बड़ी मात्रा में अनावश्यक जानकारी मौजूद है, सभी फ्रेम/स्लाइस अंतिम कार्य के लिए उपयोगी नहीं हैं
  3. नमूनाकरण रणनीति की सीमाएं: पारंपरिक समान नमूनाकरण या हस्तनिर्मित अनुमानी विधियां सबसे महत्वपूर्ण जानकारी की पहचान और प्राथमिकता नहीं दे सकती हैं

मौजूदा विधियों की कमियां

  1. Deep Probabilistic Subsampling (DPS): हालांकि प्रभावी है, लेकिन यह निश्चित, सामग्री-स्वतंत्र रणनीति सीखता है
  2. Active Deep Probabilistic Subsampling (ADPS): हालांकि उदाहरण-स्तरीय अनुकूलन शुरू करता है, लेकिन केवल पहले से नमूना किए गए घटकों के आधार पर शर्तबद्ध है, इनपुट विशेषताओं का सीधे उपयोग नहीं करता है
  3. स्थैतिक समस्या: मौजूदा विधियां एक बार सीखने के बाद नमूनाकरण तंत्र को स्थिर रखती हैं, विभिन्न इनपुट के अनुकूल नहीं हो सकती हैं

अनुसंधान प्रेरणा

मौजूदा विधियों की सीमाओं के विरुद्ध, यह पेपर एक गतिशील नमूनाकरण ढांचा प्रस्तावित करता है जो कार्य-अनुकूलन और इनपुट-अनुकूलन दोनों को प्राप्त करता है, जो अनुमान समय पर विशिष्ट इनपुट के अनुसार नमूनाकरण रणनीति को समायोजित कर सकता है।

मुख्य योगदान

  1. नवीन प्लग-एंड-प्ले तंत्रिका नमूनाकरण मॉड्यूल: 3D वॉल्यूम और वीडियो गतिशील नमूनाकरण के लिए मॉड्यूल प्रस्तावित किया गया है, जो अनुमान समय पर इनपुट के अनुकूल होता है, कार्य और इनपुट दोहरे अनुकूलन को प्राप्त करता है
  2. व्यापक प्रदर्शन सत्यापन: आठ चिकित्सा इमेजिंग डेटासेट पर ढांचे की प्रभावशीलता सत्यापित की गई है, जिसमें छह MedMNIST3D डेटासेट, एक सार्वजनिक अल्ट्रासाउंड वीडियो डेटासेट और एक नैदानिक पर्यावरण में एकत्रित स्वामित्व डेटासेट शामिल हैं
  3. अंत-से-अंत प्रशिक्षण योग्य ढांचा: Gumbel-Softmax पुनः-पैरामीटराइजेशन तकनीक के माध्यम से असतत नमूना चयन की अंत-से-अंत भिन्नता सुनिश्चित की जाती है
  4. व्याख्यात्मकता: नमूनाकरण मैट्रिक्स आउटपुट के रूप में उत्पादित होता है, जिससे नमूनाकरण प्रक्रिया स्पष्ट नियंत्रण और व्याख्यात्मकता प्राप्त करती है

विधि विवरण

कार्य परिभाषा

T फ्रेम युक्त अनुक्रम XRB×T×C×H×WX \in \mathbb{R}^{B \times T \times C \times H \times W} दिया गया है, लक्ष्य एक नमूनाकरण फ़ंक्शन SθS_\theta सीखना है जो k फ्रेम का उप-समुच्चय चुनता है (जहां kTk \ll T)।

मॉडल आर्किटेक्चर

1. हल्का विशेषता निष्कर्षण

विशेषता निष्कर्षण मॉड्यूल इनपुट अनुक्रम के समृद्ध प्रतिनिधित्व की गणना के लिए कई समानांतर पथ शामिल करता है:

  • अस्थायी गतिविधि कैप्चर: स्थानिक और चैनल आयामों पर फ्रेम-दर-फ्रेम भिन्नता की गणना
  • शारीरिक सीमा पहचान: Sobel और Laplacian कर्नेल सेट लागू करके किनारे परिमाण की गणना
  • विशेषता एकत्रीकरण: निकाली गई विशेषताओं को जोड़कर व्यापक विशेषता प्रतिनिधित्व FRB×T×dF \in \mathbb{R}^{B \times T \times d} बनाना

2. बहु-सिर ध्यान परत

एकत्रित विशेषता टेंसर F को अंतिम नमूनाकरण logits उत्पन्न करने के लिए बहु-सिर ध्यान परत के माध्यम से संसाधित किया जाता है:

sh=Softplus(MLPh(F))s^h = \text{Softplus}(\text{MLP}^h(F))

Ah(:,j,:)=abasesh(:,j)A^{(:,j,:)}_h = a_{\text{base}} \odot s^{(:,j)}_h

A=1Hh=1HAhA = \frac{1}{H} \sum_{h=1}^H A^h

जहां H ध्यान सिर की संख्या है, shRB×ks^h \in \mathbb{R}^{B \times k} सिर-विशिष्ट स्केल कारक हैं।

3. भिन्न Gumbel-Softmax नमूनाकरण

अंत-से-अंत प्रशिक्षण को सक्षम करने के लिए, Gumbel-Softmax तकनीक का उपयोग भिन्न नमूनाकरण के लिए किया जाता है:

अनुकूली तापमान स्केलिंग: τ=τ0(0.5+σ(MLPtemp(F)))\tau = \tau_0 \cdot (0.5 + \sigma(\text{MLP}_{\text{temp}}(F)))

नमूनाकरण प्रक्रिया: Gb,j,tGumbel(0,1)G_{b,j,t} \sim \text{Gumbel}(0,1)Psoft=Softmaxt(A+Gτ)P_{\text{soft}} = \text{Softmax}_t\left(\frac{A + G}{\tau}\right)

भिन्नता सुनिश्चित करने के लिए सीधे-के-माध्यम से अनुमानक (STE) का उपयोग करते हुए, अंतिम नमूनाकरण मैट्रिक्स PRB×k×TP \in \mathbb{R}^{B \times k \times T} प्राप्त होता है।

तकनीकी नवाचार बिंदु

  1. गतिशील इनपुट अनुकूलन: DPS की स्थैतिक रणनीति के विपरीत, DAS इनपुट सामग्री के अनुसार नमूनाकरण रणनीति को गतिशील रूप से समायोजित कर सकता है
  2. हल्का डिजाइन: ADPS की बहु-चरण प्रक्रिया की तुलना में, DAS एकल-पास हल्का मॉड्यूल अपनाता है
  3. अनुकूली तापमान तंत्र: अन्वेषण और दोहन के बीच संतुलन को गतिशील रूप से नियंत्रित करता है
  4. बहु-मोडल विशेषता संलयन: अस्थायी गतिविधि और स्थानिक संरचना जानकारी को जोड़ता है

प्रायोगिक सेटअप

डेटासेट

  1. MedMNIST3D: छह 3D वॉल्यूम डेटासेट (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), जो बहु-अंग विभाजन और रोग पहचान कार्यों को कवर करते हैं
  2. Breast Ultrasound Video (BUSV): सार्वजनिक स्तन अल्ट्रासाउंड वीडियो डेटासेट, स्तन घाव पहचान के लिए द्विआधारी वर्गीकरण बेंचमार्क
  3. आंतरिक गैस्ट्रिक एंट्रम डेटासेट: वास्तविक अस्पताल पर्यावरण में एकत्रित स्वामित्व नैदानिक अल्ट्रासाउंड वीडियो डेटासेट, जिसमें पांच वर्ग गैस्ट्रिक सामग्री वर्गीकरण शामिल है

मूल्यांकन मेट्रिक्स

  • संतुलित सटीकता (Balanced Accuracy)
  • AUC (Area Under Curve)
  • सभी परिणाम तीन स्वतंत्र रन के औसत हैं

तुलनात्मक विधियां

  1. पूर्ण अनुक्रम: सभी फ्रेम या स्लाइस को संसाधित करना (कम्प्यूटेशनल ऊपरी सीमा)
  2. यादृच्छिक नमूनाकरण: k फ्रेम को यादृच्छिक रूप से चुनना
  3. समान नमूनाकरण: फ्रेम को समान दूरी पर चुनना
  4. Deep Probabilistic Subsampling (DPS): कार्य-अनुकूलन लेकिन सामग्री-स्वतंत्र सीखा नमूनाकरण
  5. Active Deep Probabilistic Subsampling (ADPS): इनपुट-अनुकूलन लेकिन केवल पहले से नमूना किए गए घटकों पर आधारित

कार्यान्वयन विवरण

  • डाउनस्ट्रीम आर्किटेक्चर: विशेषता निष्कर्षक के रूप में MobileNetV3-Small
  • अनुकूलक: Adam (lr=1e-4, batch size=16)
  • नमूनाकरण अनुपात: सभी उप-नमूनाकरण विधियां मूल अनुक्रम लंबाई का 50% चुनती हैं
  • प्रारंभिक रोकथाम रणनीति: सत्यापन हानि के आधार पर

प्रायोगिक परिणाम

मुख्य परिणाम

सार्वजनिक डेटासेट प्रदर्शन (तालिका 1)

अधिकांश MedMNIST3D डेटासेट पर, DAS DPS और ADPS से काफी बेहतर है:

  • Organ डेटासेट: AUC 0.931 बनाम ADPS 0.928, सटीकता 58.1% बनाम ADPS 57.3%
  • Nodule डेटासेट: AUC 0.799 बनाम ADPS 0.782, सटीकता 75.8% बनाम ADPS 75.8%
  • Vessel डेटासेट: AUC 0.752 बनाम ADPS 0.739, सटीकता 82.9% बनाम ADPS 80.7%

आंतरिक डेटासेट प्रदर्शन (तालिका 2)

चुनौतीपूर्ण गैस्ट्रिक एंट्रम डेटासेट पर, DAS पूर्ण अनुक्रम बेसलाइन से भी बेहतर है:

  • AUC: 0.639 बनाम पूर्ण अनुक्रम 0.611
  • सटीकता: 34.1% बनाम पूर्ण अनुक्रम 30.1%

मुख्य निष्कर्ष

  1. अनावश्यकता उपयोग: ADPS और DAS कई डेटासेट पर पूर्ण अनुक्रम प्रदर्शन के करीब हैं, जो दर्शाता है कि वर्गीकरण कार्यों में उत्कृष्ट नमूनाकरण रणनीतियों द्वारा उपयोग की जा सकने वाली डेटा अनावश्यकता मौजूद है
  2. वास्तविक परिदृश्य लाभ: शोरगुल वाले नैदानिक अल्ट्रासाउंड स्कैन में, DAS विशेष रूप से उत्कृष्ट प्रदर्शन करता है
  3. कम्प्यूटेशनल दक्षता: प्रदर्शन को बनाए रखते या सुधारते हुए, महत्वपूर्ण कम्प्यूटेशनल बचत प्राप्त की जाती है

विलोपन प्रयोग

यद्यपि पेपर में विस्तृत विलोपन प्रयोग नहीं हैं, विभिन्न बेसलाइन के साथ तुलना के माध्यम से, निम्नलिखित देखा जा सकता है:

  • ध्यान तंत्र का महत्व (यादृच्छिक और समान नमूनाकरण के सापेक्ष सुधार)
  • इनपुट अनुकूलन का मूल्य (DPS के सापेक्ष सुधार)
  • गतिशील नमूनाकरण का लाभ (स्थैतिक विधियों के सापेक्ष)

संबंधित कार्य

सीखने योग्य उप-नमूनाकरण

  • DPS: पहली बार कार्य-अनुकूलन नमूनाकरण पैटर्न सीखने के लिए भिन्न ढांचा प्रस्तावित किया, लेकिन निश्चित सामग्री-स्वतंत्र रणनीति अपनाई
  • ADPS: उदाहरण अनुकूलन नमूनाकरण सक्षम करके DPS को विस्तारित किया, लेकिन बहु-चरण प्रक्रिया अनुमान समय पर महत्वपूर्ण कम्प्यूटेशनल ओवरहेड पेश करती है

ध्यान तंत्र

  • वीडियो में महत्वपूर्ण फ्रेम की पहचान के लिए व्यापक रूप से उपयोग किया जाता है, लेकिन अक्सर अंत-से-अंत भिन्नता की कमी होती है या एकीकृत नमूनाकरण ढांचे में एकीकृत नहीं होता है

भिन्न नमूनाकरण तकनीकें

  • Gumbel-Softmax तकनीक: असतत चयन के साथ नेटवर्क प्रशिक्षण को संभव बनाता है
  • यह कार्य ध्यान तंत्र को Gumbel-Softmax-आधारित नमूनाकरण के साथ जोड़ता है, उच्च अनुकूलन और अंत-से-अंत प्रशिक्षण योग्यता प्राप्त करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. DAS कार्य और इनपुट के दोहरे अनुकूलन को सफलतापूर्वक प्राप्त करता है, अनुमान समय पर नमूनाकरण रणनीति को गतिशील रूप से समायोजित करता है
  2. कई चिकित्सा इमेजिंग डेटासेट पर विधि की प्रभावशीलता सत्यापित की गई है, विशेष रूप से वास्तविक नैदानिक पर्यावरण में उत्कृष्ट प्रदर्शन
  3. ढांचा अच्छी सार्वभौमिकता प्रदर्शित करता है, किसी भी तंत्रिका नेटवर्क आर्किटेक्चर में एकीकृत किया जा सकता है

सीमाएं

  1. विशेषता निष्कर्षण निर्भरता: वर्तमान में पूर्वनिर्धारित विशेषताओं (अस्थायी भिन्नता, किनारे पहचान) का उपयोग करता है, जो अनुकूलन को सीमित कर सकता है
  2. मूल्यांकन सीमा: मुख्य रूप से चिकित्सा इमेजिंग क्षेत्र में सत्यापित, अन्य क्षेत्रों में सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है
  3. कम्प्यूटेशनल ओवरहेड विश्लेषण: विस्तृत कम्प्यूटेशनल जटिलता विश्लेषण और वास्तविक अनुमान समय तुलना की कमी है

भविष्य की दिशा

पेपर एक आशाजनक अनुसंधान दिशा प्रस्तावित करता है: सीखने योग्य विशेषता निष्कर्षण मॉड्यूल विकसित करना जो स्वचालित रूप से नमूनाकरण प्रक्रिया को निर्देशित करने के लिए महत्वपूर्ण विशेषताओं की पहचान कर सकता है, DAS के प्रदर्शन को और बढ़ा सकता है।

गहन मूल्यांकन

लाभ

  1. समस्या परिभाषा स्पष्ट: मौजूदा विधियों की मुख्य सीमा को सटीक रूप से पहचानता है (स्थैतिक बनाम गतिशील नमूनाकरण)
  2. तकनीकी नवाचार: ध्यान तंत्र को भिन्न नमूनाकरण के साथ चतुराई से जोड़ता है, इनपुट अनुकूलन प्राप्त करता है
  3. प्रयोग पर्याप्तता: कई डेटासेट पर व्यापक मूल्यांकन, वास्तविक नैदानिक डेटा सहित
  4. व्यावहारिक मूल्य उच्च: विधि सरल और प्रभावी है, मौजूदा आर्किटेक्चर में आसानी से एकीकृत

कमियां

  1. सैद्धांतिक विश्लेषण की कमी: विधि के अभिसरण और स्थिरता के बारे में सैद्धांतिक विश्लेषण की कमी है
  2. अपर्याप्त विलोपन प्रयोग: विभिन्न घटकों (बहु-सिर ध्यान, अनुकूली तापमान आदि) के विशिष्ट योगदान का विस्तृत विश्लेषण नहीं है
  3. कम्प्यूटेशनल दक्षता परिमाणीकरण: हालांकि दक्षता में सुधार का दावा किया जाता है, लेकिन विशिष्ट कम्प्यूटेशनल समय और मेमोरी उपयोग तुलना की कमी है
  4. हाइपरपैरामीटर संवेदनशीलता: मुख्य हाइपरपैरामीटर (जैसे सिर संख्या H, तापमान τ₀) के प्रदर्शन पर प्रभाव का विश्लेषण नहीं है

प्रभाव

  1. शैक्षणिक योगदान: सीखने योग्य नमूनाकरण क्षेत्र को नई सोच प्रदान करता है, विशेष रूप से इनपुट अनुकूलन पहलू में
  2. व्यावहारिक अनुप्रयोग: चिकित्सा इमेजिंग प्रसंस्करण में प्रत्यक्ष अनुप्रयोग मूल्य, विशेष रूप से संसाधन-सीमित वातावरण के लिए उपयुक्त
  3. पुनरुत्पादनीयता: विधि विवरण अपेक्षाकृत स्पष्ट है, लेकिन कोड और विस्तृत कार्यान्वयन विवरण की कमी है

लागू परिदृश्य

  1. चिकित्सा इमेजिंग विश्लेषण: 3D वॉल्यूम डेटा और अल्ट्रासाउंड वीडियो प्रसंस्करण
  2. वीडियो समझ: लंबे वीडियो अनुक्रम का कुशल प्रसंस्करण
  3. संसाधन-सीमित वातावरण: मोबाइल डिवाइस और एज कंप्यूटिंग परिदृश्य
  4. वास्तविक समय अनुप्रयोग: तेजी से प्रतिक्रिया की आवश्यकता वाली नैदानिक प्रणालियां

संदर्भ

पेपर इस क्षेत्र के प्रमुख कार्यों का हवाला देता है, जिसमें शामिल हैं:

  • Gumbel-Softmax संबंधित कार्य 3,4
  • सीखने योग्य नमूनाकरण के अग्रणी कार्य DPS 1 और ADPS 2
  • MedMNIST3D बेंचमार्क डेटासेट 5
  • वीडियो प्रसंस्करण में ध्यान तंत्र के अनुप्रयोग 7,8

समग्र मूल्यांकन: यह एक तकनीकी रूप से ठोस, समस्या परिभाषा में स्पष्ट पेपर है। यद्यपि सैद्धांतिक विश्लेषण और प्रयोग गहराई के पहलुओं में सुधार की गुंजाइश है, लेकिन इसके द्वारा प्रस्तावित गतिशील इनपुट-अनुकूलन नमूनाकरण विचार महत्वपूर्ण मूल्य रखता है, विशेष रूप से चिकित्सा इमेजिंग जैसे व्यावहारिक अनुप्रयोग परिदृश्यों में अच्छी संभावनाएं प्रदर्शित करता है। विधि की सरलता और सार्वभौमिकता इसे अच्छी व्यावहारिक मूल्य प्रदान करती है।