2025-11-20T12:19:22.539414

Deep Attention-guided Adaptive Subsampling

Shankaranarayana, Roy, Sudhakar et al.

Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.

academic

গভীর মনোযোগ-নির্দেশিত অভিযোজিত সাবস্যাম্পলিং

মৌলিক তথ্য

পেপার আইডি: 2510.12376
শিরোনাম: Deep Attention-guided Adaptive Subsampling
লেখক: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
শ্রেণীবিভাগ: cs.CV, cs.AI, cs.LG
প্রকাশনার সময়: ২০২৫ সালের ১৪ অক্টোবর (arXiv প্রিপ্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.12376v1

সারসংক্ষেপ

যদিও গভীর স্নায়ু নেটওয়ার্কগুলি কর্মক্ষমতায় উল্লেখযোগ্য উন্নতি অর্জন করেছে, তবে এই উন্নতিগুলি প্রায়শই গণনামূলক জটিলতা এবং খরচ বৃদ্ধির মূল্যে আসে। অনেক ক্ষেত্রে, যেমন ৩D ভলিউম বা ভিডিও শ্রেণীবিভাগ কাজে, অন্তর্নিহিত অপ্রয়োজনীয়তার কারণে সমস্ত স্লাইস বা ফ্রেম প্রয়োজনীয় নয়। এই সমস্যা সমাধানের জন্য, লেখকরা একটি নতুন শিক্ষণযোগ্য সাবস্যাম্পলিং কাঠামো প্রস্তাব করেছেন যা যেকোনো স্নায়ু নেটওয়ার্ক স্থাপত্যে একীভূত করা যায়। এই কাঠামোটি মনোযোগ-নির্দেশিত নমুনা মডিউলের মাধ্যমে অনুমানের সময় গতিশীলভাবে ইনপুটের সাথে খাপ খায়, কর্মক্ষমতা উন্নতি অর্জন করে এবং গভীর স্নায়ু নেটওয়ার্ক মডেলের জটিলতা হ্রাস করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

১. গণনামূলক দক্ষতার চ্যালেঞ্জ: গভীর স্নায়ু নেটওয়ার্কগুলি উচ্চ-মাত্রিক ডেটা (যেমন ভিডিও এবং ভলিউম স্ক্যান) প্রক্রিয়া করার সময় বিশাল গণনামূলক খরচের সম্মুখীন হয় ২. ডেটা অপ্রয়োজনীয়তা: ৩D চিকিৎসা চিত্র এবং ভিডিও ডেটায় প্রচুর অপ্রয়োজনীয় তথ্য বিদ্যমান, সমস্ত ফ্রেম/স্লাইস চূড়ান্ত কাজের জন্য উপকারী নয় ३. নমুনা কৌশলের সীমাবদ্ধতা: ঐতিহ্যবাহী সমান নমুনা বা হস্তনির্মিত অনুমানমূলক পদ্ধতি সবচেয়ে উল্লেখযোগ্য তথ্য চিহ্নিত এবং অগ্রাধিকার দিতে পারে না

বিদ্যমান পদ্ধতির অপর্যাপ্ততা

१. Deep Probabilistic Subsampling (DPS): কার্যকর হলেও, এটি নির্দিষ্ট, বিষয়বস্তু-নিরপেক্ষ কৌশল শিখে २. Active Deep Probabilistic Subsampling (ADPS): যদিও এটি উদাহরণ-স্তরের অভিযোজনযোগ্যতা প্রবর্তন করে, তবে এটি শুধুমাত্র ইতিমধ্যে নমুনা করা উপাদানগুলির উপর ভিত্তি করে শর্তযুক্ত, ইনপুট বৈশিষ্ট্যগুলি সরাসরি ব্যবহার করে না ३. স্ট্যাটিক সমস্যা: বিদ্যমান পদ্ধতিগুলি একবার শিখে নিলে, নমুনা প্রক্রিয়া স্ট্যাটিক থাকে এবং বিভিন্ন ইনপুটের সাথে খাপ খাইয়ে নিতে পারে না

গবেষণা প্রেরণা

বিদ্যমান পদ্ধতির সীমাবদ্ধতার বিরুদ্ধে, এই পেপারটি একটি গতিশীল নমুনা কাঠামো প্রস্তাব করে যা কাজ-অভিযোজিত এবং ইনপুট-অভিযোজিত উভয়ই, অনুমানের সময় নির্দিষ্ট ইনপুটের সাথে নমুনা কৌশল সামঞ্জস্য করতে পারে।

মূল অবদান

१. উপন্যাস প্লাগ-এন্ড-প্লে স্নায়ু নমুনা মডিউল: ३D ভলিউম এবং ভিডিও গতিশীল নমুনার জন্য একটি মডিউল প্রস্তাব করা হয়েছে যা অনুমানের সময় ইনপুটের সাথে খাপ খায়, কাজ এবং ইনপুট দ্বৈত অভিযোজনযোগ্যতা অর্জন করে २. ব্যাপক কর্মক্ষমতা যাচাইকরণ: আটটি চিকিৎসা চিত্র ডেটাসেটে কাঠামোর কার্যকারিতা যাচাই করা হয়েছে, যার মধ্যে ছয়টি MedMNIST3D ডেটাসেট, একটি জনসাধারণের আল্ট্রাসাউন্ড ভিডিও ডেটাসেট এবং একটি ক্লিনিকাল পরিবেশে সংগৃহীত মালিকানাধীন ডেটাসেট রয়েছে ३. শেষ থেকে শেষ প্রশিক্ষণযোগ্য কাঠামো: Gumbel-Softmax পুনঃপ্যারামিটারাইজেশন কৌশলের মাধ্যমে বিচ্ছিন্ন নমুনা নির্বাচনের শেষ থেকে শেষ পার্থক্যতা নিশ্চিত করা হয় ४. ব্যাখ্যাযোগ্যতা: নমুনা ম্যাট্রিক্স আউটপুট হিসাবে উত্পাদিত হয়, নমুনা প্রক্রিয়াটিকে স্পষ্ট নিয়ন্ত্রণ এবং ব্যাখ্যাযোগ্য করে তোলে।

পদ্ধতির বিস্তারিত বর্ণনা

কাজের সংজ্ঞা

T ফ্রেম সহ একটি ক্রম $X \in \mathbb{R}^{B \times T \times C \times H \times W}$ দেওয়া হলে, লক্ষ্য হল একটি নমুনা ফাংশন $S_\theta$ শিখা যা k ফ্রেমের একটি উপসেট নির্বাচন করে (যেখানে $k \ll T$ )।

মডেল স্থাপত্য

१. হালকা বৈশিষ্ট্য নিষ্কাশন

বৈশিষ্ট্য নিষ্কাশন মডিউলে ইনপুট ক্রমের সমৃদ্ধ প্রতিনিধিত্ব গণনা করার জন্য একাধিক সমান্তরাল পথ রয়েছে:

সময়গত গতিশীলতা ক্যাপচার: স্থানিক এবং চ্যানেল মাত্রায় ফ্রেম-মধ্যে বৈচিত্র্য গণনা করা
শারীরবৃত্তীয় সীমানা সনাক্তকরণ: Sobel এবং Laplacian কার্নেল সেট প্রয়োগ করে প্রান্ত মাত্রা গণনা করা
বৈশিষ্ট্য সমন্বয়: নিষ্কাশিত বৈশিষ্ট্যগুলি সংযুক্ত করে ব্যাপক বৈশিষ্ট্য প্রতিনিধিত্ব $F \in \mathbb{R}^{B \times T \times d}$ গঠন করা

२. বহু-মাথা মনোযোগ স্তর

সমন্বিত বৈশিষ্ট্য টেনসর F চূড়ান্ত নমুনা logits উৎপাদনের জন্য বহু-মাথা মনোযোগ স্তরের মাধ্যমে প্রক্রিয়া করা হয়:

$s^h = \text{Softplus}(\text{MLP}^h(F))$

$A^{(:,j,:)}_h = a_{\text{base}} \odot s^{(:,j)}_h$

$A = \frac{1}{H} \sum_{h=1}^H A^h$

যেখানে H হল মনোযোগ মাথার সংখ্যা, $s^h \in \mathbb{R}^{B \times k}$ হল মাথা-নির্দিষ্ট স্কেল ফ্যাক্টর।

३. পার্থক্যযোগ্য Gumbel-Softmax নমুনা

শেষ থেকে শেষ প্রশিক্ষণ সক্ষম করতে, Gumbel-Softmax কৌশল পার্থক্যযোগ্য নমুনার জন্য গ্রহণ করা হয়:

অভিযোজিত তাপমাত্রা স্কেলিং: $\tau = \tau_0 \cdot (0.5 + \sigma(\text{MLP}_{\text{temp}}(F)))$

নমুনা প্রক্রিয়া: $G_{b,j,t} \sim \text{Gumbel}(0,1)$ $P_{\text{soft}} = \text{Softmax}_t\left(\frac{A + G}{\tau}\right)$

সরাসরি-মাধ্যমে অনুমানক (STE) ব্যবহার করে পার্থক্যতা নিশ্চিত করা হয়, চূড়ান্ত নমুনা ম্যাট্রিক্স $P \in \mathbb{R}^{B \times k \times T}$ প্রাপ্ত করা হয়।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. গতিশীল ইনপুট অভিযোজন: DPS এর স্ট্যাটিক কৌশলের বিপরীতে, DAS ইনপুট বিষয়বস্তুর উপর ভিত্তি করে নমুনা কৌশল গতিশীলভাবে সামঞ্জস্য করতে পারে २. হালকা ডিজাইন: ADPS এর বহু-পর্যায়ের প্রক্রিয়ার তুলনায়, DAS একক-পাস হালকা মডিউল ব্যবহার করে ३. অভিযোজিত তাপমাত্রা প্রক্রিয়া: অন্বেষণ এবং শোষণের মধ্যে ভারসাম্য গতিশীলভাবে নিয়ন্ত্রণ করা ४. বহু-মোডাল বৈশিষ্ট্য সংমিশ্রণ: সময়গত গতিশীলতা এবং স্থানিক কাঠামো তথ্য একত্রিত করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. MedMNIST3D: ছয়টি ३D ভলিউম ডেটাসেট (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), যা বহু-অঙ্গ বিভাজন এবং রোগতত্ত্ব সনাক্তকরণ কাজ জুড়ে २. Breast Ultrasound Video (BUSV): জনসাধারণের স্তন আল্ট্রাসাউন্ড ভিডিও ডেটাসেট, স্তন ক্ষত সনাক্তকরণের জন্য দ্বি-শ্রেণী বেঞ্চমার্ক ३. অভ্যন্তরীণ গ্যাস্ট্রিক অ্যান্ট্রাম ডেটাসেট: প্রকৃত হাসপাতাল পরিবেশে সংগৃহীত মালিকানাধীন ক্লিনিকাল আল্ট্রাসাউন্ড ভিডিও ডেটাসেট, পাঁচ-শ্রেণী গ্যাস্ট্রিক বিষয়বস্তু শ্রেণীবিভাগ সহ

মূল্যায়ন মেট্রিক্স

সুষম নির্ভুলতা (Balanced Accuracy)
AUC (Area Under Curve)
সমস্ত ফলাফল তিনটি স্বাধীন চালানোর গড় মূল্য

তুলনামূলক পদ্ধতি

१. সম্পূর্ণ ক্রম: সমস্ত ফ্রেম বা স্লাইস প্রক্রিয়া করা (গণনামূলক উপরের সীমা) २. র্যান্ডম নমুনা: k ফ্রেম এলোমেলোভাবে নির্বাচন করা ३. সমান নমুনা: ফ্রেম সমদূরবর্তীভাবে নির্বাচন করা ४. Deep Probabilistic Subsampling (DPS): কাজ-অভিযোজিত কিন্তু বিষয়বস্তু-নিরপেক্ষ শিক্ষিত নমুনা ५. Active Deep Probabilistic Subsampling (ADPS): ইনপুট-অভিযোজিত কিন্তু শুধুমাত্র ইতিমধ্যে নমুনা করা উপাদানগুলির উপর ভিত্তি করে

বাস্তবায়ন বিবরণ

ডাউনস্ট্রিম স্থাপত্য: বৈশিষ্ট্য নিষ্কাশক হিসাবে MobileNetV3-Small
অপ্টিমাইজার: Adam (lr=1e-4, batch size=16)
নমুনা অনুপাত: সমস্ত সাবস্যাম্পলিং পদ্ধতি মূল ক্রম দৈর্ঘ্যের ৫০% নির্বাচন করে
প্রাথমিক থামানোর কৌশল: যাচাইকরণ ক্ষতির উপর ভিত্তি করে

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

জনসাধারণের ডেটাসেট কর্মক্ষমতা (টেবিল १)

বেশিরভাগ MedMNIST3D ডেটাসেটে, DAS উল্লেখযোগ্যভাবে DPS এবং ADPS অতিক্রম করে:

Organ ডেটাসেট: AUC 0.931 বনাম ADPS 0.928, নির্ভুলতা 58.1% বনাম ADPS 57.3%
Nodule ডেটাসেট: AUC 0.799 বনাম ADPS 0.782, নির্ভুলতা 75.8% বনাম ADPS 75.8%
Vessel ডেটাসেট: AUC 0.752 বনাম ADPS 0.739, নির্ভুলতা 82.9% বনাম ADPS 80.7%

অভ্যন্তরীণ ডেটাসেট কর্মক্ষমতা (টেবিল २)

চ্যালেঞ্জিং গ্যাস্ট্রিক অ্যান্ট্রাম ডেটাসেটে, DAS এমনকি সম্পূর্ণ ক্রম বেসলাইন অতিক্রম করে:

AUC: 0.639 বনাম সম্পূর্ণ ক্রম 0.611
নির্ভুলতা: 34.1% বনাম সম্পূর্ণ ক্রম 30.1%

মূল অনুসন্ধান

१. অপ্রয়োজনীয়তা ব্যবহার: ADPS এবং DAS অনেক ডেটাসেটে সম্পূর্ণ ক্রম কর্মক্ষমতার কাছাকাছি, শ্রেণীবিভাগ কাজে ডেটা অপ্রয়োজনীয়তা রয়েছে যা চমৎকার নমুনা কৌশল দ্বারা ব্যবহার করা যায় २. বাস্তব দৃশ্যের সুবিধা: শোরগোল বেশি ক্লিনিকাল আল্ট্রাসাউন্ড স্ক্যানে, DAS বিশেষভাবে দাঁড়িয়ে আছে ३. গণনামূলক দক্ষতা: কর্মক্ষমতা বজায় বা উন্নত করার সময়, উল্লেখযোগ্য গণনামূলক সঞ্চয় অর্জন করা হয়

বিলোপন পরীক্ষা

যদিও পেপারে বিস্তারিত বিলোপন পরীক্ষা নেই, বিভিন্ন বেসলাইনের সাথে তুলনার মাধ্যমে, দেখা যায়:

মনোযোগ প্রক্রিয়ার গুরুত্ব (র্যান্ডম এবং সমান নমুনার উন্নতির তুলনায়)
ইনপুট অভিযোজনযোগ্যতার মূল্য (DPS এর উন্নতির তুলনায়)
গতিশীল নমুনার সুবিধা (স্ট্যাটিক পদ্ধতির তুলনায়)

সিদ্ধান্ত এবং আলোচনা

প্রধান সিদ্ধান্ত

१. DAS সফলভাবে কাজ এবং ইনপুটের দ্বৈত অভিযোজনযোগ্যতা অর্জন করে, অনুমানের সময় নমুনা কৌশল গতিশীলভাবে সামঞ্জস্য করে २. একাধিক চিকিৎসা চিত্র ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করা হয়েছে, বিশেষত প্রকৃত ক্লিনিকাল পরিবেশে চমৎকার কর্মক্ষমতা সহ ३. কাঠামোটি ভাল সার্বজনীনতা রয়েছে, যেকোনো স্নায়ু নেটওয়ার্ক স্থাপত্যে একীভূত করা যায়

সীমাবদ্ধতা

१. বৈশিষ্ট্য নিষ্কাশন নির্ভরতা: বর্তমান পূর্বনির্ধারিত বৈশিষ্ট্য ব্যবহার করে (সময়গত বৈচিত্র্য, প্রান্ত সনাক্তকরণ), যা অভিযোজনযোগ্যতা সীমিত করতে পারে २. মূল্যায়ন পরিসীমা: প্রধানত চিকিৎসা চিত্র ক্ষেত্রে যাচাই করা হয়েছে, অন্যান্য ক্ষেত্রে সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন ३. গণনামূলক ওভারহেড বিশ্লেষণ: দক্ষতা উন্নত করার দাবি করা হয়েছে, কিন্তু নির্দিষ্ট গণনা জটিলতা বিশ্লেষণ এবং প্রকৃত অনুমান সময় তুলনা অনুপস্থিত

ভবিষ্যত দিকনির্দেশনা

পেপারটি একটি প্রতিশ্রুতিশীল গবেষণা দিক প্রস্তাব করে: শিক্ষণযোগ্য বৈশিষ্ট্য নিষ্কাশন মডিউল বিকাশ করা যা স্বয়ংক্রিয়ভাবে নমুনা প্রক্রিয়া নির্দেশনা দেওয়ার জন্য উল্লেখযোগ্য বৈশিষ্ট্য সনাক্ত করতে পারে, DAS এর কর্মক্ষমতা আরও বৃদ্ধি করে।

গভীর মূল্যায়ন

সুবিধা

१. সমস্যা সংজ্ঞা স্পষ্ট: বিদ্যমান পদ্ধতির মূল সীমাবদ্ধতা সঠিকভাবে চিহ্নিত করে (স্ট্যাটিক বনাম গতিশীল নমুনা) २. প্রযুক্তিগত উদ্ভাবনী: মনোযোগ প্রক্রিয়াকে পার্থক্যযোগ্য নমুনার সাথে চতুরভাবে একত্রিত করে, ইনপুট অভিযোজনযোগ্যতা অর্জন করে ३. পরীক্ষা পর্যাপ্ত: একাধিক ডেটাসেটে ব্যাপক মূল্যায়ন পরিচালিত হয়েছে, প্রকৃত ক্লিনিকাল ডেটা সহ ४. ব্যবহারিক মূল্য উচ্চ: পদ্ধতি সহজ এবং কার্যকর, বিদ্যমান স্থাপত্যে একীভূত করা সহজ

অপর্যাপ্ততা

१. তাত্ত্বিক বিশ্লেষণ অনুপস্থিত: পদ্ধতির সংমিশ্রণ এবং স্থিতিশীলতার জন্য তাত্ত্বিক বিশ্লেষণ অনুপস্থিত २. বিলোপন পরীক্ষা অপর্যাপ্ত: বিভিন্ন উপাদানের (বহু-মাথা মনোযোগ, অভিযোজিত তাপমাত্রা ইত্যাদি) নির্দিষ্ট অবদানের বিস্তারিত বিশ্লেষণ নেই ३. গণনামূলক দক্ষতা পরিমাণীকরণ: যদিও দক্ষতা উন্নতির দাবি করা হয়েছে, গণনা সময় এবং মেমরি ব্যবহারের নির্দিষ্ট তুলনা অনুপস্থিত ४. হাইপারপ্যারামিটার সংবেদনশীলতা: মূল হাইপারপ্যারামিটার (মাথার সংখ্যা H, তাপমাত্রা τ₀) এর কর্মক্ষমতার উপর প্রভাব বিশ্লেষণ নেই

প্রভাব

१. একাডেমিক অবদান: শিক্ষণযোগ্য নমুনা ক্ষেত্রে নতুন চিন্তাভাবনা প্রদান করে, বিশেষত ইনপুট অভিযোজনযোগ্যতার দিক থেকে २. ব্যবহারিক প্রয়োগ: চিকিৎসা চিত্র প্রক্রিয়াকরণে সরাসরি প্রয়োগ মূল্য রয়েছে, বিশেষত সম্পদ-সীমিত পরিবেশের জন্য উপযুক্ত ३. পুনরুৎপাদনযোগ্যতা: পদ্ধতি বর্ণনা তুলনামূলকভাবে স্পষ্ট, কিন্তু কোড এবং বিস্তারিত বাস্তবায়ন বিবরণ অনুপস্থিত

প্রযোজ্য দৃশ্য

१. চিকিৎসা চিত্র বিশ্লেষণ: ३D ভলিউম ডেটা এবং আল্ট্রাসাউন্ড ভিডিও প্রক্রিয়াকরণ २. ভিডিও বোঝাপড়া: দীর্ঘ ভিডিও ক্রমের দক্ষ প্রক্রিয়াকরণ ३. সম্পদ-সীমিত পরিবেশ: মোবাইল ডিভাইস এবং প্রান্ত গণনা দৃশ্য ४. রিয়েল-টাইম প্রয়োগ: দ্রুত প্রতিক্রিয়ার প্রয়োজন এমন ক্লিনিকাল নির্ণয় সিস্টেম

সংদর্ভ

পেপারটি এই ক্ষেত্রের মূল কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Gumbel-Softmax সম্পর্কিত কাজ 3,4
শিক্ষণযোগ্য নমুনার অগ্রগামী কাজ DPS 1 এবং ADPS 2
MedMNIST3D বেঞ্চমার্ক ডেটাসেট 5
ভিডিও প্রক্রিয়াকরণে মনোযোগ প্রক্রিয়ার প্রয়োগ 7,8

সামগ্রিক মূল্যায়ন: এটি একটি প্রযুক্তিগতভাবে দৃঢ়, সমস্যা সংজ্ঞা স্পষ্ট পেপার। যদিও তাত্ত্বিক বিশ্লেষণ এবং পরীক্ষার গভীরতার দিক থেকে উন্নতির অবকাশ রয়েছে, তবে এর প্রস্তাবিত গতিশীল ইনপুট অভিযোজিত নমুনা চিন্তাভাবনা উল্লেখযোগ্য মূল্য রাখে, বিশেষত চিকিৎসা চিত্র এবং অন্যান্য ব্যবহারিক প্রয়োগ দৃশ্যে চমৎকার সম্ভাবনা প্রদর্শন করে। পদ্ধতির সরলতা এবং সার্বজনীনতা এটিকে ভাল ব্যবহারিক মূল্য প্রদান করে।