2025-11-20T12:19:22.539414

Deep Attention-guided Adaptive Subsampling

Shankaranarayana, Roy, Sudhakar et al.

Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.

academic

أخذ العينات الفرعية التكيفي الموجه بالانتباه العميق

المعلومات الأساسية

معرّف الورقة: 2510.12376
العنوان: Deep Attention-guided Adaptive Subsampling
المؤلفون: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
التصنيف: cs.CV, cs.AI, cs.LG
تاريخ النشر: 14 أكتوبر 2025 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2510.12376v1

الملخص

على الرغم من التحسينات الملحوظة في الأداء التي حققتها الشبكات العصبية العميقة، فإن هذه التحسينات غالباً ما تأتي على حساب زيادة التعقيد الحسابي والتكلفة. في العديد من الحالات، مثل مهام تصنيف الأحجام ثلاثية الأبعاد أو الفيديو، لا تكون جميع الشرائح أو الإطارات ضرورية بسبب الطبيعة الزائدة للبيانات. لمعالجة هذه المشكلة، يقترح المؤلفون إطار عمل فرعي قابل للتعلم جديد يمكن دمجه في أي بنية شبكة عصبية. يحقق هذا الإطار تحسناً في الأداء وتقليلاً في التعقيد من خلال وحدة أخذ عينات موجهة بالانتباه تتكيف ديناميكياً مع المدخلات أثناء الاستدلال.

الخلفية البحثية والدافع

المشاكل الأساسية

تحديات الكفاءة الحسابية: تواجه الشبكات العصبية العميقة تكاليف حسابية ضخمة عند معالجة البيانات عالية الأبعاد (مثل الفيديو والمسح الحجمي)
زيادة البيانات: توجد كمية كبيرة من المعلومات الزائدة في الصور الطبية ثلاثية الأبعاد وبيانات الفيديو، وليست جميع الإطارات/الشرائح مفيدة للمهمة النهائية
قيود استراتيجيات أخذ العينات: تفشل طرق أخذ العينات الموحدة أو الاستكشافية اليدوية في تحديد وأولويات المعلومات الأكثر أهمية

أوجه القصور في الطرق الموجودة

أخذ العينات الاحتمالي العميق (DPS): على الرغم من فعاليته، يتعلم استراتيجية ثابتة ومستقلة عن المحتوى
أخذ العينات الاحتمالي العميق النشط (ADPS): على الرغم من إدخال التكيف على مستوى المثيل، فإنه يعتمد فقط على المكونات المأخوذة بالفعل، دون الاستفادة المباشرة من ميزات المدخلات نفسها
مشكلة الثبات: بمجرد تعلم الآليات الموجودة، تبقى آلية أخذ العينات ثابتة ولا تستطيع التكيف مع المدخلات المختلفة

الدافع البحثي

ردّاً على قيود الطرق الموجودة، تقترح هذه الورقة إطار عمل ديناميكي لأخذ العينات يتمتع بالتكيف مع المهمة والتكيف مع المدخلات، مما يسمح بتعديل استراتيجية أخذ العينات وفقاً للمدخلات المحددة أثناء الاستدلال.

المساهمات الأساسية

وحدة أخذ عينات عصبية جديدة قابلة للإدراج: تقترح وحدة لأخذ عينات ديناميكية من الأحجام ثلاثية الأبعاد والفيديو، تتكيف مع المدخلات أثناء الاستدلال، مما يحقق التكيف المزدوج مع المهمة والمدخلات
التحقق الشامل من الأداء: التحقق من فعالية الإطار على ثمانية مجموعات بيانات طبية، بما في ذلك ست مجموعات بيانات MedMNIST3D، ومجموعة بيانات فيديو الموجات فوق الصوتية العامة، ومجموعة بيانات ملكية تم جمعها في بيئة سريرية
إطار عمل قابل للتدريب من طرف إلى طرف: يضمن قابلية التفاضل من طرف إلى طرف لاختيار العينات المنفصلة من خلال حيلة إعادة المعاملات Gumbel-Softmax
القابلية للتفسير: يتم إنتاج مصفوفة أخذ العينات كمخرجات، مما يجعل عملية أخذ العينات ذات تحكم واضح وقابلية للتفسير

شرح الطريقة

تعريف المهمة

بالنظر إلى تسلسل يحتوي على T إطار $X \in \mathbb{R}^{B \times T \times C \times H \times W}$ ، الهدف هو تعلم دالة أخذ عينات $S_\theta$ تختار مجموعة فرعية من k إطار (حيث $k \ll T$ ).

معمارية النموذج

1. استخراج الميزات الخفيفة

تحتوي وحدة استخراج الميزات على عدة مسارات متوازية لحساب تمثيل غني لتسلسل الإدخال:

التقاط الديناميكية الزمنية: حساب التباين بين الإطارات عبر الأبعاد المكانية والقنوية
تحديد الحدود التشريحية: تطبيق مجموعات نوى Sobel و Laplacian لحساب حجم الحافة
تجميع الميزات: ربط الميزات المستخرجة لتشكيل تمثيل ميزات شامل $F \in \mathbb{R}^{B \times T \times d}$

2. طبقة الانتباه متعددة الرؤوس

يتم معالجة موتر الميزات المجمع F من خلال طبقة انتباه متعددة الرؤوس لإنتاج logits أخذ العينات النهائية:

$s^h = \text{Softplus}(\text{MLP}^h(F))$

$A^{(:,j,:)}_h = a_{\text{base}} \odot s^{(:,j)}_h$

$A = \frac{1}{H} \sum_{h=1}^H A^h$

حيث H هو عدد رؤوس الانتباه، و $s^h \in \mathbb{R}^{B \times k}$ هي عوامل التحجيم الخاصة برأس.

3. أخذ عينات Gumbel-Softmax القابل للتفاضل

لتحقيق التدريب من طرف إلى طرف، يتم استخدام حيلة Gumbel-Softmax لأخذ عينات قابلة للتفاضل:

تحجيم درجة الحرارة التكيفية: $\tau = \tau_0 \cdot (0.5 + \sigma(\text{MLP}_{\text{temp}}(F)))$

عملية أخذ العينات: $G_{b,j,t} \sim \text{Gumbel}(0,1)$ $P_{\text{soft}} = \text{Softmax}_t\left(\frac{A + G}{\tau}\right)$

يتم استخدام مقدّر المرور المباشر (STE) لضمان القابلية للتفاضل، مما ينتج عنه مصفوفة أخذ عينات $P \in \mathbb{R}^{B \times k \times T}$ .

نقاط الابتكار التقني

التكيف الديناميكي مع المدخلات: على عكس الاستراتيجية الثابتة لـ DPS، يمكن لـ DAS تعديل استراتيجية أخذ العينات ديناميكياً بناءً على محتوى المدخلات
التصميم الخفيف الوزن: بدلاً من العملية متعددة المراحل لـ ADPS، يستخدم DAS وحدة خفيفة الوزن بمسار واحد
آلية درجة الحرارة التكيفية: التحكم الديناميكي في التوازن بين الاستكشاف والاستغلال
دمج الميزات متعددة الأنماط: الجمع بين الديناميكية الزمنية والمعلومات الهيكلية المكانية

إعداد التجارب

مجموعات البيانات

MedMNIST3D: ست مجموعات بيانات حجمية ثلاثية الأبعاد (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse)، تغطي مهام تقسيم الأعضاء المتعددة والكشف عن الأمراض
فيديو الموجات فوق الصوتية للثدي (BUSV): مجموعة بيانات فيديو الموجات فوق الصوتية للثدي العامة، معيار ثنائي التصنيف لكشف الآفات الثديية
مجموعة بيانات الجزء البواب الداخلي: مجموعة بيانات فيديو الموجات فوق الصوتية السريرية المملوكة التي تم جمعها في بيئة مستشفى حقيقية، تحتوي على تصنيف محتويات المعدة في خمس فئات

مقاييس التقييم

الدقة المتوازنة (Balanced Accuracy)
AUC (منطقة تحت المنحنى)
يتم أخذ جميع النتائج كمتوسط لثلاث عمليات تشغيل مستقلة

طرق المقارنة

التسلسل الكامل (Full Sequence): معالجة جميع الإطارات أو الشرائح (الحد الأعلى الحسابي)
أخذ العينات العشوائي (Random Sampling): اختيار k إطار عشوائياً
أخذ العينات الموحد (Uniform Sampling): اختيار الإطارات على مسافات متساوية
أخذ العينات الاحتمالي العميق (DPS): أخذ عينات مكتسبة متكيفة مع المهمة ولكن مستقلة عن المحتوى
أخذ العينات الاحتمالي العميق النشط (ADPS): متكيف مع المدخلات ولكن يعتمد فقط على المكونات المأخوذة بالفعل

تفاصيل التنفيذ

البنية الأسفل: MobileNetV3-Small كمستخرج ميزات
محسّن: Adam (lr=1e-4, batch size=16)
نسبة أخذ العينات: تختار جميع طرق أخذ العينات الفرعية 50% من طول التسلسل الأصلي
استراتيجية التوقف المبكر: بناءً على خسارة التحقق

نتائج التجارب

النتائج الرئيسية

أداء مجموعات البيانات العامة (الجدول 1)

على معظم مجموعات بيانات MedMNIST3D، يتفوق DAS بشكل ملحوظ على DPS و ADPS:

مجموعة بيانات الأعضاء: AUC 0.931 مقابل ADPS 0.928، دقة 58.1% مقابل ADPS 57.3%
مجموعة بيانات العقيدات: AUC 0.799 مقابل ADPS 0.782، دقة 75.8% مقابل ADPS 75.8%
مجموعة بيانات الأوعية: AUC 0.752 مقابل ADPS 0.739، دقة 82.9% مقابل ADPS 80.7%

أداء مجموعة البيانات الداخلية (الجدول 2)

على مجموعة بيانات الجزء البواب الصعبة، يتفوق DAS حتى على خط الأساس للتسلسل الكامل:

AUC: 0.639 مقابل التسلسل الكامل 0.611
الدقة: 34.1% مقابل التسلسل الكامل 30.1%

النتائج الرئيسية

استخدام الزيادة: ADPS و DAS يقتربان من أداء التسلسل الكامل على العديد من مجموعات البيانات، مما يشير إلى وجود زيادة في البيانات يمكن استغلالها بواسطة استراتيجيات أخذ عينات ممتازة في مهام التصنيف
مزايا السيناريو الحقيقي: يتفوق DAS بشكل خاص في عمليات المسح بالموجات فوق الصوتية السريرية الأكثر ضوضاءً
الكفاءة الحسابية: تحقيق توفير حسابي كبير مع الحفاظ على الأداء أو تحسينها

تجارب الاستئصال

على الرغم من عدم وجود تجارب استئصال مفصلة في الورقة، يمكن ملاحظة من خلال المقارنة مع خطوط أساس مختلفة:

أهمية آلية الانتباه (التحسن مقابل أخذ العينات العشوائي والموحد)
قيمة التكيف مع المدخلات (التحسن مقابل DPS)
مزايا أخذ العينات الديناميكي (مقابل الطرق الثابتة)

الأعمال ذات الصلة

أخذ العينات الفرعية القابل للتعلم

DPS: أول من اقترح إطار عمل قابل للتفاضل لتعلم أنماط أخذ عينات متكيفة مع المهمة، لكن باستخدام استراتيجية ثابتة مستقلة عن المحتوى
ADPS: توسيع DPS من خلال تمكين أخذ عينات متكيفة على مستوى المثيل، لكن العملية متعددة المراحل تدخل تكاليف حسابية كبيرة أثناء الاستدلال

آليات الانتباه

تُستخدم على نطاق واسع لتحديد الإطارات البارزة في الفيديو، لكنها غالباً ما تفتقر إلى القابلية للتفاضل من طرف إلى طرف أو لم تُدمج في إطار عمل أخذ عينات موحد

تقنيات أخذ العينات القابلة للتفاضل

حيلة Gumbel-Softmax: تجعل تدريب الشبكات ذات الاختيارات المنفصلة ممكناً
يجمع هذا العمل بين آليات الانتباه وأخذ العينات القائم على Gumbel-Softmax، مما يحقق قابلية تكيف عالية وقابلية للتدريب من طرف إلى طرف

الخلاصة والمناقشة

الاستنتاجات الرئيسية

حقق DAS بنجاح التكيف المزدوج مع المهمة والمدخلات، مع تعديل استراتيجية أخذ العينات ديناميكياً أثناء الاستدلال
التحقق من فعالية الطريقة على عدة مجموعات بيانات طبية، مع أداء استثنائية في البيئات السريرية الحقيقية
يتمتع الإطار بقابلية عامة جيدة ويمكن دمجه في أي بنية شبكة عصبية

القيود

الاعتماد على استخراج الميزات: يستخدم حالياً ميزات محددة مسبقاً (التباين الزمني، كشف الحافة)، مما قد يحد من القابلية للتكيف
نطاق التقييم: التحقق الأساسي في مجال الصور الطبية، وتحتاج قابلية التعميم على المجالات الأخرى إلى مزيد من التحقق
تحليل التكلفة الحسابية: يفتقد تحليل تفصيلي لتعقيد الحساب ومقارنات وقت الاستدلال الفعلي

الاتجاهات المستقبلية

تقترح الورقة اتجاهاً بحثياً واعداً: تطوير وحدات استخراج ميزات قابلة للتعلم يمكنها تحديد الميزات البارزة تلقائياً لتوجيه عملية أخذ العينات، مما يعزز أداء DAS بشكل أكبر.

التقييم المتعمق

المزايا

تعريف المشكلة الواضح: تحديد دقيق للقيود الأساسية للطرق الموجودة (أخذ عينات ثابت مقابل ديناميكي)
الابتكار التقني: الجمع الماهر بين آليات الانتباه وأخذ العينات القابلة للتفاضل، لتحقيق التكيف مع المدخلات
كفاية التجارب: تقييم شامل على عدة مجموعات بيانات، بما في ذلك البيانات السريرية الحقيقية
القيمة العملية العالية: الطريقة بسيطة وفعالة، وسهلة الدمج في الهياكل الموجودة

أوجه القصور

نقص التحليل النظري: غياب التحليل النظري لتقارب واستقرار الطريقة
تجارب استئصال غير كافية: لا يوجد تحليل مفصل لمساهمة كل مكون (الانتباه متعدد الرؤوس، درجة الحرارة التكيفية، إلخ)
تحديد كمي لكفاءة الحساب: على الرغم من الادعاء بتحسين الكفاءة، يفتقد مقارنات محددة لوقت الحساب واستخدام الذاكرة
حساسية المعاملات الفائقة: لا يوجد تحليل لتأثير المعاملات الفائقة الرئيسية (مثل عدد الرؤوس H، درجة الحرارة τ₀) على الأداء

التأثير

المساهمة الأكاديمية: توفير أفكار جديدة لمجال أخذ العينات القابل للتعلم، خاصة في جوانب التكيف مع المدخلات
التطبيق العملي: قيمة تطبيقية مباشرة في معالجة الصور الطبية، مناسبة بشكل خاص للبيئات ذات الموارد المحدودة
قابلية إعادة الإنتاج: وصف الطريقة واضح نسبياً، لكن ينقصه الكود والتفاصيل التنفيذية

السيناريوهات المناسبة

تحليل الصور الطبية: معالجة بيانات الأحجام ثلاثية الأبعاد وفيديو الموجات فوق الصوتية
فهم الفيديو: المعالجة الفعالة لتسلسلات الفيديو الطويلة
البيئات ذات الموارد المحدودة: أجهزة الهاتف المحمول وسيناريوهات الحوسبة الطرفية
التطبيقات في الوقت الفعلي: أنظمة التشخيص السريري التي تتطلب استجابة سريعة

المراجع

تستشهد الورقة بالأعمال الرئيسية في هذا المجال، بما في ذلك:

الأعمال ذات الصلة بـ Gumbel-Softmax 3,4
الأعمال الرائدة في أخذ العينات القابل للتعلم DPS 1 و ADPS 2
مجموعة بيانات معيار MedMNIST3D 5
تطبيقات آليات الانتباه في معالجة الفيديو 7,8

التقييم الإجمالي: هذه ورقة تتمتع بأساس تقني متين وتعريف واضح للمشكلة. على الرغم من الحاجة إلى تعزيز التحليل النظري وعمق التجارب، فإن فكرة أخذ العينات الديناميكية المتكيفة مع المدخلات التي تقترحها تتمتع بقيمة مهمة، خاصة في سيناريوهات التطبيق العملي مثل الصور الطبية. تجعل بساطة الطريقة وعموميتها قيمتها العملية جيدة.