2025-11-20T12:19:22.539414

Deep Attention-guided Adaptive Subsampling

Shankaranarayana, Roy, Sudhakar et al.
Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.
academic

Deep Attention-guided Adaptive Subsampling

基本信息

  • 论文ID: 2510.12376
  • 标题: Deep Attention-guided Adaptive Subsampling
  • 作者: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
  • 分类: cs.CV, cs.AI, cs.LG
  • 发表时间: 2025年10月14日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.12376v1

摘要

尽管深度神经网络在性能上取得了显著提升,但这些改进往往以增加计算复杂性和成本为代价。在许多情况下,如3D体积或视频分类任务中,由于固有的冗余性,并非所有切片或帧都是必需的。为解决这一问题,作者提出了一个新颖的可学习子采样框架,可集成到任何神经网络架构中。该框架通过注意力引导的采样模块在推理过程中动态适应输入,实现了性能提升并降低了深度神经网络模型的复杂性。

研究背景与动机

核心问题

  1. 计算效率挑战:深度神经网络在处理高维数据(如视频和体积扫描)时面临巨大的计算成本
  2. 数据冗余性:在3D医学影像和视频数据中存在大量冗余信息,不是所有帧/切片都对最终任务有用
  3. 采样策略局限性:传统的均匀采样或手工启发式方法无法识别和优先处理最显著的信息

现有方法的不足

  1. Deep Probabilistic Subsampling (DPS):虽然有效,但学习的是固定的、与内容无关的策略
  2. Active Deep Probabilistic Subsampling (ADPS):虽然引入了实例级适应性,但仅基于已采样的组件进行条件化,没有直接利用输入特征本身
  3. 静态性问题:现有方法一旦学习完成,采样机制就保持静态,无法适应不同的输入

研究动机

针对现有方法的局限性,本文提出了既具有任务适应性又具有输入适应性的动态采样框架,能够在推理时根据具体输入调整采样策略。

核心贡献

  1. 新颖的即插即用神经采样模块:提出了用于3D体积和视频动态采样的模块,在推理时适应输入,实现任务和输入双重适应性
  2. 综合性能验证:在八个医学影像数据集上验证了框架的有效性,包括六个MedMNIST3D数据集、一个公开超声视频数据集和一个临床环境收集的专有数据集
  3. 端到端可训练框架:通过Gumbel-Softmax重参数化技巧确保离散样本选择的端到端可微性
  4. 可解释性:采样矩阵作为输出产生,使采样过程具有明确的控制性和可解释性

方法详解

任务定义

给定包含T帧的序列 XRB×T×C×H×WX \in \mathbb{R}^{B \times T \times C \times H \times W},目标是学习一个采样函数 SθS_\theta,选择k个帧的子集(其中 kTk \ll T)。

模型架构

1. 轻量级特征提取

特征提取模块包含多个并行路径来计算输入序列的丰富表示:

  • 时间动态捕获:计算空间和通道维度上的帧间方差
  • 解剖边界识别:应用Sobel和Laplacian核集合计算边缘幅值
  • 特征聚合:将提取的特征连接形成综合特征表示 FRB×T×dF \in \mathbb{R}^{B \times T \times d}

2. 多头注意力层

聚合的特征张量F通过多头注意力层处理以生成最终采样logits:

sh=Softplus(MLPh(F))s^h = \text{Softplus}(\text{MLP}^h(F))

Ah(:,j,:)=abasesh(:,j)A^{(:,j,:)}_h = a_{\text{base}} \odot s^{(:,j)}_h

A=1Hh=1HAhA = \frac{1}{H} \sum_{h=1}^H A^h

其中H是注意力头数,shRB×ks^h \in \mathbb{R}^{B \times k}是头特定的尺度因子。

3. 可微Gumbel-Softmax采样

为实现端到端训练,采用Gumbel-Softmax技巧进行可微采样:

自适应温度缩放τ=τ0(0.5+σ(MLPtemp(F)))\tau = \tau_0 \cdot (0.5 + \sigma(\text{MLP}_{\text{temp}}(F)))

采样过程Gb,j,tGumbel(0,1)G_{b,j,t} \sim \text{Gumbel}(0,1)Psoft=Softmaxt(A+Gτ)P_{\text{soft}} = \text{Softmax}_t\left(\frac{A + G}{\tau}\right)

使用直通估计器(STE)确保可微性,最终得到采样矩阵 PRB×k×TP \in \mathbb{R}^{B \times k \times T}

技术创新点

  1. 动态输入适应:与DPS的静态策略不同,DAS能够根据输入内容动态调整采样策略
  2. 轻量级设计:相比ADPS的多阶段过程,DAS采用单次通过的轻量级模块
  3. 自适应温度机制:动态控制探索与利用之间的权衡
  4. 多模态特征融合:结合时间动态和空间结构信息

实验设置

数据集

  1. MedMNIST3D:六个3D体积数据集(Organ, Nodule, Adrenal, Fracture, Vessel, Synapse),涵盖多器官分割和病理检测任务
  2. Breast Ultrasound Video (BUSV):公开的乳腺超声视频数据集,用于乳腺病变检测的二分类基准
  3. 内部胃窦数据集:在真实医院环境中收集的专有临床超声视频数据集,包含五类胃内容物分类

评价指标

  • 平衡准确率(Balanced Accuracy)
  • AUC(Area Under Curve)
  • 所有结果取三次独立运行的平均值

对比方法

  1. Full Sequence:处理所有帧或切片(计算上界)
  2. Random Sampling:随机选择k帧
  3. Uniform Sampling:等距选择帧
  4. Deep Probabilistic Subsampling (DPS):任务适应但内容无关的学习采样
  5. Active Deep Probabilistic Subsampling (ADPS):输入适应但仅基于已采样组件

实现细节

  • 下游架构:MobileNetV3-Small作为特征提取器
  • 优化器:Adam (lr=1e-4, batch size=16)
  • 采样比例:所有子采样方法选择原序列长度的50%
  • 早停策略:基于验证损失

实验结果

主要结果

公开数据集性能(表1)

在大多数MedMNIST3D数据集上,DAS显著优于DPS和ADPS:

  • Organ数据集:AUC 0.931 vs ADPS 0.928,准确率58.1% vs ADPS 57.3%
  • Nodule数据集:AUC 0.799 vs ADPS 0.782,准确率75.8% vs ADPS 75.8%
  • Vessel数据集:AUC 0.752 vs ADPS 0.739,准确率82.9% vs ADPS 80.7%

内部数据集性能(表2)

在具有挑战性的胃窦数据集上,DAS甚至超越了全序列基线:

  • AUC:0.639 vs Full Sequence 0.611
  • 准确率:34.1% vs Full Sequence 30.1%

关键发现

  1. 冗余利用:ADPS和DAS在许多数据集上接近全序列性能,表明分类任务中存在可被优秀采样策略利用的数据冗余
  2. 真实场景优势:在噪声较大的临床超声扫描中,DAS表现尤为突出
  3. 计算效率:在保持或提升性能的同时,实现了显著的计算节省

消融实验

虽然论文中没有详细的消融实验,但通过与不同基线的比较,可以看出:

  • 注意力机制的重要性(相比随机和均匀采样的提升)
  • 输入适应性的价值(相比DPS的改进)
  • 动态采样的优势(相比静态方法)

相关工作

可学习子采样

  • DPS:首次提出可微框架学习任务适应采样模式,但采用固定的内容无关策略
  • ADPS:通过启用实例适应采样扩展了DPS,但多阶段过程在推理时引入显著计算开销

注意力机制

  • 广泛用于识别视频中的显著帧,但往往缺乏端到端可微性或未集成在统一采样框架内

可微采样技术

  • Gumbel-Softmax技巧:使离散选择的网络训练成为可能
  • 本工作将注意力机制与基于Gumbel-Softmax的采样器结合,实现高度适应性和端到端可训练性

结论与讨论

主要结论

  1. DAS成功实现了任务和输入的双重适应性,在推理时动态调整采样策略
  2. 在多个医学影像数据集上验证了方法的有效性,特别是在真实临床环境中表现突出
  3. 框架具有良好的通用性,可集成到任何神经网络架构中

局限性

  1. 特征提取依赖:当前使用预定义的特征(时间方差、边缘检测),可能限制了适应性
  2. 评估范围:主要在医学影像领域验证,其他领域的泛化能力需要进一步验证
  3. 计算开销分析:缺乏详细的计算复杂度分析和实际推理时间比较

未来方向

论文提出了一个有前景的研究方向:开发可学习的特征提取模块,能够自动识别用于指导采样过程的显著特征,进一步增强DAS的性能。

深度评价

优点

  1. 问题定义清晰:准确识别了现有方法的核心局限(静态vs动态采样)
  2. 技术创新性:将注意力机制与可微采样巧妙结合,实现输入适应性
  3. 实验充分性:在多个数据集上进行了全面评估,包括真实临床数据
  4. 实用价值高:方法简单有效,易于集成到现有架构中

不足

  1. 理论分析缺乏:缺少对方法收敛性和稳定性的理论分析
  2. 消融实验不足:没有详细分析各个组件(多头注意力、自适应温度等)的具体贡献
  3. 计算效率量化:虽然声称提高了效率,但缺乏具体的计算时间和内存使用比较
  4. 超参数敏感性:没有分析关键超参数(如头数H、温度τ₀)对性能的影响

影响力

  1. 学术贡献:为可学习采样领域提供了新的思路,特别是输入适应性方面
  2. 实际应用:在医学影像处理中有直接的应用价值,特别适合资源受限环境
  3. 可复现性:方法描述相对清晰,但缺少代码和详细实现细节

适用场景

  1. 医学影像分析:3D体积数据和超声视频处理
  2. 视频理解:长视频序列的高效处理
  3. 资源受限环境:移动设备和边缘计算场景
  4. 实时应用:需要快速响应的临床诊断系统

参考文献

论文引用了该领域的关键工作,包括:

  • Gumbel-Softmax相关工作 3,4
  • 可学习采样的开创性工作DPS 1和ADPS 2
  • MedMNIST3D基准数据集 5
  • 注意力机制在视频处理中的应用 7,8

总体评价:这是一篇技术扎实、问题定义清晰的论文。虽然在理论分析和实验深度方面有待加强,但其提出的动态输入适应采样思路具有重要价值,特别是在医学影像等实际应用场景中展现出良好的潜力。方法的简洁性和通用性使其具有较好的实用价值。