2025-11-20T12:19:22.539414

Deep Attention-guided Adaptive Subsampling

Shankaranarayana, Roy, Sudhakar et al.

Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.

academic

Глубокое адаптивное субдискретизирование, управляемое вниманием

Основная информация

ID статьи: 2510.12376
Название: Deep Attention-guided Adaptive Subsampling
Авторы: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
Классификация: cs.CV, cs.AI, cs.LG
Дата публикации: 14 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.12376v1

Аннотация

Несмотря на значительные достижения глубоких нейронных сетей в производительности, эти улучшения часто достигаются за счет увеличения вычислительной сложности и затрат. Во многих случаях, таких как классификация 3D объемов или видео, не все срезы или кадры необходимы из-за присущей им избыточности. Для решения этой проблемы авторы предлагают новую обучаемую структуру субдискретизирования, которая может быть интегрирована в любую архитектуру нейронной сети. Структура динамически адаптируется к входным данным во время вывода через модуль выборки, управляемый вниманием, достигая повышения производительности и снижения сложности моделей глубоких нейронных сетей.

Исследовательский контекст и мотивация

Основные проблемы

Вызовы вычислительной эффективности: глубокие нейронные сети сталкиваются с огромными вычислительными затратами при обработке многомерных данных (таких как видео и объемные сканирования)
Избыточность данных: в 3D медицинских изображениях и видеоданных содержится большое количество избыточной информации, не все кадры/срезы полезны для конечной задачи
Ограничения стратегий выборки: традиционные методы равномерной выборки или эвристические подходы не могут выявить и приоритизировать наиболее значимую информацию

Недостатки существующих методов

Deep Probabilistic Subsampling (DPS): хотя и эффективен, но изучает фиксированную, независимую от содержания стратегию
Active Deep Probabilistic Subsampling (ADPS): хотя и вводит адаптивность на уровне экземпляра, но обусловлен только уже выбранными компонентами, не использует непосредственно сами входные признаки
Проблема статичности: после завершения обучения механизм выборки остается статичным и не может адаптироваться к различным входным данным

Исследовательская мотивация

В ответ на ограничения существующих методов в статье предлагается динамическая структура выборки, обладающая как адаптивностью к задаче, так и адаптивностью к входным данным, способная корректировать стратегию выборки во время вывода в зависимости от конкретного входа.

Основные вклады

Новый модуль нейронной выборки типа "подключи и используй": предлагается модуль для динамической выборки 3D объемов и видео, адаптирующийся к входным данным во время вывода, достигая двойной адаптивности к задаче и входным данным
Комплексная проверка производительности: структура проверена на восьми наборах данных медицинской визуализации, включая шесть наборов данных MedMNIST3D, один открытый набор данных видео ультразвука и один собственный набор данных, собранный в клинической среде
Полностью обучаемая структура: обеспечивает дифференцируемость выбора дискретных выборок от конца к концу благодаря трюку переопределения Gumbel-Softmax
Интерпретируемость: матрица выборки выводится как выход, обеспечивая явное управление и интерпретируемость процесса выборки

Описание метода

Определение задачи

Дана последовательность с T кадрами $X \in \mathbb{R}^{B \times T \times C \times H \times W}$ , цель состоит в изучении функции выборки $S_\theta$ , которая выбирает подмножество k кадров (где $k \ll T$ ).

Архитектура модели

1. Легкая экстракция признаков

Модуль экстракции признаков содержит несколько параллельных путей для вычисления богатого представления входной последовательности:

Захват временной динамики: вычисление дисперсии между кадрами в пространственном и канальном измерениях
Идентификация анатомических границ: применение набора ядер Собеля и Лапласа для вычисления величины краев
Агрегация признаков: объединение извлеченных признаков для формирования комплексного представления признаков $F \in \mathbb{R}^{B \times T \times d}$

2. Многоголовый слой внимания

Агрегированный тензор признаков F обрабатывается многоголовым слоем внимания для создания окончательных логитов выборки:

$s^h = \text{Softplus}(\text{MLP}^h(F))$

$A^{(:,j,:)}_h = a_{\text{base}} \odot s^{(:,j)}_h$

$A = \frac{1}{H} \sum_{h=1}^H A^h$

где H — количество голов внимания, $s^h \in \mathbb{R}^{B \times k}$ — коэффициенты масштабирования, специфичные для головы.

3. Дифференцируемая выборка Gumbel-Softmax

Для обеспечения обучения от конца к концу применяется трюк Gumbel-Softmax для дифференцируемой выборки:

Адаптивное масштабирование температуры: $\tau = \tau_0 \cdot (0.5 + \sigma(\text{MLP}_{\text{temp}}(F)))$

Процесс выборки: $G_{b,j,t} \sim \text{Gumbel}(0,1)$ $P_{\text{soft}} = \text{Softmax}_t\left(\frac{A + G}{\tau}\right)$

Использование оценки прямого прохода (STE) обеспечивает дифференцируемость, в результате получается матрица выборки $P \in \mathbb{R}^{B \times k \times T}$ .

Технические инновации

Динамическая адаптация к входным данным: в отличие от статической стратегии DPS, DAS может динамически корректировать стратегию выборки в зависимости от содержания входных данных
Легкая конструкция: по сравнению с многоэтапным процессом ADPS, DAS использует легкий модуль с одним проходом
Механизм адаптивной температуры: динамически управляет компромиссом между исследованием и использованием
Многомодальное слияние признаков: объединяет информацию о временной динамике и пространственной структуре

Экспериментальная установка

Наборы данных

MedMNIST3D: шесть наборов данных 3D объемов (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), охватывающих задачи сегментации нескольких органов и обнаружения патологий
Breast Ultrasound Video (BUSV): открытый набор данных видео ультразвука молочной железы для двоичного эталона обнаружения поражений молочной железы
Внутренний набор данных антрального отдела желудка: собственный набор данных клинического видео ультразвука, собранный в реальной больничной среде, содержащий пятиклассовую классификацию содержимого желудка

Метрики оценки

Сбалансированная точность (Balanced Accuracy)
AUC (Area Under Curve)
Все результаты представляют собой среднее значение трех независимых запусков

Методы сравнения

Full Sequence: обработка всех кадров или срезов (верхняя граница вычислений)
Random Sampling: случайный выбор k кадров
Uniform Sampling: равномерный выбор кадров на расстоянии
Deep Probabilistic Subsampling (DPS): адаптивная к задаче, но независимая от содержания обучаемая выборка
Active Deep Probabilistic Subsampling (ADPS): адаптивная к входным данным, но обусловленная только уже выбранными компонентами

Детали реализации

Нижестоящая архитектура: MobileNetV3-Small в качестве экстрактора признаков
Оптимизатор: Adam (lr=1e-4, batch size=16)
Коэффициент выборки: все методы субдискретизирования выбирают 50% от исходной длины последовательности
Стратегия ранней остановки: на основе потерь валидации

Экспериментальные результаты

Основные результаты

Производительность на открытых наборах данных (Таблица 1)

На большинстве наборов данных MedMNIST3D DAS значительно превосходит DPS и ADPS:

Набор данных Organ: AUC 0.931 vs ADPS 0.928, точность 58.1% vs ADPS 57.3%
Набор данных Nodule: AUC 0.799 vs ADPS 0.782, точность 75.8% vs ADPS 75.8%
Набор данных Vessel: AUC 0.752 vs ADPS 0.739, точность 82.9% vs ADPS 80.7%

Производительность на внутреннем наборе данных (Таблица 2)

На сложном наборе данных антрального отдела желудка DAS даже превосходит базовый уровень полной последовательности:

AUC: 0.639 vs Full Sequence 0.611
Точность: 34.1% vs Full Sequence 30.1%

Ключевые выводы

Использование избыточности: ADPS и DAS близки к производительности полной последовательности на многих наборах данных, что указывает на наличие избыточности данных в задачах классификации, которая может быть использована отличными стратегиями выборки
Преимущества в реальных сценариях: DAS особенно выделяется на зашумленных клинических ультразвуковых сканированиях
Вычислительная эффективность: достигаются значительные вычислительные сбережения при сохранении или улучшении производительности

Абляционные исследования

Хотя в статье отсутствуют подробные абляционные исследования, сравнение с различными базовыми уровнями показывает:

Важность механизма внимания (улучшение по сравнению со случайной и равномерной выборкой)
Ценность адаптивности к входным данным (улучшение по сравнению с DPS)
Преимущества динамической выборки (по сравнению со статическими методами)

Связанные работы

Обучаемое субдискретизирование

DPS: впервые предложил дифференцируемую структуру для изучения адаптивных к задаче паттернов выборки, но использует фиксированную, независимую от содержания стратегию
ADPS: расширил DPS, включив адаптивность на уровне экземпляра, но многоэтапный процесс вводит значительные вычислительные затраты во время вывода

Механизмы внимания

Широко используются для выявления значимых кадров в видео, но часто не обладают дифференцируемостью от конца к концу или не интегрированы в единую структуру выборки

Техники дифференцируемой выборки

Трюк Gumbel-Softmax: делает возможным обучение сетей с дискретным выбором
Данная работа объединяет механизмы внимания с выборщиком на основе Gumbel-Softmax, достигая высокой адаптивности и полной дифференцируемости

Заключение и обсуждение

Основные выводы

DAS успешно достигает двойной адаптивности к задаче и входным данным, динамически корректируя стратегию выборки во время вывода
Метод проверен на нескольких наборах данных медицинской визуализации, особенно хорошо показывая себя в реальной клинической среде
Структура обладает хорошей универсальностью и может быть интегрирована в любую архитектуру нейронной сети

Ограничения

Зависимость от экстракции признаков: текущее использование предопределенных признаков (временная дисперсия, обнаружение краев) может ограничить адаптивность
Область оценки: в основном проверено в области медицинской визуализации, способность к обобщению на другие области требует дальнейшей проверки
Анализ вычислительных затрат: отсутствует подробный анализ вычислительной сложности и сравнение фактического времени вывода

Будущие направления

Статья предлагает перспективное направление исследований: разработка обучаемых модулей экстракции признаков, способных автоматически выявлять значимые признаки для управления процессом выборки, дополнительно повышая производительность DAS.

Глубокая оценка

Преимущества

Четкое определение проблемы: точное выявление основных ограничений существующих методов (статическая vs динамическая выборка)
Техническая новизна: умелое объединение механизмов внимания с дифференцируемой выборкой, достигая адаптивности к входным данным
Полнота экспериментов: комплексная оценка на нескольких наборах данных, включая реальные клинические данные
Высокая практическая ценность: метод простой и эффективный, легко интегрируется в существующие архитектуры

Недостатки

Отсутствие теоретического анализа: недостаток анализа сходимости и стабильности метода
Недостаточные абляционные исследования: отсутствует подробный анализ вклада отдельных компонентов (многоголовое внимание, адаптивная температура и т.д.)
Количественная оценка вычислительной эффективности: хотя заявляется об улучшении эффективности, отсутствуют конкретные сравнения времени вычислений и использования памяти
Чувствительность гиперпараметров: отсутствует анализ влияния ключевых гиперпараметров (количество голов H, температура τ₀) на производительность

Влияние

Академический вклад: предлагает новые идеи для области обучаемой выборки, особенно в аспекте адаптивности к входным данным
Практическое применение: имеет прямую прикладную ценность в обработке медицинских изображений, особенно подходит для сред с ограниченными ресурсами
Воспроизводимость: описание метода относительно четко, но отсутствуют код и подробные детали реализации

Применимые сценарии

Анализ медицинских изображений: обработка 3D объемных данных и видео ультразвука
Понимание видео: эффективная обработка длинных видеопоследовательностей
Среды с ограниченными ресурсами: мобильные устройства и сценарии граничных вычислений
Приложения реального времени: системы клинической диагностики, требующие быстрого отклика

Библиография

Статья цитирует ключевые работы в этой области, включая:

Работы, связанные с Gumbel-Softmax 3,4
Основополагающие работы по обучаемой выборке DPS 1 и ADPS 2
Набор данных эталона MedMNIST3D 5
Применение механизмов внимания в обработке видео 7,8

Общая оценка: Это статья с прочной технической базой и четким определением проблемы. Хотя требуется усиление в области теоретического анализа и глубины экспериментов, предложенная идея динамической адаптивной выборки на основе входных данных имеет важную ценность, особенно демонстрируя хороший потенциал в практических приложениях, таких как медицинская визуализация. Простота и универсальность метода обеспечивают ему хорошую практическую ценность.