2025-11-20T12:19:22.539414

Deep Attention-guided Adaptive Subsampling

Shankaranarayana, Roy, Sudhakar et al.
Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.
academic

Submuestreo Adaptativo Guiado por Atención Profunda

Información Básica

  • ID del Artículo: 2510.12376
  • Título: Deep Attention-guided Adaptive Subsampling
  • Autores: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
  • Clasificación: cs.CV, cs.AI, cs.LG
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.12376v1

Resumen

A pesar de que las redes neuronales profundas han logrado mejoras significativas en rendimiento, estas mejoras frecuentemente conllevan un aumento en la complejidad computacional y los costos. En muchos casos, como en tareas de clasificación de volúmenes 3D o videos, no todos los cortes o fotogramas son necesarios debido a la redundancia inherente. Para abordar este problema, los autores proponen un marco novedoso de submuestreo aprendible que puede integrarse en cualquier arquitectura de red neuronal. El marco logra mejoras en rendimiento y reduce la complejidad de los modelos de redes neuronales profundas mediante un módulo de muestreo guiado por atención que se adapta dinámicamente a la entrada durante la inferencia.

Antecedentes de Investigación y Motivación

Problemas Centrales

  1. Desafíos de Eficiencia Computacional: Las redes neuronales profundas enfrentan costos computacionales enormes al procesar datos de alta dimensionalidad (como videos y escaneos volumétricos)
  2. Redundancia de Datos: Existe información redundante significativa en imágenes médicas 3D y datos de video, no todos los fotogramas/cortes son útiles para la tarea final
  3. Limitaciones de Estrategias de Muestreo: Los métodos tradicionales de muestreo uniforme o heurísticas manuales no pueden identificar ni priorizar información significativa

Insuficiencias de Métodos Existentes

  1. Deep Probabilistic Subsampling (DPS): Aunque efectivo, aprende estrategias fijas e independientes del contenido
  2. Active Deep Probabilistic Subsampling (ADPS): Aunque introduce adaptabilidad a nivel de instancia, solo se condiciona en componentes ya muestreados, sin utilizar directamente las características de entrada
  3. Problema de Estaticidad: Una vez completado el aprendizaje, el mecanismo de muestreo permanece estático, incapaz de adaptarse a diferentes entradas

Motivación de la Investigación

Frente a las limitaciones de los métodos existentes, este artículo propone un marco de muestreo dinámico que posee tanto adaptabilidad a la tarea como adaptabilidad a la entrada, capaz de ajustar la estrategia de muestreo según la entrada específica durante la inferencia.

Contribuciones Principales

  1. Módulo de Muestreo Neural Novedoso e Intercambiable: Propone un módulo para muestreo dinámico de volúmenes 3D y videos que se adapta a la entrada durante la inferencia, logrando adaptabilidad dual a la tarea y a la entrada
  2. Verificación de Rendimiento Integral: Valida la efectividad del marco en ocho conjuntos de datos de imágenes médicas, incluyendo seis conjuntos de datos MedMNIST3D, un conjunto de datos de video de ultrasonido público y un conjunto de datos propietario recopilado en entorno clínico
  3. Marco Entrenable Extremo a Extremo: Asegura la diferenciabilidad extremo a extremo de la selección discreta de muestras mediante el truco de reparametrización de Gumbel-Softmax
  4. Interpretabilidad: La matriz de muestreo se produce como salida, haciendo que el proceso de muestreo sea explícitamente controlable e interpretable

Explicación Detallada del Método

Definición de la Tarea

Dada una secuencia que contiene T fotogramas XRB×T×C×H×WX \in \mathbb{R}^{B \times T \times C \times H \times W}, el objetivo es aprender una función de muestreo SθS_\theta que seleccione un subconjunto de k fotogramas (donde kTk \ll T).

Arquitectura del Modelo

1. Extracción de Características Ligera

El módulo de extracción de características contiene múltiples caminos paralelos para calcular representaciones ricas de la secuencia de entrada:

  • Captura de Dinámicas Temporales: Calcula la varianza entre fotogramas en dimensiones espaciales y de canal
  • Identificación de Límites Anatómicos: Aplica conjuntos de kernels Sobel y Laplaciano para calcular magnitudes de bordes
  • Agregación de Características: Concatena las características extraídas para formar una representación de características integral FRB×T×dF \in \mathbb{R}^{B \times T \times d}

2. Capas de Atención Multihead

El tensor de características agregado F se procesa a través de capas de atención multihead para generar logits de muestreo finales:

sh=Softplus(MLPh(F))s^h = \text{Softplus}(\text{MLP}^h(F))

Ah(:,j,:)=abasesh(:,j)A^{(:,j,:)}_h = a_{\text{base}} \odot s^{(:,j)}_h

A=1Hh=1HAhA = \frac{1}{H} \sum_{h=1}^H A^h

donde H es el número de cabezas de atención, shRB×ks^h \in \mathbb{R}^{B \times k} son factores de escala específicos de la cabeza.

3. Muestreo Gumbel-Softmax Diferenciable

Para permitir entrenamiento extremo a extremo, se adopta el truco de Gumbel-Softmax para muestreo diferenciable:

Escalado de Temperatura Adaptativo: τ=τ0(0.5+σ(MLPtemp(F)))\tau = \tau_0 \cdot (0.5 + \sigma(\text{MLP}_{\text{temp}}(F)))

Proceso de Muestreo: Gb,j,tGumbel(0,1)G_{b,j,t} \sim \text{Gumbel}(0,1)Psoft=Softmaxt(A+Gτ)P_{\text{soft}} = \text{Softmax}_t\left(\frac{A + G}{\tau}\right)

Se utiliza el estimador de paso directo (STE) para asegurar diferenciabilidad, obteniendo finalmente la matriz de muestreo PRB×k×TP \in \mathbb{R}^{B \times k \times T}.

Puntos de Innovación Técnica

  1. Adaptación Dinámica a la Entrada: A diferencia de la estrategia estática de DPS, DAS puede ajustar dinámicamente la estrategia de muestreo según el contenido de entrada
  2. Diseño Ligero: En comparación con el proceso multietapa de ADPS, DAS emplea un módulo ligero de paso único
  3. Mecanismo de Temperatura Adaptativa: Controla dinámicamente el equilibrio entre exploración y explotación
  4. Fusión de Características Multimodales: Combina información de dinámicas temporales y estructura espacial

Configuración Experimental

Conjuntos de Datos

  1. MedMNIST3D: Seis conjuntos de datos de volúmenes 3D (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), abarcando tareas de segmentación multiorgánica y detección de patología
  2. Breast Ultrasound Video (BUSV): Conjunto de datos público de video de ultrasonido mamario, referencia de clasificación binaria para detección de lesiones mamarias
  3. Conjunto de Datos Interno de Antro Gástrico: Conjunto de datos de video de ultrasonido clínico propietario recopilado en entorno hospitalario real, conteniendo clasificación de cinco categorías de contenido gástrico

Métricas de Evaluación

  • Precisión Equilibrada (Balanced Accuracy)
  • AUC (Área Bajo la Curva)
  • Todos los resultados son promedios de tres ejecuciones independientes

Métodos de Comparación

  1. Full Sequence: Procesa todos los fotogramas o cortes (límite superior computacional)
  2. Random Sampling: Selecciona k fotogramas aleatoriamente
  3. Uniform Sampling: Selecciona fotogramas equidistantes
  4. Deep Probabilistic Subsampling (DPS): Muestreo aprendido adaptado a la tarea pero independiente del contenido
  5. Active Deep Probabilistic Subsampling (ADPS): Adaptado a la entrada pero solo basado en componentes ya muestreados

Detalles de Implementación

  • Arquitectura Descendente: MobileNetV3-Small como extractor de características
  • Optimizador: Adam (lr=1e-4, tamaño de lote=16)
  • Proporción de Muestreo: Todos los métodos de submuestreo seleccionan el 50% de la longitud de secuencia original
  • Estrategia de Parada Temprana: Basada en pérdida de validación

Resultados Experimentales

Resultados Principales

Rendimiento en Conjuntos de Datos Públicos (Tabla 1)

En la mayoría de conjuntos de datos MedMNIST3D, DAS supera significativamente a DPS y ADPS:

  • Conjunto de Datos Organ: AUC 0.931 vs ADPS 0.928, precisión 58.1% vs ADPS 57.3%
  • Conjunto de Datos Nodule: AUC 0.799 vs ADPS 0.782, precisión 75.8% vs ADPS 75.8%
  • Conjunto de Datos Vessel: AUC 0.752 vs ADPS 0.739, precisión 82.9% vs ADPS 80.7%

Rendimiento en Conjunto de Datos Interno (Tabla 2)

En el desafiante conjunto de datos de antro gástrico, DAS incluso supera la línea base de secuencia completa:

  • AUC: 0.639 vs Secuencia Completa 0.611
  • Precisión: 34.1% vs Secuencia Completa 30.1%

Hallazgos Clave

  1. Utilización de Redundancia: ADPS y DAS se acercan al rendimiento de secuencia completa en muchos conjuntos de datos, indicando que existe redundancia de datos que puede ser explotada por estrategias de muestreo superiores en tareas de clasificación
  2. Ventaja en Escenarios Reales: DAS destaca particularmente en escaneos de ultrasonido clínico con mayor ruido
  3. Eficiencia Computacional: Logra ahorros computacionales significativos mientras mantiene o mejora el rendimiento

Estudios de Ablación

Aunque el artículo no contiene estudios de ablación detallados, mediante comparación con diferentes líneas base se puede observar:

  • La importancia del mecanismo de atención (mejora respecto a muestreo aleatorio y uniforme)
  • El valor de la adaptabilidad a la entrada (mejora respecto a DPS)
  • Las ventajas del muestreo dinámico (respecto a métodos estáticos)

Trabajo Relacionado

Submuestreo Aprendible

  • DPS: Propone por primera vez un marco diferenciable para aprender patrones de muestreo adaptados a la tarea, pero adopta estrategia fija e independiente del contenido
  • ADPS: Extiende DPS habilitando muestreo adaptado a instancias, pero el proceso multietapa introduce sobrecarga computacional significativa durante la inferencia

Mecanismos de Atención

  • Ampliamente utilizados para identificar fotogramas salientes en videos, pero frecuentemente carecen de diferenciabilidad extremo a extremo o no están integrados en un marco de muestreo unificado

Técnicas de Muestreo Diferenciable

  • Truco de Gumbel-Softmax: Hace posible el entrenamiento de redes con selecciones discretas
  • Este trabajo combina mecanismos de atención con muestreadores basados en Gumbel-Softmax, logrando alta adaptabilidad y entrenamientos extremo a extremo

Conclusiones y Discusión

Conclusiones Principales

  1. DAS logra exitosamente adaptabilidad dual a la tarea y a la entrada, ajustando dinámicamente la estrategia de muestreo durante la inferencia
  2. Valida la efectividad del método en múltiples conjuntos de datos de imágenes médicas, con desempeño particularmente destacado en entornos clínicos reales
  3. El marco posee buena generalidad y puede integrarse en cualquier arquitectura de red neuronal

Limitaciones

  1. Dependencia de Extracción de Características: El uso actual de características predefinidas (varianza temporal, detección de bordes) puede limitar la adaptabilidad
  2. Alcance de Evaluación: Validación principalmente en el dominio de imágenes médicas, la capacidad de generalización a otros dominios requiere verificación adicional
  3. Análisis de Sobrecarga Computacional: Carece de análisis detallado de complejidad computacional y comparaciones de tiempo de inferencia real

Direcciones Futuras

El artículo propone una dirección de investigación prometedora: desarrollar módulos de extracción de características aprendibles que puedan identificar automáticamente características significativas para guiar el proceso de muestreo, mejorando aún más el rendimiento de DAS.

Evaluación Profunda

Fortalezas

  1. Definición Clara del Problema: Identifica con precisión las limitaciones centrales de métodos existentes (muestreo estático vs dinámico)
  2. Innovación Técnica: Combina ingeniosamente mecanismos de atención con muestreo diferenciable, logrando adaptabilidad a la entrada
  3. Suficiencia Experimental: Evaluación integral en múltiples conjuntos de datos, incluyendo datos clínicos reales
  4. Alto Valor Práctico: Método simple y efectivo, fácil de integrar en arquitecturas existentes

Deficiencias

  1. Falta de Análisis Teórico: Carece de análisis teórico sobre convergencia y estabilidad del método
  2. Estudios de Ablación Insuficientes: Sin análisis detallado de la contribución específica de cada componente (atención multihead, temperatura adaptativa, etc.)
  3. Cuantificación de Eficiencia Computacional: Aunque afirma mejorar eficiencia, carece de comparaciones específicas de tiempo computacional y uso de memoria
  4. Sensibilidad de Hiperparámetros: Sin análisis del impacto de hiperparámetros clave (número de cabezas H, temperatura τ₀) en el rendimiento

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas al campo del muestreo aprendible, particularmente en aspectos de adaptabilidad a la entrada
  2. Aplicación Práctica: Tiene valor de aplicación directa en procesamiento de imágenes médicas, particularmente adecuado para entornos con recursos limitados
  3. Reproducibilidad: La descripción del método es relativamente clara, pero carece de código y detalles de implementación

Escenarios Aplicables

  1. Análisis de Imágenes Médicas: Procesamiento de datos de volúmenes 3D y videos de ultrasonido
  2. Comprensión de Video: Procesamiento eficiente de secuencias de video largas
  3. Entornos con Recursos Limitados: Dispositivos móviles y escenarios de computación perimetral
  4. Aplicaciones en Tiempo Real: Sistemas de diagnóstico clínico que requieren respuesta rápida

Referencias

El artículo cita trabajos clave en el campo, incluyendo:

  • Trabajos relacionados con Gumbel-Softmax 3,4
  • Trabajos pioneros en muestreo aprendible DPS 1 y ADPS 2
  • Conjunto de datos de referencia MedMNIST3D 5
  • Aplicaciones de mecanismos de atención en procesamiento de video 7,8

Evaluación General: Este es un artículo técnicamente sólido con definición clara del problema. Aunque requiere fortalecimiento en análisis teórico y profundidad experimental, la idea propuesta de muestreo adaptativo dinámico guiado por entrada posee valor significativo, particularmente demostrando buen potencial en escenarios de aplicación práctica como imágenes médicas. La simplicidad y generalidad del método le confieren buen valor práctico.