2025-11-20T12:19:22.539414

Deep Attention-guided Adaptive Subsampling

Shankaranarayana, Roy, Sudhakar et al.

Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.

academic

Submuestreo Adaptativo Guiado por Atención Profunda

Información Básica

ID del Artículo: 2510.12376
Título: Deep Attention-guided Adaptive Subsampling
Autores: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
Clasificación: cs.CV, cs.AI, cs.LG
Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.12376v1

Resumen

A pesar de que las redes neuronales profundas han logrado mejoras significativas en rendimiento, estas mejoras frecuentemente conllevan un aumento en la complejidad computacional y los costos. En muchos casos, como en tareas de clasificación de volúmenes 3D o videos, no todos los cortes o fotogramas son necesarios debido a la redundancia inherente. Para abordar este problema, los autores proponen un marco novedoso de submuestreo aprendible que puede integrarse en cualquier arquitectura de red neuronal. El marco logra mejoras en rendimiento y reduce la complejidad de los modelos de redes neuronales profundas mediante un módulo de muestreo guiado por atención que se adapta dinámicamente a la entrada durante la inferencia.

Antecedentes de Investigación y Motivación

Problemas Centrales

Desafíos de Eficiencia Computacional: Las redes neuronales profundas enfrentan costos computacionales enormes al procesar datos de alta dimensionalidad (como videos y escaneos volumétricos)
Redundancia de Datos: Existe información redundante significativa en imágenes médicas 3D y datos de video, no todos los fotogramas/cortes son útiles para la tarea final
Limitaciones de Estrategias de Muestreo: Los métodos tradicionales de muestreo uniforme o heurísticas manuales no pueden identificar ni priorizar información significativa

Insuficiencias de Métodos Existentes

Deep Probabilistic Subsampling (DPS): Aunque efectivo, aprende estrategias fijas e independientes del contenido
Active Deep Probabilistic Subsampling (ADPS): Aunque introduce adaptabilidad a nivel de instancia, solo se condiciona en componentes ya muestreados, sin utilizar directamente las características de entrada
Problema de Estaticidad: Una vez completado el aprendizaje, el mecanismo de muestreo permanece estático, incapaz de adaptarse a diferentes entradas

Motivación de la Investigación

Frente a las limitaciones de los métodos existentes, este artículo propone un marco de muestreo dinámico que posee tanto adaptabilidad a la tarea como adaptabilidad a la entrada, capaz de ajustar la estrategia de muestreo según la entrada específica durante la inferencia.

Contribuciones Principales

Módulo de Muestreo Neural Novedoso e Intercambiable: Propone un módulo para muestreo dinámico de volúmenes 3D y videos que se adapta a la entrada durante la inferencia, logrando adaptabilidad dual a la tarea y a la entrada
Verificación de Rendimiento Integral: Valida la efectividad del marco en ocho conjuntos de datos de imágenes médicas, incluyendo seis conjuntos de datos MedMNIST3D, un conjunto de datos de video de ultrasonido público y un conjunto de datos propietario recopilado en entorno clínico
Marco Entrenable Extremo a Extremo: Asegura la diferenciabilidad extremo a extremo de la selección discreta de muestras mediante el truco de reparametrización de Gumbel-Softmax
Interpretabilidad: La matriz de muestreo se produce como salida, haciendo que el proceso de muestreo sea explícitamente controlable e interpretable

Explicación Detallada del Método

Definición de la Tarea

Dada una secuencia que contiene T fotogramas $X \in \mathbb{R}^{B \times T \times C \times H \times W}$ , el objetivo es aprender una función de muestreo $S_\theta$ que seleccione un subconjunto de k fotogramas (donde $k \ll T$ ).

Arquitectura del Modelo

1. Extracción de Características Ligera

El módulo de extracción de características contiene múltiples caminos paralelos para calcular representaciones ricas de la secuencia de entrada:

Captura de Dinámicas Temporales: Calcula la varianza entre fotogramas en dimensiones espaciales y de canal
Identificación de Límites Anatómicos: Aplica conjuntos de kernels Sobel y Laplaciano para calcular magnitudes de bordes
Agregación de Características: Concatena las características extraídas para formar una representación de características integral $F \in \mathbb{R}^{B \times T \times d}$

2. Capas de Atención Multihead

El tensor de características agregado F se procesa a través de capas de atención multihead para generar logits de muestreo finales:

$s^h = \text{Softplus}(\text{MLP}^h(F))$

$A^{(:,j,:)}_h = a_{\text{base}} \odot s^{(:,j)}_h$

$A = \frac{1}{H} \sum_{h=1}^H A^h$

donde H es el número de cabezas de atención, $s^h \in \mathbb{R}^{B \times k}$ son factores de escala específicos de la cabeza.

3. Muestreo Gumbel-Softmax Diferenciable

Para permitir entrenamiento extremo a extremo, se adopta el truco de Gumbel-Softmax para muestreo diferenciable:

Escalado de Temperatura Adaptativo: $\tau = \tau_0 \cdot (0.5 + \sigma(\text{MLP}_{\text{temp}}(F)))$

Proceso de Muestreo: $G_{b,j,t} \sim \text{Gumbel}(0,1)$ $P_{\text{soft}} = \text{Softmax}_t\left(\frac{A + G}{\tau}\right)$

Se utiliza el estimador de paso directo (STE) para asegurar diferenciabilidad, obteniendo finalmente la matriz de muestreo $P \in \mathbb{R}^{B \times k \times T}$ .

Puntos de Innovación Técnica

Adaptación Dinámica a la Entrada: A diferencia de la estrategia estática de DPS, DAS puede ajustar dinámicamente la estrategia de muestreo según el contenido de entrada
Diseño Ligero: En comparación con el proceso multietapa de ADPS, DAS emplea un módulo ligero de paso único
Mecanismo de Temperatura Adaptativa: Controla dinámicamente el equilibrio entre exploración y explotación
Fusión de Características Multimodales: Combina información de dinámicas temporales y estructura espacial

Configuración Experimental

Conjuntos de Datos

MedMNIST3D: Seis conjuntos de datos de volúmenes 3D (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), abarcando tareas de segmentación multiorgánica y detección de patología
Breast Ultrasound Video (BUSV): Conjunto de datos público de video de ultrasonido mamario, referencia de clasificación binaria para detección de lesiones mamarias
Conjunto de Datos Interno de Antro Gástrico: Conjunto de datos de video de ultrasonido clínico propietario recopilado en entorno hospitalario real, conteniendo clasificación de cinco categorías de contenido gástrico

Métricas de Evaluación

Precisión Equilibrada (Balanced Accuracy)
AUC (Área Bajo la Curva)
Todos los resultados son promedios de tres ejecuciones independientes

Métodos de Comparación

Full Sequence: Procesa todos los fotogramas o cortes (límite superior computacional)
Random Sampling: Selecciona k fotogramas aleatoriamente
Uniform Sampling: Selecciona fotogramas equidistantes
Deep Probabilistic Subsampling (DPS): Muestreo aprendido adaptado a la tarea pero independiente del contenido
Active Deep Probabilistic Subsampling (ADPS): Adaptado a la entrada pero solo basado en componentes ya muestreados

Detalles de Implementación

Arquitectura Descendente: MobileNetV3-Small como extractor de características
Optimizador: Adam (lr=1e-4, tamaño de lote=16)
Proporción de Muestreo: Todos los métodos de submuestreo seleccionan el 50% de la longitud de secuencia original
Estrategia de Parada Temprana: Basada en pérdida de validación

Resultados Experimentales

Resultados Principales

Rendimiento en Conjuntos de Datos Públicos (Tabla 1)

En la mayoría de conjuntos de datos MedMNIST3D, DAS supera significativamente a DPS y ADPS:

Conjunto de Datos Organ: AUC 0.931 vs ADPS 0.928, precisión 58.1% vs ADPS 57.3%
Conjunto de Datos Nodule: AUC 0.799 vs ADPS 0.782, precisión 75.8% vs ADPS 75.8%
Conjunto de Datos Vessel: AUC 0.752 vs ADPS 0.739, precisión 82.9% vs ADPS 80.7%

Rendimiento en Conjunto de Datos Interno (Tabla 2)

En el desafiante conjunto de datos de antro gástrico, DAS incluso supera la línea base de secuencia completa:

AUC: 0.639 vs Secuencia Completa 0.611
Precisión: 34.1% vs Secuencia Completa 30.1%

Hallazgos Clave

Utilización de Redundancia: ADPS y DAS se acercan al rendimiento de secuencia completa en muchos conjuntos de datos, indicando que existe redundancia de datos que puede ser explotada por estrategias de muestreo superiores en tareas de clasificación
Ventaja en Escenarios Reales: DAS destaca particularmente en escaneos de ultrasonido clínico con mayor ruido
Eficiencia Computacional: Logra ahorros computacionales significativos mientras mantiene o mejora el rendimiento

Estudios de Ablación

Aunque el artículo no contiene estudios de ablación detallados, mediante comparación con diferentes líneas base se puede observar:

La importancia del mecanismo de atención (mejora respecto a muestreo aleatorio y uniforme)
El valor de la adaptabilidad a la entrada (mejora respecto a DPS)
Las ventajas del muestreo dinámico (respecto a métodos estáticos)

Trabajo Relacionado

Submuestreo Aprendible

DPS: Propone por primera vez un marco diferenciable para aprender patrones de muestreo adaptados a la tarea, pero adopta estrategia fija e independiente del contenido
ADPS: Extiende DPS habilitando muestreo adaptado a instancias, pero el proceso multietapa introduce sobrecarga computacional significativa durante la inferencia

Mecanismos de Atención

Ampliamente utilizados para identificar fotogramas salientes en videos, pero frecuentemente carecen de diferenciabilidad extremo a extremo o no están integrados en un marco de muestreo unificado

Técnicas de Muestreo Diferenciable

Truco de Gumbel-Softmax: Hace posible el entrenamiento de redes con selecciones discretas
Este trabajo combina mecanismos de atención con muestreadores basados en Gumbel-Softmax, logrando alta adaptabilidad y entrenamientos extremo a extremo

Conclusiones y Discusión

Conclusiones Principales

DAS logra exitosamente adaptabilidad dual a la tarea y a la entrada, ajustando dinámicamente la estrategia de muestreo durante la inferencia
Valida la efectividad del método en múltiples conjuntos de datos de imágenes médicas, con desempeño particularmente destacado en entornos clínicos reales
El marco posee buena generalidad y puede integrarse en cualquier arquitectura de red neuronal

Limitaciones

Dependencia de Extracción de Características: El uso actual de características predefinidas (varianza temporal, detección de bordes) puede limitar la adaptabilidad
Alcance de Evaluación: Validación principalmente en el dominio de imágenes médicas, la capacidad de generalización a otros dominios requiere verificación adicional
Análisis de Sobrecarga Computacional: Carece de análisis detallado de complejidad computacional y comparaciones de tiempo de inferencia real

Direcciones Futuras

El artículo propone una dirección de investigación prometedora: desarrollar módulos de extracción de características aprendibles que puedan identificar automáticamente características significativas para guiar el proceso de muestreo, mejorando aún más el rendimiento de DAS.

Evaluación Profunda

Fortalezas

Definición Clara del Problema: Identifica con precisión las limitaciones centrales de métodos existentes (muestreo estático vs dinámico)
Innovación Técnica: Combina ingeniosamente mecanismos de atención con muestreo diferenciable, logrando adaptabilidad a la entrada
Suficiencia Experimental: Evaluación integral en múltiples conjuntos de datos, incluyendo datos clínicos reales
Alto Valor Práctico: Método simple y efectivo, fácil de integrar en arquitecturas existentes

Deficiencias

Falta de Análisis Teórico: Carece de análisis teórico sobre convergencia y estabilidad del método
Estudios de Ablación Insuficientes: Sin análisis detallado de la contribución específica de cada componente (atención multihead, temperatura adaptativa, etc.)
Cuantificación de Eficiencia Computacional: Aunque afirma mejorar eficiencia, carece de comparaciones específicas de tiempo computacional y uso de memoria
Sensibilidad de Hiperparámetros: Sin análisis del impacto de hiperparámetros clave (número de cabezas H, temperatura τ₀) en el rendimiento

Impacto

Contribución Académica: Proporciona nuevas perspectivas al campo del muestreo aprendible, particularmente en aspectos de adaptabilidad a la entrada
Aplicación Práctica: Tiene valor de aplicación directa en procesamiento de imágenes médicas, particularmente adecuado para entornos con recursos limitados
Reproducibilidad: La descripción del método es relativamente clara, pero carece de código y detalles de implementación

Escenarios Aplicables

Análisis de Imágenes Médicas: Procesamiento de datos de volúmenes 3D y videos de ultrasonido
Comprensión de Video: Procesamiento eficiente de secuencias de video largas
Entornos con Recursos Limitados: Dispositivos móviles y escenarios de computación perimetral
Aplicaciones en Tiempo Real: Sistemas de diagnóstico clínico que requieren respuesta rápida

Referencias

El artículo cita trabajos clave en el campo, incluyendo:

Trabajos relacionados con Gumbel-Softmax 3,4
Trabajos pioneros en muestreo aprendible DPS 1 y ADPS 2
Conjunto de datos de referencia MedMNIST3D 5
Aplicaciones de mecanismos de atención en procesamiento de video 7,8

Evaluación General: Este es un artículo técnicamente sólido con definición clara del problema. Aunque requiere fortalecimiento en análisis teórico y profundidad experimental, la idea propuesta de muestreo adaptativo dinámico guiado por entrada posee valor significativo, particularmente demostrando buen potencial en escenarios de aplicación práctica como imágenes médicas. La simplicidad y generalidad del método le confieren buen valor práctico.