Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.
- ID del Artículo: 2510.12376
- Título: Deep Attention-guided Adaptive Subsampling
- Autores: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
- Clasificación: cs.CV, cs.AI, cs.LG
- Fecha de Publicación: 14 de octubre de 2025 (preimpresión arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.12376v1
A pesar de que las redes neuronales profundas han logrado mejoras significativas en rendimiento, estas mejoras frecuentemente conllevan un aumento en la complejidad computacional y los costos. En muchos casos, como en tareas de clasificación de volúmenes 3D o videos, no todos los cortes o fotogramas son necesarios debido a la redundancia inherente. Para abordar este problema, los autores proponen un marco novedoso de submuestreo aprendible que puede integrarse en cualquier arquitectura de red neuronal. El marco logra mejoras en rendimiento y reduce la complejidad de los modelos de redes neuronales profundas mediante un módulo de muestreo guiado por atención que se adapta dinámicamente a la entrada durante la inferencia.
- Desafíos de Eficiencia Computacional: Las redes neuronales profundas enfrentan costos computacionales enormes al procesar datos de alta dimensionalidad (como videos y escaneos volumétricos)
- Redundancia de Datos: Existe información redundante significativa en imágenes médicas 3D y datos de video, no todos los fotogramas/cortes son útiles para la tarea final
- Limitaciones de Estrategias de Muestreo: Los métodos tradicionales de muestreo uniforme o heurísticas manuales no pueden identificar ni priorizar información significativa
- Deep Probabilistic Subsampling (DPS): Aunque efectivo, aprende estrategias fijas e independientes del contenido
- Active Deep Probabilistic Subsampling (ADPS): Aunque introduce adaptabilidad a nivel de instancia, solo se condiciona en componentes ya muestreados, sin utilizar directamente las características de entrada
- Problema de Estaticidad: Una vez completado el aprendizaje, el mecanismo de muestreo permanece estático, incapaz de adaptarse a diferentes entradas
Frente a las limitaciones de los métodos existentes, este artículo propone un marco de muestreo dinámico que posee tanto adaptabilidad a la tarea como adaptabilidad a la entrada, capaz de ajustar la estrategia de muestreo según la entrada específica durante la inferencia.
- Módulo de Muestreo Neural Novedoso e Intercambiable: Propone un módulo para muestreo dinámico de volúmenes 3D y videos que se adapta a la entrada durante la inferencia, logrando adaptabilidad dual a la tarea y a la entrada
- Verificación de Rendimiento Integral: Valida la efectividad del marco en ocho conjuntos de datos de imágenes médicas, incluyendo seis conjuntos de datos MedMNIST3D, un conjunto de datos de video de ultrasonido público y un conjunto de datos propietario recopilado en entorno clínico
- Marco Entrenable Extremo a Extremo: Asegura la diferenciabilidad extremo a extremo de la selección discreta de muestras mediante el truco de reparametrización de Gumbel-Softmax
- Interpretabilidad: La matriz de muestreo se produce como salida, haciendo que el proceso de muestreo sea explícitamente controlable e interpretable
Dada una secuencia que contiene T fotogramas X∈RB×T×C×H×W, el objetivo es aprender una función de muestreo Sθ que seleccione un subconjunto de k fotogramas (donde k≪T).
El módulo de extracción de características contiene múltiples caminos paralelos para calcular representaciones ricas de la secuencia de entrada:
- Captura de Dinámicas Temporales: Calcula la varianza entre fotogramas en dimensiones espaciales y de canal
- Identificación de Límites Anatómicos: Aplica conjuntos de kernels Sobel y Laplaciano para calcular magnitudes de bordes
- Agregación de Características: Concatena las características extraídas para formar una representación de características integral F∈RB×T×d
El tensor de características agregado F se procesa a través de capas de atención multihead para generar logits de muestreo finales:
sh=Softplus(MLPh(F))
Ah(:,j,:)=abase⊙sh(:,j)
A=H1∑h=1HAh
donde H es el número de cabezas de atención, sh∈RB×k son factores de escala específicos de la cabeza.
Para permitir entrenamiento extremo a extremo, se adopta el truco de Gumbel-Softmax para muestreo diferenciable:
Escalado de Temperatura Adaptativo:
τ=τ0⋅(0.5+σ(MLPtemp(F)))
Proceso de Muestreo:
Gb,j,t∼Gumbel(0,1)Psoft=Softmaxt(τA+G)
Se utiliza el estimador de paso directo (STE) para asegurar diferenciabilidad, obteniendo finalmente la matriz de muestreo P∈RB×k×T.
- Adaptación Dinámica a la Entrada: A diferencia de la estrategia estática de DPS, DAS puede ajustar dinámicamente la estrategia de muestreo según el contenido de entrada
- Diseño Ligero: En comparación con el proceso multietapa de ADPS, DAS emplea un módulo ligero de paso único
- Mecanismo de Temperatura Adaptativa: Controla dinámicamente el equilibrio entre exploración y explotación
- Fusión de Características Multimodales: Combina información de dinámicas temporales y estructura espacial
- MedMNIST3D: Seis conjuntos de datos de volúmenes 3D (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), abarcando tareas de segmentación multiorgánica y detección de patología
- Breast Ultrasound Video (BUSV): Conjunto de datos público de video de ultrasonido mamario, referencia de clasificación binaria para detección de lesiones mamarias
- Conjunto de Datos Interno de Antro Gástrico: Conjunto de datos de video de ultrasonido clínico propietario recopilado en entorno hospitalario real, conteniendo clasificación de cinco categorías de contenido gástrico
- Precisión Equilibrada (Balanced Accuracy)
- AUC (Área Bajo la Curva)
- Todos los resultados son promedios de tres ejecuciones independientes
- Full Sequence: Procesa todos los fotogramas o cortes (límite superior computacional)
- Random Sampling: Selecciona k fotogramas aleatoriamente
- Uniform Sampling: Selecciona fotogramas equidistantes
- Deep Probabilistic Subsampling (DPS): Muestreo aprendido adaptado a la tarea pero independiente del contenido
- Active Deep Probabilistic Subsampling (ADPS): Adaptado a la entrada pero solo basado en componentes ya muestreados
- Arquitectura Descendente: MobileNetV3-Small como extractor de características
- Optimizador: Adam (lr=1e-4, tamaño de lote=16)
- Proporción de Muestreo: Todos los métodos de submuestreo seleccionan el 50% de la longitud de secuencia original
- Estrategia de Parada Temprana: Basada en pérdida de validación
En la mayoría de conjuntos de datos MedMNIST3D, DAS supera significativamente a DPS y ADPS:
- Conjunto de Datos Organ: AUC 0.931 vs ADPS 0.928, precisión 58.1% vs ADPS 57.3%
- Conjunto de Datos Nodule: AUC 0.799 vs ADPS 0.782, precisión 75.8% vs ADPS 75.8%
- Conjunto de Datos Vessel: AUC 0.752 vs ADPS 0.739, precisión 82.9% vs ADPS 80.7%
En el desafiante conjunto de datos de antro gástrico, DAS incluso supera la línea base de secuencia completa:
- AUC: 0.639 vs Secuencia Completa 0.611
- Precisión: 34.1% vs Secuencia Completa 30.1%
- Utilización de Redundancia: ADPS y DAS se acercan al rendimiento de secuencia completa en muchos conjuntos de datos, indicando que existe redundancia de datos que puede ser explotada por estrategias de muestreo superiores en tareas de clasificación
- Ventaja en Escenarios Reales: DAS destaca particularmente en escaneos de ultrasonido clínico con mayor ruido
- Eficiencia Computacional: Logra ahorros computacionales significativos mientras mantiene o mejora el rendimiento
Aunque el artículo no contiene estudios de ablación detallados, mediante comparación con diferentes líneas base se puede observar:
- La importancia del mecanismo de atención (mejora respecto a muestreo aleatorio y uniforme)
- El valor de la adaptabilidad a la entrada (mejora respecto a DPS)
- Las ventajas del muestreo dinámico (respecto a métodos estáticos)
- DPS: Propone por primera vez un marco diferenciable para aprender patrones de muestreo adaptados a la tarea, pero adopta estrategia fija e independiente del contenido
- ADPS: Extiende DPS habilitando muestreo adaptado a instancias, pero el proceso multietapa introduce sobrecarga computacional significativa durante la inferencia
- Ampliamente utilizados para identificar fotogramas salientes en videos, pero frecuentemente carecen de diferenciabilidad extremo a extremo o no están integrados en un marco de muestreo unificado
- Truco de Gumbel-Softmax: Hace posible el entrenamiento de redes con selecciones discretas
- Este trabajo combina mecanismos de atención con muestreadores basados en Gumbel-Softmax, logrando alta adaptabilidad y entrenamientos extremo a extremo
- DAS logra exitosamente adaptabilidad dual a la tarea y a la entrada, ajustando dinámicamente la estrategia de muestreo durante la inferencia
- Valida la efectividad del método en múltiples conjuntos de datos de imágenes médicas, con desempeño particularmente destacado en entornos clínicos reales
- El marco posee buena generalidad y puede integrarse en cualquier arquitectura de red neuronal
- Dependencia de Extracción de Características: El uso actual de características predefinidas (varianza temporal, detección de bordes) puede limitar la adaptabilidad
- Alcance de Evaluación: Validación principalmente en el dominio de imágenes médicas, la capacidad de generalización a otros dominios requiere verificación adicional
- Análisis de Sobrecarga Computacional: Carece de análisis detallado de complejidad computacional y comparaciones de tiempo de inferencia real
El artículo propone una dirección de investigación prometedora: desarrollar módulos de extracción de características aprendibles que puedan identificar automáticamente características significativas para guiar el proceso de muestreo, mejorando aún más el rendimiento de DAS.
- Definición Clara del Problema: Identifica con precisión las limitaciones centrales de métodos existentes (muestreo estático vs dinámico)
- Innovación Técnica: Combina ingeniosamente mecanismos de atención con muestreo diferenciable, logrando adaptabilidad a la entrada
- Suficiencia Experimental: Evaluación integral en múltiples conjuntos de datos, incluyendo datos clínicos reales
- Alto Valor Práctico: Método simple y efectivo, fácil de integrar en arquitecturas existentes
- Falta de Análisis Teórico: Carece de análisis teórico sobre convergencia y estabilidad del método
- Estudios de Ablación Insuficientes: Sin análisis detallado de la contribución específica de cada componente (atención multihead, temperatura adaptativa, etc.)
- Cuantificación de Eficiencia Computacional: Aunque afirma mejorar eficiencia, carece de comparaciones específicas de tiempo computacional y uso de memoria
- Sensibilidad de Hiperparámetros: Sin análisis del impacto de hiperparámetros clave (número de cabezas H, temperatura τ₀) en el rendimiento
- Contribución Académica: Proporciona nuevas perspectivas al campo del muestreo aprendible, particularmente en aspectos de adaptabilidad a la entrada
- Aplicación Práctica: Tiene valor de aplicación directa en procesamiento de imágenes médicas, particularmente adecuado para entornos con recursos limitados
- Reproducibilidad: La descripción del método es relativamente clara, pero carece de código y detalles de implementación
- Análisis de Imágenes Médicas: Procesamiento de datos de volúmenes 3D y videos de ultrasonido
- Comprensión de Video: Procesamiento eficiente de secuencias de video largas
- Entornos con Recursos Limitados: Dispositivos móviles y escenarios de computación perimetral
- Aplicaciones en Tiempo Real: Sistemas de diagnóstico clínico que requieren respuesta rápida
El artículo cita trabajos clave en el campo, incluyendo:
- Trabajos relacionados con Gumbel-Softmax 3,4
- Trabajos pioneros en muestreo aprendible DPS 1 y ADPS 2
- Conjunto de datos de referencia MedMNIST3D 5
- Aplicaciones de mecanismos de atención en procesamiento de video 7,8
Evaluación General: Este es un artículo técnicamente sólido con definición clara del problema. Aunque requiere fortalecimiento en análisis teórico y profundidad experimental, la idea propuesta de muestreo adaptativo dinámico guiado por entrada posee valor significativo, particularmente demostrando buen potencial en escenarios de aplicación práctica como imágenes médicas. La simplicidad y generalidad del método le confieren buen valor práctico.