Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.
- ID de l'article: 2510.12376
- Titre: Deep Attention-guided Adaptive Subsampling
- Auteurs: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, Inde)
- Classification: cs.CV, cs.AI, cs.LG
- Date de publication: 14 octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.12376v1
Bien que les réseaux de neurones profonds aient réalisé des améliorations significatives en termes de performance, ces progrès s'accompagnent souvent d'une augmentation de la complexité computationnelle et des coûts. Dans de nombreux cas, comme les tâches de classification de volumes 3D ou de vidéos, tous les tranches ou images ne sont pas nécessaires en raison de la redondance inhérente. Pour résoudre ce problème, les auteurs proposent un cadre de sous-échantillonnage apprenable novateur, intégrable dans n'importe quelle architecture de réseau de neurones. Ce cadre adapte dynamiquement l'entrée lors de l'inférence par le biais d'un module d'échantillonnage guidé par l'attention, réalisant une amélioration des performances tout en réduisant la complexité des modèles de réseaux de neurones profonds.
- Défis d'efficacité computationnelle: Les réseaux de neurones profonds font face à des coûts computationnels énormes lors du traitement de données de haute dimension (comme les vidéos et les scans volumétriques)
- Redondance des données: Il existe une grande quantité d'informations redondantes dans les images médicales 3D et les données vidéo, où toutes les images/tranches ne sont pas utiles pour la tâche finale
- Limitations des stratégies d'échantillonnage: Les méthodes traditionnelles d'échantillonnage uniforme ou les approches heuristiques manuelles ne peuvent pas identifier et prioriser les informations les plus significatives
- Deep Probabilistic Subsampling (DPS): Bien qu'efficace, il apprend une stratégie fixe et indépendante du contenu
- Active Deep Probabilistic Subsampling (ADPS): Bien qu'il introduise l'adaptabilité au niveau de l'instance, il ne se conditionne que sur les composants déjà échantillonnés, sans exploiter directement les caractéristiques d'entrée elles-mêmes
- Problème de statisme: Une fois l'apprentissage terminé, le mécanisme d'échantillonnage reste statique et ne peut pas s'adapter à différentes entrées
Face aux limitations des méthodes existantes, cet article propose un cadre d'échantillonnage dynamique possédant à la fois l'adaptabilité aux tâches et l'adaptabilité aux entrées, capable d'ajuster la stratégie d'échantillonnage en fonction de l'entrée spécifique lors de l'inférence.
- Module de neurones d'échantillonnage novateur et modulaire: Propose un module pour l'échantillonnage dynamique de volumes 3D et de vidéos, s'adaptant à l'entrée lors de l'inférence, réalisant une double adaptabilité aux tâches et aux entrées
- Vérification de performance complète: Valide l'efficacité du cadre sur huit ensembles de données d'imagerie médicale, incluant six ensembles de données MedMNIST3D, un ensemble de données vidéo ultrasonore public et un ensemble de données propriétaire collecté en environnement clinique
- Cadre entraînable de bout en bout: Assure la différentiabilité de bout en bout de la sélection d'échantillons discrets par le biais de la reparamétrisation Gumbel-Softmax
- Interprétabilité: Une matrice d'échantillonnage est produite en sortie, rendant le processus d'échantillonnage explicitement contrôlable et interprétable
Étant donné une séquence contenant T images X∈RB×T×C×H×W, l'objectif est d'apprendre une fonction d'échantillonnage Sθ sélectionnant un sous-ensemble de k images (où k≪T).
Le module d'extraction de caractéristiques contient plusieurs chemins parallèles pour calculer une représentation riche de la séquence d'entrée:
- Capture de la dynamique temporelle: Calcule la variance inter-images sur les dimensions spatiales et de canal
- Identification des limites anatomiques: Applique un ensemble de noyaux Sobel et Laplacien pour calculer l'amplitude des contours
- Agrégation de caractéristiques: Concatène les caractéristiques extraites formant une représentation de caractéristiques complète F∈RB×T×d
Le tenseur de caractéristiques agrégées F est traité par une couche d'attention multi-têtes pour générer les logits d'échantillonnage finaux:
sh=Softplus(MLPh(F))
Ah(:,j,:)=abase⊙sh(:,j)
A=H1∑h=1HAh
où H est le nombre de têtes d'attention, sh∈RB×k sont les facteurs d'échelle spécifiques à chaque tête.
Pour permettre l'entraînement de bout en bout, la technique Gumbel-Softmax est adoptée pour l'échantillonnage différentiable:
Mise à l'échelle de température adaptative:
τ=τ0⋅(0.5+σ(MLPtemp(F)))
Processus d'échantillonnage:
Gb,j,t∼Gumbel(0,1)Psoft=Softmaxt(τA+G)
Un estimateur direct (STE) est utilisé pour assurer la différentiabilité, produisant finalement la matrice d'échantillonnage P∈RB×k×T.
- Adaptation dynamique aux entrées: Contrairement à la stratégie statique de DPS, DAS peut ajuster dynamiquement la stratégie d'échantillonnage selon le contenu de l'entrée
- Conception légère: Comparé au processus multi-étapes d'ADPS, DAS emploie un module léger à passage unique
- Mécanisme de température adaptative: Contrôle dynamiquement l'équilibre entre exploration et exploitation
- Fusion de caractéristiques multimodales: Combine les informations de dynamique temporelle et de structure spatiale
- MedMNIST3D: Six ensembles de données de volumes 3D (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), couvrant des tâches de segmentation multi-organes et de détection pathologique
- Breast Ultrasound Video (BUSV): Ensemble de données vidéo ultrasonore mammaire public, référence de classification binaire pour la détection de lésions mammaires
- Ensemble de données interne du fundus gastrique: Ensemble de données vidéo ultrasonore clinique propriétaire collecté en environnement hospitalier réel, contenant une classification en cinq catégories du contenu gastrique
- Précision équilibrée (Balanced Accuracy)
- AUC (Area Under Curve)
- Tous les résultats sont des moyennes de trois exécutions indépendantes
- Full Sequence: Traitement de toutes les images ou tranches (limite supérieure computationnelle)
- Random Sampling: Sélection aléatoire de k images
- Uniform Sampling: Sélection équidistante d'images
- Deep Probabilistic Subsampling (DPS): Échantillonnage appris adapté aux tâches mais indépendant du contenu
- Active Deep Probabilistic Subsampling (ADPS): Adapté aux entrées mais basé uniquement sur les composants déjà échantillonnés
- Architecture en aval: MobileNetV3-Small comme extracteur de caractéristiques
- Optimiseur: Adam (lr=1e-4, batch size=16)
- Ratio d'échantillonnage: Toutes les méthodes de sous-échantillonnage sélectionnent 50% de la longueur de séquence originale
- Stratégie d'arrêt anticipé: Basée sur la perte de validation
Sur la plupart des ensembles de données MedMNIST3D, DAS surpasse significativement DPS et ADPS:
- Ensemble de données Organ: AUC 0,931 vs ADPS 0,928, précision 58,1% vs ADPS 57,3%
- Ensemble de données Nodule: AUC 0,799 vs ADPS 0,782, précision 75,8% vs ADPS 75,8%
- Ensemble de données Vessel: AUC 0,752 vs ADPS 0,739, précision 82,9% vs ADPS 80,7%
Sur l'ensemble de données du fundus gastrique difficile, DAS surpasse même la référence de séquence complète:
- AUC: 0,639 vs Full Sequence 0,611
- Précision: 34,1% vs Full Sequence 30,1%
- Exploitation de la redondance: ADPS et DAS approchent la performance de séquence complète sur de nombreux ensembles de données, indiquant l'existence de redondance de données exploitable par d'excellentes stratégies d'échantillonnage dans les tâches de classification
- Avantages en scénarios réels: DAS excelle particulièrement dans les scans ultrasonores cliniques plus bruyants
- Efficacité computationnelle: Réalise des économies computationnelles significatives tout en maintenant ou améliorant les performances
Bien que l'article ne contienne pas d'études d'ablation détaillées, les comparaisons avec différentes références montrent:
- L'importance du mécanisme d'attention (amélioration par rapport à l'échantillonnage aléatoire et uniforme)
- La valeur de l'adaptabilité aux entrées (amélioration par rapport à DPS)
- Les avantages de l'échantillonnage dynamique (par rapport aux méthodes statiques)
- DPS: Première proposition d'un cadre différentiable pour apprendre les motifs d'échantillonnage adapté aux tâches, mais adoptant une stratégie fixe indépendante du contenu
- ADPS: Extension de DPS en activant l'échantillonnage adapté aux instances, mais le processus multi-étapes introduit une surcharge computationnelle significative lors de l'inférence
- Largement utilisés pour identifier les images significatives dans les vidéos, mais manquent souvent de différentiabilité de bout en bout ou ne sont pas intégrés dans un cadre d'échantillonnage unifié
- Technique Gumbel-Softmax: Rend possible l'entraînement de réseaux avec sélections discrètes
- Ce travail combine les mécanismes d'attention avec des échantillonneurs basés sur Gumbel-Softmax, réalisant une haute adaptabilité et une trainabilité de bout en bout
- DAS réalise avec succès une double adaptabilité aux tâches et aux entrées, ajustant dynamiquement la stratégie d'échantillonnage lors de l'inférence
- Valide l'efficacité de la méthode sur plusieurs ensembles de données d'imagerie médicale, avec une performance particulièrement excellente en environnement clinique réel
- Le cadre possède une bonne universalité, intégrable dans n'importe quelle architecture de réseau de neurones
- Dépendance à l'extraction de caractéristiques: L'utilisation actuelle de caractéristiques prédéfinies (variance temporelle, détection de contours) peut limiter l'adaptabilité
- Portée d'évaluation: Principalement validé dans le domaine de l'imagerie médicale, la capacité de généralisation à d'autres domaines nécessite une vérification supplémentaire
- Analyse de surcharge computationnelle: Manque d'analyse détaillée de la complexité computationnelle et de comparaisons de temps d'inférence réel
L'article propose une direction de recherche prometteuse: développer des modules d'extraction de caractéristiques apprenables, capables d'identifier automatiquement les caractéristiques significatives guidant le processus d'échantillonnage, améliorant davantage la performance de DAS.
- Définition claire du problème: Identifie précisément les limitations fondamentales des méthodes existantes (échantillonnage statique vs dynamique)
- Innovation technique: Combine ingénieusement les mécanismes d'attention avec l'échantillonnage différentiable, réalisant l'adaptabilité aux entrées
- Suffisance expérimentale: Évaluation complète sur plusieurs ensembles de données, incluant des données cliniques réelles
- Valeur pratique élevée: Méthode simple et efficace, facilement intégrable dans les architectures existantes
- Manque d'analyse théorique: Absence d'analyse théorique sur la convergence et la stabilité de la méthode
- Études d'ablation insuffisantes: Pas d'analyse détaillée de la contribution spécifique de chaque composant (attention multi-têtes, température adaptative, etc.)
- Quantification de l'efficacité computationnelle: Bien que l'amélioration d'efficacité soit revendiquée, manquent les comparaisons concrètes de temps de calcul et d'utilisation mémoire
- Sensibilité aux hyperparamètres: Pas d'analyse de l'impact des hyperparamètres clés (nombre de têtes H, température τ₀) sur la performance
- Contribution académique: Fournit de nouvelles perspectives au domaine de l'échantillonnage apprenable, particulièrement concernant l'adaptabilité aux entrées
- Application pratique: Valeur d'application directe dans le traitement d'imagerie médicale, particulièrement adaptée aux environnements aux ressources limitées
- Reproductibilité: Description de méthode relativement claire, mais manque de code et détails d'implémentation détaillés
- Analyse d'imagerie médicale: Traitement de données volumétriques 3D et vidéos ultrasonores
- Compréhension vidéo: Traitement efficace de séquences vidéo longues
- Environnements aux ressources limitées: Appareils mobiles et scénarios d'informatique en périphérie
- Applications en temps réel: Systèmes de diagnostic clinique nécessitant une réponse rapide
L'article cite les travaux clés du domaine, incluant:
- Travaux connexes Gumbel-Softmax 3,4
- Travaux fondateurs en échantillonnage apprenable DPS 1 et ADPS 2
- Ensemble de données de référence MedMNIST3D 5
- Applications des mécanismes d'attention dans le traitement vidéo 7,8
Évaluation globale: Ceci est un article techniquement solide avec une définition claire du problème. Bien que l'analyse théorique et la profondeur expérimentale méritent d'être renforcées, l'idée proposée d'échantillonnage dynamique adapté aux entrées possède une valeur importante, particulièrement dans les scénarios d'application pratique comme l'imagerie médicale. La simplicité et l'universalité de la méthode lui confèrent une bonne valeur pratique.