Although deep neural networks have provided impressive gains in performance, these improvements often come at the cost of increased computational complexity and expense. In many cases, such as 3D volume or video classification tasks, not all slices or frames are necessary due to inherent redundancies. To address this issue, we propose a novel learnable subsampling framework that can be integrated into any neural network architecture. Subsampling, being a nondifferentiable operation, poses significant challenges for direct adaptation into deep learning models. While some works, have proposed solutions using the Gumbel-max trick to overcome the problem of non-differentiability, they fall short in a crucial aspect: they are only task-adaptive and not inputadaptive. Once the sampling mechanism is learned, it remains static and does not adjust to different inputs, making it unsuitable for real-world applications. To this end, we propose an attention-guided sampling module that adapts to inputs even during inference. This dynamic adaptation results in performance gains and reduces complexity in deep neural network models. We demonstrate the effectiveness of our method on 3D medical imaging datasets from MedMNIST3D as well as two ultrasound video datasets for classification tasks, one of them being a challenging in-house dataset collected under real-world clinical conditions.
- ID Articolo: 2510.12376
- Titolo: Deep Attention-guided Adaptive Subsampling
- Autori: Sharath M Shankaranarayana, Soumava Kumar Roy, Prasad Sudhakar, Chandan Aladahalli (GE Healthcare, Bangalore, India)
- Classificazione: cs.CV, cs.AI, cs.LG
- Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
- Link Articolo: https://arxiv.org/abs/2510.12376v1
Sebbene le reti neurali profonde abbiano ottenuto miglioramenti significativi nelle prestazioni, questi progressi spesso comportano un aumento della complessità computazionale e dei costi. In molti casi, come nei compiti di classificazione di volumi 3D o video, non tutte le sezioni o i fotogrammi sono necessari a causa della ridondanza intrinseca. Per affrontare questo problema, gli autori propongono un innovativo framework di sottocampionamento apprendibile, integrabile in qualsiasi architettura di rete neurale. Il framework realizza un miglioramento delle prestazioni e una riduzione della complessità dei modelli di reti neurali profonde attraverso un modulo di campionamento guidato da attenzione che si adatta dinamicamente agli input durante l'inferenza.
- Sfide di Efficienza Computazionale: Le reti neurali profonde affrontano enormi costi computazionali nell'elaborazione di dati ad alta dimensionalità (come video e scansioni volumetriche)
- Ridondanza dei Dati: Nei dati di imaging medico 3D e nei video esiste una notevole quantità di informazioni ridondanti; non tutti i fotogrammi/sezioni sono utili per il compito finale
- Limitazioni delle Strategie di Campionamento: I metodi tradizionali di campionamento uniforme o euristiche manuali non riescono a identificare e dare priorità alle informazioni più significative
- Deep Probabilistic Subsampling (DPS): Sebbene efficace, apprende strategie fisse e indipendenti dal contenuto
- Active Deep Probabilistic Subsampling (ADPS): Sebbene introduca adattabilità a livello di istanza, si basa solo sulla condizionalità dei componenti già campionati, senza sfruttare direttamente le caratteristiche dell'input stesso
- Problema di Staticità: Una volta completato l'apprendimento, i meccanismi di campionamento esistenti rimangono statici e non possono adattarsi a input diversi
In risposta alle limitazioni dei metodi esistenti, questo articolo propone un framework di campionamento dinamico che possiede sia adattabilità ai compiti che adattabilità agli input, in grado di regolare la strategia di campionamento in base all'input specifico durante l'inferenza.
- Innovativo Modulo di Campionamento Neurale Plug-and-Play: Propone un modulo per il campionamento dinamico di volumi 3D e video che si adatta agli input durante l'inferenza, realizzando doppia adattabilità ai compiti e agli input
- Verifica Completa delle Prestazioni: Convalida l'efficacia del framework su otto dataset di imaging medico, inclusi sei dataset MedMNIST3D, un dataset pubblico di video ecografici e un dataset proprietario raccolto in ambiente clinico
- Framework Completamente Addestrabile End-to-End: Garantisce la differenziabilità end-to-end della selezione di campioni discreti attraverso il trucco di riparametrizzazione Gumbel-Softmax
- Interpretabilità: La matrice di campionamento viene prodotta come output, rendendo il processo di campionamento esplicitamente controllabile e interpretabile
Data una sequenza contenente T fotogrammi X∈RB×T×C×H×W, l'obiettivo è apprendere una funzione di campionamento Sθ che selezioni un sottoinsieme di k fotogrammi (dove k≪T).
Il modulo di estrazione delle caratteristiche contiene percorsi paralleli multipli per calcolare rappresentazioni ricche della sequenza di input:
- Cattura della Dinamica Temporale: Calcola la varianza tra fotogrammi sulle dimensioni spaziali e di canale
- Identificazione dei Confini Anatomici: Applica insiemi di kernel Sobel e Laplaciano per calcolare l'ampiezza dei bordi
- Aggregazione delle Caratteristiche: Concatena le caratteristiche estratte per formare una rappresentazione di caratteristiche completa F∈RB×T×d
Il tensore di caratteristiche aggregato F viene elaborato attraverso uno strato di attenzione multi-testa per generare i logit di campionamento finali:
sh=Softplus(MLPh(F))
Ah(:,j,:)=abase⊙sh(:,j)
A=H1∑h=1HAh
dove H è il numero di teste di attenzione, sh∈RB×k sono i fattori di scala specifici della testa.
Per abilitare l'addestramento end-to-end, viene adottato il trucco Gumbel-Softmax per il campionamento differenziabile:
Ridimensionamento Adattivo della Temperatura:
τ=τ0⋅(0.5+σ(MLPtemp(F)))
Processo di Campionamento:
Gb,j,t∼Gumbel(0,1)Psoft=Softmaxt(τA+G)
Viene utilizzato uno stimatore straight-through (STE) per garantire la differenziabilità, ottenendo infine la matrice di campionamento P∈RB×k×T.
- Adattamento Dinamico agli Input: A differenza della strategia statica di DPS, DAS può regolare dinamicamente la strategia di campionamento in base al contenuto dell'input
- Design Leggero: Rispetto al processo multi-stadio di ADPS, DAS impiega un modulo leggero a passaggio singolo
- Meccanismo di Temperatura Adattiva: Controlla dinamicamente il compromesso tra esplorazione e sfruttamento
- Fusione di Caratteristiche Multi-Modali: Combina informazioni sulla dinamica temporale e sulla struttura spaziale
- MedMNIST3D: Sei dataset di volumi 3D (Organ, Nodule, Adrenal, Fracture, Vessel, Synapse), che coprono compiti di segmentazione multi-organo e rilevamento di patologie
- Breast Ultrasound Video (BUSV): Dataset pubblico di video ecografici al seno per benchmark di classificazione binaria nel rilevamento di lesioni mammarie
- Dataset Interno dell'Antro Gastrico: Dataset proprietario di video ecografici clinici raccolti in ambiente ospedaliero reale, contenente classificazione in cinque categorie del contenuto gastrico
- Accuratezza Bilanciata (Balanced Accuracy)
- AUC (Area Under Curve)
- Tutti i risultati sono la media di tre esecuzioni indipendenti
- Full Sequence: Elaborazione di tutti i fotogrammi o sezioni (limite computazionale superiore)
- Random Sampling: Selezione casuale di k fotogrammi
- Uniform Sampling: Selezione equidistante di fotogrammi
- Deep Probabilistic Subsampling (DPS): Campionamento appreso adattato ai compiti ma indipendente dal contenuto
- Active Deep Probabilistic Subsampling (ADPS): Adattato agli input ma basato solo su componenti già campionati
- Architettura a Valle: MobileNetV3-Small come estrattore di caratteristiche
- Ottimizzatore: Adam (lr=1e-4, batch size=16)
- Rapporto di Campionamento: Tutti i metodi di sottocampionamento selezionano il 50% della lunghezza della sequenza originale
- Strategia di Early Stopping: Basata sulla perdita di validazione
Su la maggior parte dei dataset MedMNIST3D, DAS supera significativamente DPS e ADPS:
- Dataset Organ: AUC 0.931 vs ADPS 0.928, accuratezza 58.1% vs ADPS 57.3%
- Dataset Nodule: AUC 0.799 vs ADPS 0.782, accuratezza 75.8% vs ADPS 75.8%
- Dataset Vessel: AUC 0.752 vs ADPS 0.739, accuratezza 82.9% vs ADPS 80.7%
Sul dataset dell'antro gastrico impegnativo, DAS supera persino il baseline della sequenza completa:
- AUC: 0.639 vs Full Sequence 0.611
- Accuratezza: 34.1% vs Full Sequence 30.1%
- Sfruttamento della Ridondanza: ADPS e DAS si avvicinano alle prestazioni della sequenza completa su molti dataset, indicando che esiste ridondanza nei dati che può essere sfruttata da eccellenti strategie di campionamento
- Vantaggi in Scenari Reali: DAS si distingue particolarmente nelle scansioni ecografiche cliniche più rumorose
- Efficienza Computazionale: Realizza risparmi computazionali significativi mantenendo o migliorando le prestazioni
Sebbene l'articolo non contenga esperimenti di ablazione dettagliati, attraverso il confronto con diversi baseline è possibile osservare:
- L'importanza del meccanismo di attenzione (miglioramento rispetto al campionamento casuale e uniforme)
- Il valore dell'adattabilità agli input (miglioramento rispetto a DPS)
- I vantaggi del campionamento dinamico (rispetto ai metodi statici)
- DPS: Primo a proporre un framework differenziabile per apprendere modelli di campionamento adattati ai compiti, ma adotta una strategia fissa indipendente dal contenuto
- ADPS: Estende DPS abilitando il campionamento adattato alle istanze, ma il processo multi-stadio introduce significativi costi computazionali durante l'inferenza
- Ampiamente utilizzati per identificare fotogrammi salienti nei video, ma spesso mancano di differenziabilità end-to-end o non sono integrati in un framework di campionamento unificato
- Trucco Gumbel-Softmax: Rende possibile l'addestramento di reti con scelte discrete
- Questo lavoro combina meccanismi di attenzione con campionatori basati su Gumbel-Softmax, realizzando elevata adattabilità e addestrabilità end-to-end
- DAS realizza con successo doppia adattabilità ai compiti e agli input, regolando dinamicamente la strategia di campionamento durante l'inferenza
- Convalida l'efficacia del metodo su più dataset di imaging medico, con prestazioni particolarmente eccellenti in ambienti clinici reali
- Il framework possiede buona universalità e può essere integrato in qualsiasi architettura di rete neurale
- Dipendenza dall'Estrazione di Caratteristiche: L'uso attuale di caratteristiche predefinite (varianza temporale, rilevamento di bordi) potrebbe limitare l'adattabilità
- Portata della Valutazione: La convalida è principalmente nel dominio dell'imaging medico; la capacità di generalizzazione ad altri domini richiede ulteriore verifica
- Analisi dei Costi Computazionali: Manca un'analisi dettagliata della complessità computazionale e del confronto dei tempi di inferenza effettivi
L'articolo propone una direzione di ricerca promettente: sviluppare moduli di estrazione di caratteristiche apprendibili in grado di identificare automaticamente caratteristiche significative per guidare il processo di campionamento, migliorando ulteriormente le prestazioni di DAS.
- Definizione Chiara del Problema: Identifica accuratamente le limitazioni fondamentali dei metodi esistenti (campionamento statico vs dinamico)
- Innovazione Tecnica: Combina abilmente meccanismi di attenzione con campionamento differenziabile, realizzando adattabilità agli input
- Completezza Sperimentale: Valutazione completa su più dataset, inclusi dati clinici reali
- Alto Valore Pratico: Il metodo è semplice ed efficace, facilmente integrabile in architetture esistenti
- Mancanza di Analisi Teorica: Assenza di analisi teorica sulla convergenza e stabilità del metodo
- Esperimenti di Ablazione Insufficienti: Nessuna analisi dettagliata del contributo specifico di ogni componente (attenzione multi-testa, temperatura adattiva, ecc.)
- Quantificazione dell'Efficienza Computazionale: Sebbene si affermi un miglioramento dell'efficienza, mancano confronti specifici dei tempi di calcolo e dell'utilizzo della memoria
- Sensibilità agli Iperparametri: Nessuna analisi dell'impatto degli iperparametri critici (numero di teste H, temperatura τ₀) sulle prestazioni
- Contributo Accademico: Fornisce nuove prospettive al campo del campionamento apprendibile, particolarmente riguardo all'adattabilità agli input
- Applicazione Pratica: Ha valore di applicazione diretta nell'elaborazione di imaging medico, particolarmente adatto ad ambienti con risorse limitate
- Riproducibilità: La descrizione del metodo è relativamente chiara, ma mancano il codice e i dettagli di implementazione
- Analisi di Imaging Medico: Elaborazione di dati volumetrici 3D e video ecografici
- Comprensione Video: Elaborazione efficiente di sequenze video lunghe
- Ambienti con Risorse Limitate: Dispositivi mobili e scenari di edge computing
- Applicazioni in Tempo Reale: Sistemi di diagnosi clinica che richiedono risposta rapida
L'articolo cita lavori chiave nel campo, inclusi:
- Lavori correlati a Gumbel-Softmax 3,4
- Lavori pioneristici nel campionamento apprendibile DPS 1 e ADPS 2
- Dataset di benchmark MedMNIST3D 5
- Applicazioni di meccanismi di attenzione nell'elaborazione video 7,8
Valutazione Complessiva: Questo è un articolo tecnicamente solido con una definizione chiara del problema. Sebbene richieda miglioramenti nell'analisi teorica e nella profondità sperimentale, l'approccio proposto di campionamento adattivo dinamico agli input possiede valore significativo, particolarmente in scenari di applicazione pratica come l'imaging medico. La semplicità e l'universalità del metodo gli conferiscono buon valore pratico.