NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic
NAP: Fusione Tardiva Basata su Attenzione per la Classificazione Automatica del Sonno
I segnali della polisonnografia (PSG) presentano un'elevata eterogeneità nelle modalità (ad esempio EEG, EOG, ECG), nella disponibilità dei canali (ad esempio EEG frontale, occipitale) e nei protocolli di acquisizione tra diversi dataset e centri clinici. I modelli esistenti per l'elaborazione dei dati PSG si affidano principalmente a sottoinsiemi fissi di modalità o canali, non sfruttando pienamente la natura multimodale intrinseca. Questo articolo affronta questa limitazione introducendo NAP (Neural Aggregator of Predictions), un modello basato su meccanismi di attenzione che utilizza attenzione tri-assiale per apprendere la combinazione di più flussi predittivi, catturando dipendenze temporali, spaziali e a livello di predittore. NAP è addestrato per adattarsi a diverse dimensioni di input. Aggregando gli output da modelli preaddestrati a singolo canale congelati, NAP supera costantemente i singoli predittori e i metodi di ensemble semplici, raggiungendo prestazioni di generalizzazione zero-shot all'avanguardia su più dataset.
Problema Centrale: L'eterogeneità dei dati PSG, includendo diverse composizioni modali, configurazioni di canali e protocolli di acquisizione, con modelli esistenti incapaci di sfruttare pienamente le caratteristiche multimodali.
Importanza:
La classificazione del sonno è lo standard di riferimento clinico per la diagnosi di disturbi del sonno-veglia
La classificazione manuale del sonno è dispendiosa in termini di tempo e soggetta a distorsioni
Le informazioni multimodali forniscono una visione più completa della dinamica del sonno, facilitando una migliore comprensione dello stato di salute del paziente
Limitazioni dei Metodi Esistenti:
La maggior parte dei modelli si affida a sottoinsiemi fissi di modalità o canali
I metodi di ensemble con votazione soft semplice assumono che la media sia una funzione di aggregazione sufficiente
Trattano implicitamente tutti i contributori come ugualmente affidabili
Operano a livello di epoca, ignorando le dipendenze temporali
Motivazione della Ricerca: Sviluppare un modello con meccanismo di attenzione che possa gestire flessibilmente diverse dimensioni di input, aggregare efficacemente flussi predittivi multimodali e mantenere modularità.
Proposta del Modello NAP: Un meta-modello leggero basato su attenzione che apprende ad aggregare le previsioni da modelli preaddestrati a singolo canale catturando esplicitamente dipendenze temporali, spaziali/canali, a livello di modello e cross-modali.
Estensione del Meccanismo di Attenzione Incrociata: Generalizzazione del meccanismo di attenzione criss-cross dalle dimensioni spazio-temporali a un meccanismo di attenzione tri-assiale come strategia di fusione efficace.
Addestramento Adattivo alle Dimensioni: Estensione dell'addestramento adattivo alle dimensioni per campionare dinamicamente diverse lunghezze di sequenza, numero di canali, numero di modelli e numero di modalità.
Prestazioni SOTA Zero-Shot: Raggiungimento di prestazioni di generalizzazione zero-shot all'avanguardia su più dataset, significativamente superiori ai singoli predittori e ai metodi di ensemble semplici.
Meccanismo di Attenzione Tri-Assiale: Decomposizione del calcolo dell'attenzione in tre dimensioni (spaziale, temporale e predittore), più efficiente e mirato rispetto all'attenzione congiunta tradizionale.
Adattamento Dinamico delle Dimensioni: Campionamento casuale durante l'addestramento di diversi passi temporali, insiemi di modalità, numero di canali e predittori di base per migliorare la capacità di generalizzazione.
Strategia di Accumulo dei Gradienti: Accumulo dei gradienti su G batch diversi, evitando operazioni di padding e mascheramento, migliorando l'efficienza computazionale.
Miglioramento Coerente: NAP ha raggiunto miglioramenti zero-shot del MF1 sulla maggior parte dei dataset OOD
DCSM: 0,803 → 0,815
DOD-H: 0,828 → 0,834
PHYS: 0,693 → 0,732
SEDF-SC: 0,734 → 0,752
SEDF-ST: 0,761 → 0,796
Miglioramento della Fase N1: Il miglioramento del MF1 proviene principalmente dal miglioramento della difficile identificazione della fase N1, con miglioramenti anche nella fase Veglia in alcuni casi
Scenario di Massimo Miglioramento: NAP ha raggiunto i miglioramenti più significativi su dataset dove SOMNUS ha prestazioni relativamente scarse (ad esempio PHYS e SEDF)
Sebbene l'articolo non presenti esperimenti di ablazione dettagliati, il confronto con la votazione soft semplice (SOMNUS) verifica i vantaggi del meccanismo di attenzione rispetto alla media semplice.
NAP aggrega efficacemente flussi predittivi multimodali attraverso meccanismi di attenzione, raggiungendo prestazioni zero-shot all'avanguardia su più dataset
La fusione tardiva principiata può colmare i divari di prestazione dei metodi esistenti su determinati dataset
Il meccanismo di attenzione tri-assiale è una strategia efficace per gestire relazioni di dipendenza multidimensionali
Forte Innovazione: Il design del meccanismo di attenzione tri-assiale è innovativo, affrontando efficacemente la modellazione delle dipendenze multidimensionali
Alto Valore Pratico: Affronta l'importante problema dell'eterogeneità dei dati PSG nella pratica clinica
Esperimenti Completi: Valutazione zero-shot completa su più dataset di grandi dimensioni
Metodo Generico: Il framework è estensibile ad altre applicazioni di segnali fisiologici multimodali
L'articolo cita importanti lavori nei campi della medicina del sonno, dell'apprendimento profondo e della fusione multimodale, includendo:
Berry et al. (2017): Standard di classificazione del sonno AASM
Perslev et al. (2021): Modello U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Lavoro originale sull'attenzione criss-cross
Zhang et al. (2018, 2024): Risorse dati NSRR
Valutazione Complessiva: Questo è un articolo di machine learning di alta qualità che propone una soluzione innovativa a un problema clinicamente importante. Il design del meccanismo di attenzione tri-assiale è elegante e i risultati sperimentali sono convincenti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e negli esperimenti di ablazione, il suo valore pratico e l'innovazione tecnica lo rendono un contributo importante nel campo dell'elaborazione di segnali fisiologici multimodali.