2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: Fusione Tardiva Basata su Attenzione per la Classificazione Automatica del Sonno

Informazioni Fondamentali

ID Articolo: 2511.03488
Titolo: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Autori: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 5 novembre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2511.03488v1

Abstract

I segnali della polisonnografia (PSG) presentano un'elevata eterogeneità nelle modalità (ad esempio EEG, EOG, ECG), nella disponibilità dei canali (ad esempio EEG frontale, occipitale) e nei protocolli di acquisizione tra diversi dataset e centri clinici. I modelli esistenti per l'elaborazione dei dati PSG si affidano principalmente a sottoinsiemi fissi di modalità o canali, non sfruttando pienamente la natura multimodale intrinseca. Questo articolo affronta questa limitazione introducendo NAP (Neural Aggregator of Predictions), un modello basato su meccanismi di attenzione che utilizza attenzione tri-assiale per apprendere la combinazione di più flussi predittivi, catturando dipendenze temporali, spaziali e a livello di predittore. NAP è addestrato per adattarsi a diverse dimensioni di input. Aggregando gli output da modelli preaddestrati a singolo canale congelati, NAP supera costantemente i singoli predittori e i metodi di ensemble semplici, raggiungendo prestazioni di generalizzazione zero-shot all'avanguardia su più dataset.

Contesto di Ricerca e Motivazione

Definizione del Problema

Problema Centrale: L'eterogeneità dei dati PSG, includendo diverse composizioni modali, configurazioni di canali e protocolli di acquisizione, con modelli esistenti incapaci di sfruttare pienamente le caratteristiche multimodali.
Importanza:
- La classificazione del sonno è lo standard di riferimento clinico per la diagnosi di disturbi del sonno-veglia
- La classificazione manuale del sonno è dispendiosa in termini di tempo e soggetta a distorsioni
- Le informazioni multimodali forniscono una visione più completa della dinamica del sonno, facilitando una migliore comprensione dello stato di salute del paziente
Limitazioni dei Metodi Esistenti:
- La maggior parte dei modelli si affida a sottoinsiemi fissi di modalità o canali
- I metodi di ensemble con votazione soft semplice assumono che la media sia una funzione di aggregazione sufficiente
- Trattano implicitamente tutti i contributori come ugualmente affidabili
- Operano a livello di epoca, ignorando le dipendenze temporali
Motivazione della Ricerca: Sviluppare un modello con meccanismo di attenzione che possa gestire flessibilmente diverse dimensioni di input, aggregare efficacemente flussi predittivi multimodali e mantenere modularità.

Contributi Principali

Proposta del Modello NAP: Un meta-modello leggero basato su attenzione che apprende ad aggregare le previsioni da modelli preaddestrati a singolo canale catturando esplicitamente dipendenze temporali, spaziali/canali, a livello di modello e cross-modali.
Estensione del Meccanismo di Attenzione Incrociata: Generalizzazione del meccanismo di attenzione criss-cross dalle dimensioni spazio-temporali a un meccanismo di attenzione tri-assiale come strategia di fusione efficace.
Addestramento Adattivo alle Dimensioni: Estensione dell'addestramento adattivo alle dimensioni per campionare dinamicamente diverse lunghezze di sequenza, numero di canali, numero di modelli e numero di modalità.
Prestazioni SOTA Zero-Shot: Raggiungimento di prestazioni di generalizzazione zero-shot all'avanguardia su più dataset, significativamente superiori ai singoli predittori e ai metodi di ensemble semplici.

Dettagli del Metodo

Definizione del Compito

Input: Registrazione PSG X, contenente T epoche consecutive di sonno di 30 secondi, ciascuna associata a M modalità fisiologiche
Output: Previsione della fase del sonno per ogni epoca, classificata in 5 categorie: {Veglia, N1, N2, N3, REM}
Vincoli: Il modello deve adattarsi a diverse combinazioni di modalità, numero di canali e lunghezze di sequenza

Architettura del Modello

L'architettura NAP contiene quattro moduli principali:

1. Generatore di Previsioni di Base (Base Predictions Generator)

Per la modalità m_k, il canale c_j e il predittore di base b_ℓ, genera previsioni $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$
I risultati delle previsioni sono proiettati linearmente in uno spazio di caratteristiche ad alta dimensione $\mathbb{R}^{d_{model}}$
Genera ipnodensità (rappresentazioni probabilistiche delle fasi del sonno)

2. Codificatore di Attenzione Tri-Assiale (Tri-axial Attention Encoder)

Estensione dell'attenzione criss-cross in tre percorsi:

Attenzione Spaziale: Calcolo dell'attenzione lungo l'asse dei canali $C_{m_k}$ $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

Attenzione Temporale: Calcolo dell'attenzione lungo l'asse della lunghezza della sequenza T

Attenzione Mista: Calcolo dell'attenzione lungo l'asse dei predittori di base $B_{m_k}$

Ogni percorso alloca h/3 teste di attenzione, con concatenazione finale di tutti gli output dei percorsi.

3. Strato di Fusione Modale (Modality Fusion Layer)

Utilizzo di un meccanismo di fusione basato su attenzione: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

Calcolo della combinazione ponderata: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. Testa di Classificazione (Classifier Head)

Rete feedforward con singolo strato nascosto, addestrata end-to-end utilizzando perdita di entropia incrociata.

Punti di Innovazione Tecnica

Meccanismo di Attenzione Tri-Assiale: Decomposizione del calcolo dell'attenzione in tre dimensioni (spaziale, temporale e predittore), più efficiente e mirato rispetto all'attenzione congiunta tradizionale.
Adattamento Dinamico delle Dimensioni: Campionamento casuale durante l'addestramento di diversi passi temporali, insiemi di modalità, numero di canali e predittori di base per migliorare la capacità di generalizzazione.
Strategia di Accumulo dei Gradienti: Accumulo dei gradienti su G batch diversi, evitando operazioni di padding e mascheramento, migliorando l'efficienza computazionale.

Configurazione Sperimentale

Dataset

Dataset di Addestramento:

BSWR: 8.410 registrazioni PSG (≈67.000 ore), coprendo l'intero spettro dei disturbi del sonno-veglia
Set riservato del dataset NSRR: includendo ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC

Dataset di Valutazione (Zero-Shot):

DOD-H & DOD-O: Adulti sani e pazienti con OSA
DCSM: Dati del Centro Danese di Medicina del Sonno
SEDF-SC & SEDF-ST: Dataset esteso Sleep-EDF
PHYS: Dati della Sfida PhysioNet 2018

Metriche di Valutazione

Punteggio F1 Macro-medio (Macro F1, MF1)
Punteggi F1 per ogni fase del sonno (F1W, F1N1, F1N2, F1N3, F1REM)

Metodi di Confronto

Miglior modello unimodale (ad esempio DeepResNetEEG, U-SleepEEG)
Metodo di ensemble SOMNUS (votazione soft su tutti i canali, modalità e modelli)

Dettagli di Implementazione

Dimensione di embedding: d_model = 24
Numero di teste di attenzione: h = 6 (2 teste per percorso)
Numero di strati dell'encoder: L = 4
Dimensione del batch: B = 8 registrazioni, K = 4 segmenti per registrazione
Accumulo di gradienti: G = 4 propagazioni avanti-indietro
Ottimizzatore: AdamW, tasso di apprendimento η = 10^-3

Risultati Sperimentali

Risultati Principali

Dataset	Modello	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ Indica miglioramento statisticamente significativo nel MF1 rispetto ad altri metodi (α < 0,05)

Risultati Chiave

Miglioramento Coerente: NAP ha raggiunto miglioramenti zero-shot del MF1 sulla maggior parte dei dataset OOD
- DCSM: 0,803 → 0,815
- DOD-H: 0,828 → 0,834
- PHYS: 0,693 → 0,732
- SEDF-SC: 0,734 → 0,752
- SEDF-ST: 0,761 → 0,796
Miglioramento della Fase N1: Il miglioramento del MF1 proviene principalmente dal miglioramento della difficile identificazione della fase N1, con miglioramenti anche nella fase Veglia in alcuni casi
Scenario di Massimo Miglioramento: NAP ha raggiunto i miglioramenti più significativi su dataset dove SOMNUS ha prestazioni relativamente scarse (ad esempio PHYS e SEDF)

Esperimenti di Ablazione

Sebbene l'articolo non presenti esperimenti di ablazione dettagliati, il confronto con la votazione soft semplice (SOMNUS) verifica i vantaggi del meccanismo di attenzione rispetto alla media semplice.

Lavori Correlati

Principali Direzioni di Ricerca

Classificazione Automatica del Sonno: Diversi paradigmi di modellazione utilizzando reti convoluzionali, ricorrenti e di attenzione
Fusione Multimodale: Fusione precoce (fusione di rappresentazioni) vs fusione tardiva (aggregazione di previsioni)
Metodi di Ensemble: Strategie di votazione soft su canali, modalità o modelli

Vantaggi di questo Articolo

Flessibilità: Capacità di gestire un numero arbitrario di modalità, canali e predittori
Modellazione Temporale: Modellazione esplicita delle dipendenze temporali rispetto alla votazione soft a livello di epoca
Meccanismo di Attenzione: Apprendimento di pesi adattivi anziché assumere pesi uguali

Conclusioni e Discussione

Conclusioni Principali

NAP aggrega efficacemente flussi predittivi multimodali attraverso meccanismi di attenzione, raggiungendo prestazioni zero-shot all'avanguardia su più dataset
La fusione tardiva principiata può colmare i divari di prestazione dei metodi esistenti su determinati dataset
Il meccanismo di attenzione tri-assiale è una strategia efficace per gestire relazioni di dipendenza multidimensionali

Limitazioni

Limitazioni Modali: Gli esperimenti attuali considerano solo modalità EEG e EOG, limitati dalla disponibilità di modelli preaddestrati
Dipendenza dal Modello di Base: Le prestazioni sono limitate dalla qualità dei modelli preaddestrati a singolo canale
Sovraccarico Computazionale: Sebbene più efficiente dell'attenzione congiunta, richiede comunque risorse computazionali aggiuntive

Direzioni Future

Estensione Modale: Integrazione di modelli preaddestrati per più segnali fisiologici (EMG, ECG, ecc.)
Fusione Precoce: Adattamento come Neural Aggregator of Representations per fusione a livello di rappresentazione
Applicazioni Cross-Dominio: Estensione ad altre applicazioni di segnali fisiologici che richiedono aggregazione di previsioni multimodali

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Il design del meccanismo di attenzione tri-assiale è innovativo, affrontando efficacemente la modellazione delle dipendenze multidimensionali
Alto Valore Pratico: Affronta l'importante problema dell'eterogeneità dei dati PSG nella pratica clinica
Esperimenti Completi: Valutazione zero-shot completa su più dataset di grandi dimensioni
Metodo Generico: Il framework è estensibile ad altre applicazioni di segnali fisiologici multimodali

Carenze

Analisi Teorica Insufficiente: Mancanza di analisi teorica e analisi della complessità del meccanismo di attenzione tri-assiale
Esperimenti di Ablazione Limitati: Nessuna analisi dettagliata del contributo specifico di ogni componente (attenzione spaziale, temporale, mista)
Copertura Modale Incompleta: Validazione solo su EEG e EOG, mancanza di validazione su altre modalità importanti (EMG, ECG)

Impatto

Contributo Accademico: Fornisce una nuova strategia di fusione per l'elaborazione di segnali fisiologici multimodali
Valore Clinico: Promette di migliorare l'applicabilità pratica e l'accuratezza dei sistemi automatici di classificazione del sonno
Riproducibilità: Fornisce dettagli di implementazione dettagliati, facilitando la riproduzione e l'estensione

Scenari Applicabili

Medicina del Sonno Clinica: Classificazione automatica del sonno in diverse configurazioni ospedaliere e di apparecchiature
Segnali Fisiologici Multimodali: Altre applicazioni mediche che richiedono la fusione di più segnali fisiologici predittivi
Fusione di Dati Eterogenei: Qualsiasi compito di aggregazione di previsioni multimodali con dimensioni variabili

Bibliografia

L'articolo cita importanti lavori nei campi della medicina del sonno, dell'apprendimento profondo e della fusione multimodale, includendo:

Berry et al. (2017): Standard di classificazione del sonno AASM
Perslev et al. (2021): Modello U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Lavoro originale sull'attenzione criss-cross
Zhang et al. (2018, 2024): Risorse dati NSRR

Valutazione Complessiva: Questo è un articolo di machine learning di alta qualità che propone una soluzione innovativa a un problema clinicamente importante. Il design del meccanismo di attenzione tri-assiale è elegante e i risultati sperimentali sono convincenti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e negli esperimenti di ablazione, il suo valore pratico e l'innovazione tecnica lo rendono un contributo importante nel campo dell'elaborazione di segnali fisiologici multimodali.