2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic

NAP: Fusione Tardiva Basata su Attenzione per la Classificazione Automatica del Sonno

Informazioni Fondamentali

  • ID Articolo: 2511.03488
  • Titolo: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
  • Autori: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 5 novembre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2511.03488v1

Abstract

I segnali della polisonnografia (PSG) presentano un'elevata eterogeneità nelle modalità (ad esempio EEG, EOG, ECG), nella disponibilità dei canali (ad esempio EEG frontale, occipitale) e nei protocolli di acquisizione tra diversi dataset e centri clinici. I modelli esistenti per l'elaborazione dei dati PSG si affidano principalmente a sottoinsiemi fissi di modalità o canali, non sfruttando pienamente la natura multimodale intrinseca. Questo articolo affronta questa limitazione introducendo NAP (Neural Aggregator of Predictions), un modello basato su meccanismi di attenzione che utilizza attenzione tri-assiale per apprendere la combinazione di più flussi predittivi, catturando dipendenze temporali, spaziali e a livello di predittore. NAP è addestrato per adattarsi a diverse dimensioni di input. Aggregando gli output da modelli preaddestrati a singolo canale congelati, NAP supera costantemente i singoli predittori e i metodi di ensemble semplici, raggiungendo prestazioni di generalizzazione zero-shot all'avanguardia su più dataset.

Contesto di Ricerca e Motivazione

Definizione del Problema

  1. Problema Centrale: L'eterogeneità dei dati PSG, includendo diverse composizioni modali, configurazioni di canali e protocolli di acquisizione, con modelli esistenti incapaci di sfruttare pienamente le caratteristiche multimodali.
  2. Importanza:
    • La classificazione del sonno è lo standard di riferimento clinico per la diagnosi di disturbi del sonno-veglia
    • La classificazione manuale del sonno è dispendiosa in termini di tempo e soggetta a distorsioni
    • Le informazioni multimodali forniscono una visione più completa della dinamica del sonno, facilitando una migliore comprensione dello stato di salute del paziente
  3. Limitazioni dei Metodi Esistenti:
    • La maggior parte dei modelli si affida a sottoinsiemi fissi di modalità o canali
    • I metodi di ensemble con votazione soft semplice assumono che la media sia una funzione di aggregazione sufficiente
    • Trattano implicitamente tutti i contributori come ugualmente affidabili
    • Operano a livello di epoca, ignorando le dipendenze temporali
  4. Motivazione della Ricerca: Sviluppare un modello con meccanismo di attenzione che possa gestire flessibilmente diverse dimensioni di input, aggregare efficacemente flussi predittivi multimodali e mantenere modularità.

Contributi Principali

  1. Proposta del Modello NAP: Un meta-modello leggero basato su attenzione che apprende ad aggregare le previsioni da modelli preaddestrati a singolo canale catturando esplicitamente dipendenze temporali, spaziali/canali, a livello di modello e cross-modali.
  2. Estensione del Meccanismo di Attenzione Incrociata: Generalizzazione del meccanismo di attenzione criss-cross dalle dimensioni spazio-temporali a un meccanismo di attenzione tri-assiale come strategia di fusione efficace.
  3. Addestramento Adattivo alle Dimensioni: Estensione dell'addestramento adattivo alle dimensioni per campionare dinamicamente diverse lunghezze di sequenza, numero di canali, numero di modelli e numero di modalità.
  4. Prestazioni SOTA Zero-Shot: Raggiungimento di prestazioni di generalizzazione zero-shot all'avanguardia su più dataset, significativamente superiori ai singoli predittori e ai metodi di ensemble semplici.

Dettagli del Metodo

Definizione del Compito

  • Input: Registrazione PSG X, contenente T epoche consecutive di sonno di 30 secondi, ciascuna associata a M modalità fisiologiche
  • Output: Previsione della fase del sonno per ogni epoca, classificata in 5 categorie: {Veglia, N1, N2, N3, REM}
  • Vincoli: Il modello deve adattarsi a diverse combinazioni di modalità, numero di canali e lunghezze di sequenza

Architettura del Modello

L'architettura NAP contiene quattro moduli principali:

1. Generatore di Previsioni di Base (Base Predictions Generator)

  • Per la modalità m_k, il canale c_j e il predittore di base b_ℓ, genera previsioni h^(mk,cj,b),tR5\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5
  • I risultati delle previsioni sono proiettati linearmente in uno spazio di caratteristiche ad alta dimensione Rdmodel\mathbb{R}^{d_{model}}
  • Genera ipnodensità (rappresentazioni probabilistiche delle fasi del sonno)

2. Codificatore di Attenzione Tri-Assiale (Tri-axial Attention Encoder)

Estensione dell'attenzione criss-cross in tre percorsi:

Attenzione Spaziale: Calcolo dell'attenzione lungo l'asse dei canali CmkC_{m_k}Zs(i)=Softmax(LN(Qs(i))LN(Ks(i))Tdk)Vs(i)Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}

Attenzione Temporale: Calcolo dell'attenzione lungo l'asse della lunghezza della sequenza T

Attenzione Mista: Calcolo dell'attenzione lungo l'asse dei predittori di base BmkB_{m_k}

Ogni percorso alloca h/3 teste di attenzione, con concatenazione finale di tutti gli output dei percorsi.

3. Strato di Fusione Modale (Modality Fusion Layer)

Utilizzo di un meccanismo di fusione basato su attenzione: αt,n=exp(tanh(WAxt,n+bA)TuA)j=1Nexp(tanh(WAxt,j+bA)TuA)\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}

Calcolo della combinazione ponderata: z^t=n=1Nαt,nz~t,n\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}

4. Testa di Classificazione (Classifier Head)

Rete feedforward con singolo strato nascosto, addestrata end-to-end utilizzando perdita di entropia incrociata.

Punti di Innovazione Tecnica

  1. Meccanismo di Attenzione Tri-Assiale: Decomposizione del calcolo dell'attenzione in tre dimensioni (spaziale, temporale e predittore), più efficiente e mirato rispetto all'attenzione congiunta tradizionale.
  2. Adattamento Dinamico delle Dimensioni: Campionamento casuale durante l'addestramento di diversi passi temporali, insiemi di modalità, numero di canali e predittori di base per migliorare la capacità di generalizzazione.
  3. Strategia di Accumulo dei Gradienti: Accumulo dei gradienti su G batch diversi, evitando operazioni di padding e mascheramento, migliorando l'efficienza computazionale.

Configurazione Sperimentale

Dataset

Dataset di Addestramento:

  • BSWR: 8.410 registrazioni PSG (≈67.000 ore), coprendo l'intero spettro dei disturbi del sonno-veglia
  • Set riservato del dataset NSRR: includendo ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC

Dataset di Valutazione (Zero-Shot):

  • DOD-H & DOD-O: Adulti sani e pazienti con OSA
  • DCSM: Dati del Centro Danese di Medicina del Sonno
  • SEDF-SC & SEDF-ST: Dataset esteso Sleep-EDF
  • PHYS: Dati della Sfida PhysioNet 2018

Metriche di Valutazione

  • Punteggio F1 Macro-medio (Macro F1, MF1)
  • Punteggi F1 per ogni fase del sonno (F1W, F1N1, F1N2, F1N3, F1REM)

Metodi di Confronto

  • Miglior modello unimodale (ad esempio DeepResNetEEG, U-SleepEEG)
  • Metodo di ensemble SOMNUS (votazione soft su tutti i canali, modalità e modelli)

Dettagli di Implementazione

  • Dimensione di embedding: d_model = 24
  • Numero di teste di attenzione: h = 6 (2 teste per percorso)
  • Numero di strati dell'encoder: L = 4
  • Dimensione del batch: B = 8 registrazioni, K = 4 segmenti per registrazione
  • Accumulo di gradienti: G = 4 propagazioni avanti-indietro
  • Ottimizzatore: AdamW, tasso di apprendimento η = 10^-3

Risultati Sperimentali

Risultati Principali

DatasetModelloMF1F1WF1N1F1N2F1N3F1REM
BSWRDeepResNetEEG.695(.120).828(.143).397(.172).793(.148).629(.270).848(.180)
SOMNUS.708(.120).836(.141).404(.178).804(.146).696(.280).864(.173)
NAP.749(.117)‡.856(.132).533(.164).809(.146).705(.260).864(.172)
DCSMSOMNUS.803(.084).983(.023).505(.153).858(.097).783(.202).891(.146)
NAP.815(.081)‡.986(.020).550(.143).848(.103).802(.190).893(.145)

‡ Indica miglioramento statisticamente significativo nel MF1 rispetto ad altri metodi (α < 0,05)

Risultati Chiave

  1. Miglioramento Coerente: NAP ha raggiunto miglioramenti zero-shot del MF1 sulla maggior parte dei dataset OOD
    • DCSM: 0,803 → 0,815
    • DOD-H: 0,828 → 0,834
    • PHYS: 0,693 → 0,732
    • SEDF-SC: 0,734 → 0,752
    • SEDF-ST: 0,761 → 0,796
  2. Miglioramento della Fase N1: Il miglioramento del MF1 proviene principalmente dal miglioramento della difficile identificazione della fase N1, con miglioramenti anche nella fase Veglia in alcuni casi
  3. Scenario di Massimo Miglioramento: NAP ha raggiunto i miglioramenti più significativi su dataset dove SOMNUS ha prestazioni relativamente scarse (ad esempio PHYS e SEDF)

Esperimenti di Ablazione

Sebbene l'articolo non presenti esperimenti di ablazione dettagliati, il confronto con la votazione soft semplice (SOMNUS) verifica i vantaggi del meccanismo di attenzione rispetto alla media semplice.

Lavori Correlati

Principali Direzioni di Ricerca

  1. Classificazione Automatica del Sonno: Diversi paradigmi di modellazione utilizzando reti convoluzionali, ricorrenti e di attenzione
  2. Fusione Multimodale: Fusione precoce (fusione di rappresentazioni) vs fusione tardiva (aggregazione di previsioni)
  3. Metodi di Ensemble: Strategie di votazione soft su canali, modalità o modelli

Vantaggi di questo Articolo

  1. Flessibilità: Capacità di gestire un numero arbitrario di modalità, canali e predittori
  2. Modellazione Temporale: Modellazione esplicita delle dipendenze temporali rispetto alla votazione soft a livello di epoca
  3. Meccanismo di Attenzione: Apprendimento di pesi adattivi anziché assumere pesi uguali

Conclusioni e Discussione

Conclusioni Principali

  1. NAP aggrega efficacemente flussi predittivi multimodali attraverso meccanismi di attenzione, raggiungendo prestazioni zero-shot all'avanguardia su più dataset
  2. La fusione tardiva principiata può colmare i divari di prestazione dei metodi esistenti su determinati dataset
  3. Il meccanismo di attenzione tri-assiale è una strategia efficace per gestire relazioni di dipendenza multidimensionali

Limitazioni

  1. Limitazioni Modali: Gli esperimenti attuali considerano solo modalità EEG e EOG, limitati dalla disponibilità di modelli preaddestrati
  2. Dipendenza dal Modello di Base: Le prestazioni sono limitate dalla qualità dei modelli preaddestrati a singolo canale
  3. Sovraccarico Computazionale: Sebbene più efficiente dell'attenzione congiunta, richiede comunque risorse computazionali aggiuntive

Direzioni Future

  1. Estensione Modale: Integrazione di modelli preaddestrati per più segnali fisiologici (EMG, ECG, ecc.)
  2. Fusione Precoce: Adattamento come Neural Aggregator of Representations per fusione a livello di rappresentazione
  3. Applicazioni Cross-Dominio: Estensione ad altre applicazioni di segnali fisiologici che richiedono aggregazione di previsioni multimodali

Valutazione Approfondita

Punti di Forza

  1. Forte Innovazione: Il design del meccanismo di attenzione tri-assiale è innovativo, affrontando efficacemente la modellazione delle dipendenze multidimensionali
  2. Alto Valore Pratico: Affronta l'importante problema dell'eterogeneità dei dati PSG nella pratica clinica
  3. Esperimenti Completi: Valutazione zero-shot completa su più dataset di grandi dimensioni
  4. Metodo Generico: Il framework è estensibile ad altre applicazioni di segnali fisiologici multimodali

Carenze

  1. Analisi Teorica Insufficiente: Mancanza di analisi teorica e analisi della complessità del meccanismo di attenzione tri-assiale
  2. Esperimenti di Ablazione Limitati: Nessuna analisi dettagliata del contributo specifico di ogni componente (attenzione spaziale, temporale, mista)
  3. Copertura Modale Incompleta: Validazione solo su EEG e EOG, mancanza di validazione su altre modalità importanti (EMG, ECG)

Impatto

  1. Contributo Accademico: Fornisce una nuova strategia di fusione per l'elaborazione di segnali fisiologici multimodali
  2. Valore Clinico: Promette di migliorare l'applicabilità pratica e l'accuratezza dei sistemi automatici di classificazione del sonno
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati, facilitando la riproduzione e l'estensione

Scenari Applicabili

  1. Medicina del Sonno Clinica: Classificazione automatica del sonno in diverse configurazioni ospedaliere e di apparecchiature
  2. Segnali Fisiologici Multimodali: Altre applicazioni mediche che richiedono la fusione di più segnali fisiologici predittivi
  3. Fusione di Dati Eterogenei: Qualsiasi compito di aggregazione di previsioni multimodali con dimensioni variabili

Bibliografia

L'articolo cita importanti lavori nei campi della medicina del sonno, dell'apprendimento profondo e della fusione multimodale, includendo:

  • Berry et al. (2017): Standard di classificazione del sonno AASM
  • Perslev et al. (2021): Modello U-Sleep
  • Phan et al. (2022): SleepTransformer
  • Huang et al. (2019): Lavoro originale sull'attenzione criss-cross
  • Zhang et al. (2018, 2024): Risorse dati NSRR

Valutazione Complessiva: Questo è un articolo di machine learning di alta qualità che propone una soluzione innovativa a un problema clinicamente importante. Il design del meccanismo di attenzione tri-assiale è elegante e i risultati sperimentali sono convincenti. Sebbene vi sia spazio per miglioramenti nell'analisi teorica e negli esperimenti di ablazione, il suo valore pratico e l'innovazione tecnica lo rendono un contributo importante nel campo dell'elaborazione di segnali fisiologici multimodali.