2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: Fusion Tardive Basée sur l'Attention pour la Classification Automatique du Sommeil

Informations Fondamentales

ID de l'article: 2511.03488
Titre: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Auteurs: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
Classification: cs.LG (Apprentissage Automatique)
Date de publication: 5 novembre 2025 (préimpression arXiv)
Lien de l'article: https://arxiv.org/abs/2511.03488v1

Résumé

Les signaux de polysomnographie (PSG) présentent une hétérogénéité élevée, avec des variations dans la composition modale (par exemple, EEG, EOG, ECG), la disponibilité des canaux (par exemple, EEG frontal, occipital) et les protocoles d'acquisition entre différents ensembles de données et centres cliniques. Les modèles existants traitant les données PSG multi-modales dépendent généralement d'un sous-ensemble fixe de modalités ou de canaux, ne tirant donc pas pleinement parti de leur nature multi-modale inhérente. Cet article aborde cette limitation en introduisant NAP (Neural Aggregator of Predictions), un modèle basé sur les mécanismes d'attention utilisant une attention tri-axiale pour apprendre à combiner plusieurs flux de prédictions, capturant les dépendances temporelles, spatiales et au niveau des prédicteurs. NAP est entraîné pour s'adapter à différentes dimensions d'entrée. En agrégeant les résultats de modèles préentraînés mono-canal figés, NAP surpasse systématiquement les prédicteurs individuels et les méthodes d'ensemble simples, réalisant des performances de généralisation zéro-shot de pointe sur plusieurs ensembles de données.

Contexte de Recherche et Motivation

Définition du Problème

Problème central: L'hétérogénéité des données PSG, incluant différentes compositions modales, configurations de canaux et protocoles d'acquisition, que les modèles existants ne peuvent pas exploiter pleinement.
Importance:
- La classification du sommeil est l'étalon-or clinique pour diagnostiquer les troubles du sommeil-veille
- La classification manuelle du sommeil est chronophage et sujette à des biais subjectifs
- L'information multi-modale fournit une vue plus complète de la dynamique du sommeil, facilitant une meilleure compréhension de l'état de santé des patients
Limitations des approches existantes:
- La plupart des modèles dépendent d'un sous-ensemble fixe de modalités ou de canaux
- Les méthodes d'ensemble par vote pondéré simple supposent que la moyenne est une fonction d'agrégation suffisante
- Traitent implicitement tous les contributeurs comme également fiables
- Opèrent au niveau des epochs, ignorant les dépendances temporelles
Motivation de la recherche: Développer un modèle basé sur les mécanismes d'attention capable de traiter flexiblement différentes dimensions d'entrée, d'agréger efficacement les flux de prédictions multi-modales et de maintenir une modularité.

Contributions Principales

Proposition du modèle NAP: Un méta-modèle léger basé sur l'attention qui apprend à agréger les prédictions de modèles préentraînés mono-canal en capturant explicitement les dépendances temporelles, spatiales/canal, au niveau du modèle et inter-modales.
Extension du mécanisme d'attention croisée: Généralisation du mécanisme d'attention criss-cross des dimensions spatio-temporelles à un mécanisme d'attention tri-axiale, en tant que stratégie de fusion efficace.
Entraînement adaptatif aux dimensions: Extension de l'entraînement adaptatif aux dimensions pour échantillonner dynamiquement différentes longueurs de séquence, nombres de canaux, nombres de modèles et nombres de modalités.
Performance SOTA zéro-shot: Réalisation de performances de généralisation zéro-shot de pointe sur plusieurs ensembles de données, surpassant significativement les prédicteurs individuels et les méthodes d'ensemble simples.

Détails de la Méthode

Définition de la Tâche

Entrée: Enregistrement PSG X, contenant T epochs de sommeil consécutifs de 30 secondes, chaque epoch associé à M modalités physiologiques
Sortie: Prédiction de la phase de sommeil pour chaque epoch, classée en 5 catégories: {Veille, N1, N2, N3, REM}
Contraintes: Le modèle doit s'adapter à différentes combinaisons de modalités, nombres de canaux et longueurs de séquence

Architecture du Modèle

L'architecture NAP comprend quatre modules principaux:

1. Générateur de Prédictions de Base (Base Predictions Generator)

Pour la modalité mk, le canal cj et le prédicteur de base bℓ, génère une prédiction $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$
Les résultats de prédiction sont projetés linéairement dans un espace de caractéristiques de haute dimension $\mathbb{R}^{d_{model}}$
Génère des hypnodensités (représentation probabiliste des phases de sommeil)

2. Encodeur d'Attention Tri-Axiale (Tri-axial Attention Encoder)

Extension du mécanisme d'attention criss-cross en trois chemins:

Attention spatiale: Calcul de l'attention le long de l'axe des canaux $C_{m_k}$ $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

Attention temporelle: Calcul de l'attention le long de l'axe de la longueur de séquence T

Attention mixte: Calcul de l'attention le long de l'axe des prédicteurs de base $B_{m_k}$

Chaque chemin alloue h/3 têtes d'attention, avec concaténation finale de tous les résultats.

3. Couche de Fusion Modale (Modality Fusion Layer)

Utilisation d'un mécanisme de fusion basé sur l'attention: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

Calcul de la combinaison pondérée: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. Tête de Classification (Classifier Head)

Réseau de neurones à rétropropagation avec une couche cachée unique, entraîné de bout en bout avec une perte d'entropie croisée.

Points Techniques Innovants

Mécanisme d'attention tri-axiale: Décomposition du calcul d'attention en trois dimensions (spatiale, temporelle et prédicteur), plus efficace et ciblée que l'attention conjointe traditionnelle.
Adaptation dynamique aux dimensions: Échantillonnage aléatoire pendant l'entraînement de différents pas de temps, ensembles de modalités, nombres de canaux et prédicteurs de base, améliorant la capacité de généralisation du modèle.
Stratégie d'accumulation de gradients: Accumulation de gradients sur G lots différents, évitant les opérations de remplissage et de masquage, améliorant l'efficacité computationnelle.

Configuration Expérimentale

Ensembles de Données

Ensembles de données d'entraînement:

BSWR: 8 410 enregistrements PSG (≈67 000 heures), couvrant l'ensemble complet du spectre des troubles du sommeil-veille
Ensemble retenu des ensembles de données NSRR: incluant ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC

Ensembles de données d'évaluation (zéro-shot):

DOD-H & DOD-O: Adultes sains et patients atteints d'OSA
DCSM: Données du Centre Danois de Médecine du Sommeil
SEDF-SC & SEDF-ST: Ensembles de données étendus Sleep-EDF
PHYS: Données du défi PhysioNet 2018

Métriques d'Évaluation

Score F1 macro-moyenné (Macro F1, MF1)
Scores F1 pour chaque phase de sommeil (F1W, F1N1, F1N2, F1N3, F1REM)

Méthodes de Comparaison

Meilleur modèle mono-modal (par exemple, DeepResNetEEG, U-SleepEEG)
Méthode d'ensemble SOMNUS (vote pondéré doux sur tous les canaux, modalités et modèles)

Détails d'Implémentation

Dimension d'intégration: dmodel = 24
Nombre de têtes d'attention: h = 6 (2 têtes par chemin)
Nombre de couches d'encodeur: L = 4
Taille de lot: B = 8 enregistrements, chaque enregistrement K = 4 segments
Accumulation de gradients: G = 4 propagations avant-arrière
Optimiseur: AdamW, taux d'apprentissage η = 10^-3

Résultats Expérimentaux

Résultats Principaux

Ensemble de données	Modèle	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ Indique une amélioration statistiquement significative du MF1 par rapport aux autres méthodes (α < 0,05)

Résultats Clés

Amélioration Cohérente: NAP réalise des améliorations du MF1 zéro-shot sur la plupart des ensembles de données hors distribution
- DCSM: 0,803 → 0,815
- DOD-H: 0,828 → 0,834
- PHYS: 0,693 → 0,732
- SEDF-SC: 0,734 → 0,752
- SEDF-ST: 0,761 → 0,796
Amélioration de la Phase N1: L'amélioration du MF1 provient principalement de l'amélioration de la reconnaissance de la phase difficile N1, avec amélioration également de la reconnaissance de la phase Veille dans certains cas
Scénarios d'Amélioration Maximale: NAP réalise les plus grandes améliorations sur les ensembles de données où SOMNUS fonctionne relativement mal (par exemple, PHYS et SEDF)

Études d'Ablation

Bien que l'article ne présente pas d'études d'ablation détaillées, la comparaison avec le vote pondéré simple (SOMNUS) valide l'avantage du mécanisme d'attention par rapport à la moyenne simple.

Travaux Connexes

Domaines de Recherche Principaux

Classification automatique du sommeil: Multiples paradigmes de modélisation utilisant des réseaux convolutifs, récurrents et d'attention
Fusion multi-modale: Fusion précoce (fusion de représentations) vs fusion tardive (agrégation de prédictions)
Méthodes d'ensemble: Stratégies de vote pondéré doux sur les canaux, modalités ou modèles

Avantages de cet Article

Flexibilité: Capacité à traiter un nombre arbitraire de modalités, canaux et prédicteurs
Modélisation temporelle: Modélisation explicite des dépendances temporelles par rapport au vote pondéré au niveau des epochs
Mécanisme d'attention: Apprentissage de poids adaptatifs plutôt que d'assumer des poids égaux

Conclusion et Discussion

Conclusions Principales

NAP agrège efficacement les flux de prédictions multi-modales via des mécanismes d'attention, réalisant des performances zéro-shot de pointe sur plusieurs ensembles de données
La fusion tardive principielle peut combler les écarts de performance des méthodes existantes sur certains ensembles de données
Le mécanisme d'attention tri-axiale est une stratégie efficace pour traiter les relations de dépendance multi-dimensionnelles

Limitations

Limitation modale: Les expériences actuelles ne considèrent que les modalités EEG et EOG, en raison des limitations de disponibilité des modèles préentraînés
Dépendance au modèle de base: Les performances sont limitées par la qualité des modèles mono-canal préentraînés
Surcharge computationnelle: Bien que plus efficace que l'attention conjointe, nécessite toujours des ressources computationnelles supplémentaires

Directions Futures

Extension modale: Intégration de modèles préentraînés pour d'autres signaux physiologiques (EMG, ECG, etc.)
Fusion précoce: Adaptation en tant qu'Agrégateur Neural de Représentations pour la fusion au niveau des représentations
Applications inter-domaines: Extension à d'autres applications de signaux physiologiques nécessitant l'agrégation de prédictions multi-modales

Évaluation Approfondie

Points Forts

Innovation forte: La conception du mécanisme d'attention tri-axiale est novatrice, résolvant efficacement le problème de modélisation des dépendances multi-dimensionnelles
Valeur pratique élevée: Résout un problème important d'hétérogénéité des données PSG dans la pratique clinique
Expérimentation complète: Évaluation zéro-shot complète sur plusieurs ensembles de données à grande échelle
Méthode générique: Le cadre est extensible à d'autres applications de signaux physiologiques multi-modaux

Insuffisances

Analyse théorique insuffisante: Manque d'analyse théorique et d'analyse de complexité du mécanisme d'attention tri-axiale
Études d'ablation limitées: Pas d'analyse détaillée de la contribution spécifique de chaque composant (attention spatiale, temporelle, mixte)
Couverture modale incomplète: Validation uniquement sur EEG et EOG, manque de validation sur d'autres modalités importantes (EMG, ECG)

Impact

Contribution académique: Fournit une nouvelle stratégie de fusion pour le traitement des signaux physiologiques multi-modaux
Valeur clinique: Susceptible d'améliorer la praticité et la précision des systèmes de classification automatique du sommeil
Reproductibilité: Fournit des détails d'implémentation détaillés, facilitant la reproduction et l'extension

Scénarios d'Application

Médecine clinique du sommeil: Classification automatique du sommeil sous différentes configurations d'hôpitaux et d'équipements
Signaux physiologiques multi-modaux: Autres applications médicales nécessitant la fusion de multiples prédictions de signaux physiologiques
Agrégation de prédictions hétérogènes: Toute tâche nécessitant l'agrégation de prédictions multi-modales avec dimensions variables

Références

L'article cite des travaux importants dans les domaines de la médecine du sommeil, de l'apprentissage profond et de la fusion multi-modale, incluant:

Berry et al. (2017): Normes de classification du sommeil de l'AASM
Perslev et al. (2021): Modèle U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Travail original sur l'attention criss-cross
Zhang et al. (2018, 2024): Ressources de données NSRR

Évaluation Globale: Cet article est de haute qualité dans le domaine de l'apprentissage automatique, proposant une solution innovante à un problème cliniquement important. La conception du mécanisme d'attention tri-axiale est ingénieuse et les résultats expérimentaux sont convaincants. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et les études d'ablation, sa valeur pratique et son innovation technique en font une contribution importante au domaine du traitement des signaux physiologiques multi-modaux.