NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic
NAP: Fusion Tardive Basée sur l'Attention pour la Classification Automatique du Sommeil
Les signaux de polysomnographie (PSG) présentent une hétérogénéité élevée, avec des variations dans la composition modale (par exemple, EEG, EOG, ECG), la disponibilité des canaux (par exemple, EEG frontal, occipital) et les protocoles d'acquisition entre différents ensembles de données et centres cliniques. Les modèles existants traitant les données PSG multi-modales dépendent généralement d'un sous-ensemble fixe de modalités ou de canaux, ne tirant donc pas pleinement parti de leur nature multi-modale inhérente. Cet article aborde cette limitation en introduisant NAP (Neural Aggregator of Predictions), un modèle basé sur les mécanismes d'attention utilisant une attention tri-axiale pour apprendre à combiner plusieurs flux de prédictions, capturant les dépendances temporelles, spatiales et au niveau des prédicteurs. NAP est entraîné pour s'adapter à différentes dimensions d'entrée. En agrégeant les résultats de modèles préentraînés mono-canal figés, NAP surpasse systématiquement les prédicteurs individuels et les méthodes d'ensemble simples, réalisant des performances de généralisation zéro-shot de pointe sur plusieurs ensembles de données.
Problème central: L'hétérogénéité des données PSG, incluant différentes compositions modales, configurations de canaux et protocoles d'acquisition, que les modèles existants ne peuvent pas exploiter pleinement.
Importance:
La classification du sommeil est l'étalon-or clinique pour diagnostiquer les troubles du sommeil-veille
La classification manuelle du sommeil est chronophage et sujette à des biais subjectifs
L'information multi-modale fournit une vue plus complète de la dynamique du sommeil, facilitant une meilleure compréhension de l'état de santé des patients
Limitations des approches existantes:
La plupart des modèles dépendent d'un sous-ensemble fixe de modalités ou de canaux
Les méthodes d'ensemble par vote pondéré simple supposent que la moyenne est une fonction d'agrégation suffisante
Traitent implicitement tous les contributeurs comme également fiables
Opèrent au niveau des epochs, ignorant les dépendances temporelles
Motivation de la recherche: Développer un modèle basé sur les mécanismes d'attention capable de traiter flexiblement différentes dimensions d'entrée, d'agréger efficacement les flux de prédictions multi-modales et de maintenir une modularité.
Proposition du modèle NAP: Un méta-modèle léger basé sur l'attention qui apprend à agréger les prédictions de modèles préentraînés mono-canal en capturant explicitement les dépendances temporelles, spatiales/canal, au niveau du modèle et inter-modales.
Extension du mécanisme d'attention croisée: Généralisation du mécanisme d'attention criss-cross des dimensions spatio-temporelles à un mécanisme d'attention tri-axiale, en tant que stratégie de fusion efficace.
Entraînement adaptatif aux dimensions: Extension de l'entraînement adaptatif aux dimensions pour échantillonner dynamiquement différentes longueurs de séquence, nombres de canaux, nombres de modèles et nombres de modalités.
Performance SOTA zéro-shot: Réalisation de performances de généralisation zéro-shot de pointe sur plusieurs ensembles de données, surpassant significativement les prédicteurs individuels et les méthodes d'ensemble simples.
Mécanisme d'attention tri-axiale: Décomposition du calcul d'attention en trois dimensions (spatiale, temporelle et prédicteur), plus efficace et ciblée que l'attention conjointe traditionnelle.
Adaptation dynamique aux dimensions: Échantillonnage aléatoire pendant l'entraînement de différents pas de temps, ensembles de modalités, nombres de canaux et prédicteurs de base, améliorant la capacité de généralisation du modèle.
Stratégie d'accumulation de gradients: Accumulation de gradients sur G lots différents, évitant les opérations de remplissage et de masquage, améliorant l'efficacité computationnelle.
Amélioration Cohérente: NAP réalise des améliorations du MF1 zéro-shot sur la plupart des ensembles de données hors distribution
DCSM: 0,803 → 0,815
DOD-H: 0,828 → 0,834
PHYS: 0,693 → 0,732
SEDF-SC: 0,734 → 0,752
SEDF-ST: 0,761 → 0,796
Amélioration de la Phase N1: L'amélioration du MF1 provient principalement de l'amélioration de la reconnaissance de la phase difficile N1, avec amélioration également de la reconnaissance de la phase Veille dans certains cas
Scénarios d'Amélioration Maximale: NAP réalise les plus grandes améliorations sur les ensembles de données où SOMNUS fonctionne relativement mal (par exemple, PHYS et SEDF)
Bien que l'article ne présente pas d'études d'ablation détaillées, la comparaison avec le vote pondéré simple (SOMNUS) valide l'avantage du mécanisme d'attention par rapport à la moyenne simple.
NAP agrège efficacement les flux de prédictions multi-modales via des mécanismes d'attention, réalisant des performances zéro-shot de pointe sur plusieurs ensembles de données
La fusion tardive principielle peut combler les écarts de performance des méthodes existantes sur certains ensembles de données
Le mécanisme d'attention tri-axiale est une stratégie efficace pour traiter les relations de dépendance multi-dimensionnelles
Limitation modale: Les expériences actuelles ne considèrent que les modalités EEG et EOG, en raison des limitations de disponibilité des modèles préentraînés
Dépendance au modèle de base: Les performances sont limitées par la qualité des modèles mono-canal préentraînés
Surcharge computationnelle: Bien que plus efficace que l'attention conjointe, nécessite toujours des ressources computationnelles supplémentaires
Innovation forte: La conception du mécanisme d'attention tri-axiale est novatrice, résolvant efficacement le problème de modélisation des dépendances multi-dimensionnelles
Valeur pratique élevée: Résout un problème important d'hétérogénéité des données PSG dans la pratique clinique
Expérimentation complète: Évaluation zéro-shot complète sur plusieurs ensembles de données à grande échelle
Méthode générique: Le cadre est extensible à d'autres applications de signaux physiologiques multi-modaux
L'article cite des travaux importants dans les domaines de la médecine du sommeil, de l'apprentissage profond et de la fusion multi-modale, incluant:
Berry et al. (2017): Normes de classification du sommeil de l'AASM
Perslev et al. (2021): Modèle U-Sleep
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Travail original sur l'attention criss-cross
Zhang et al. (2018, 2024): Ressources de données NSRR
Évaluation Globale: Cet article est de haute qualité dans le domaine de l'apprentissage automatique, proposant une solution innovante à un problème cliniquement important. La conception du mécanisme d'attention tri-axiale est ingénieuse et les résultats expérimentaux sont convaincants. Bien qu'il y ait de la place pour l'amélioration dans l'analyse théorique et les études d'ablation, sa valeur pratique et son innovation technique en font une contribution importante au domaine du traitement des signaux physiologiques multi-modaux.