2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: Aufmerksamkeitsbasierte späte Fusion für automatische Schlafstadienklassifikation

Grundinformationen

Paper-ID: 2511.03488
Titel: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Autoren: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
Klassifikation: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 5. November 2025 (arXiv-Preprint)
Paper-Link: https://arxiv.org/abs/2511.03488v1

Zusammenfassung

Polysomnographische (PSG) Signale weisen eine hohe Heterogenität auf, die sich in der Modalitätszusammensetzung (wie EEG, EOG, ECG), der Kanalverfügbarkeit (wie frontal und okzipital EEG) sowie in den Erfassungsprotokollen verschiedener Datensätze und klinischer Zentren manifestiert. Die meisten bestehenden Modelle zur Verarbeitung von PSG-Daten verlassen sich auf feste Modal- oder Kanaluntersätze und nutzen daher nicht vollständig die inhärenten multimodalen Eigenschaften. Dieser Artikel adressiert diese Einschränkung durch die Einführung von NAP (Neural Aggregator of Predictions), einem aufmerksamkeitsbasierten Modell, das einen dreiachsigen Aufmerksamkeitsmechanismus verwendet, um mehrere Vorhersageströme zu kombinieren und zeitliche, räumliche sowie Prädiktor-Ebenen-Abhängigkeiten zu erfassen. NAP wird trainiert, um sich an unterschiedliche Eingabedimensionen anzupassen. Durch die Aggregation von Ausgaben gefrorener vortrainierter Single-Channel-Modelle übertrifft NAP konsistent einzelne Prädiktoren und einfache Ensemble-Methoden und erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg.

Forschungshintergrund und Motivation

Problemdefinition

Kernproblem: Heterogenitätsproblem von PSG-Daten, einschließlich unterschiedlicher Modalitätszusammensetzung, Kanalkonfigurationen und Erfassungsprotokolle, wobei bestehende Modelle die multimodalen Eigenschaften nicht vollständig nutzen können.
Bedeutung:
- Schlafstadienklassifikation ist der klinische Goldstandard für die Diagnose von Schlaf-Wach-Störungen
- Manuelle Schlafstadienklassifikation ist zeitaufwändig und unterliegt subjektiven Verzerrungen
- Multimodale Informationen bieten einen umfassenderen Überblick über die Schlafphysiologie und tragen zu einem besseren Verständnis des Patientenzustands bei
Einschränkungen bestehender Methoden:
- Die meisten Modelle verlassen sich auf feste Modal- oder Kanaluntersätze
- Einfache Soft-Voting-Ensemble-Methoden gehen davon aus, dass Mittelwertbildung eine ausreichende Aggregationsfunktion ist
- Behandeln implizit alle Beitragenden als gleich zuverlässig
- Arbeiten auf Epoch-Ebene und ignorieren zeitliche Abhängigkeiten
Forschungsmotivation: Entwicklung eines Modells, das flexibel unterschiedliche Eingabedimensionen verarbeiten, mehrere multimodale Vorhersageströme effektiv aggregieren und Modularität bewahren kann.

Kernbeiträge

NAP-Modell: Ein leichtgewichtiges aufmerksamkeitsbasiertes Meta-Modell, das durch explizite Erfassung zeitlicher, räumlicher/Kanal-, Modell- und modalitätsübergreifender Abhängigkeiten lernt, Vorhersagen vortrainierter Single-Channel-Modelle zu aggregieren.
Erweiterung des Cross-Attention-Mechanismus: Verallgemeinerung des Criss-Cross-Aufmerksamkeitsmechanismus von räumlich-zeitlichen Dimensionen zu einem dreiachsigen Aufmerksamkeitsmechanismus als effektive Fusionsstrategie.
Dimensionsadaptives Training: Erweiterung des dimensionsadaptiven Trainings zur dynamischen Stichprobennahme unterschiedlicher Sequenzlängen, Kanalzahlen, Modellzahlen und Modalitätszahlen.
SOTA Zero-Shot-Leistung: Erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg, deutlich besser als einzelne Prädiktoren und einfache Ensemble-Methoden.

Methodische Details

Aufgabendefinition

Eingabe: PSG-Aufzeichnung X, bestehend aus T aufeinanderfolgenden 30-Sekunden-Schlaf-Epochs, wobei jede Epoch M physiologische Modalitäten enthält
Ausgabe: Schlafstadienvorhersage für jede Epoch, unterteilt in 5 Kategorien: {Wach, N1, N2, N3, REM}
Einschränkungen: Das Modell muss sich an unterschiedliche Modalitätskombinationen, Kanalzahlen und Sequenzlängen anpassen

Modellarchitektur

Die NAP-Architektur besteht aus vier Hauptmodulen:

1. Basis-Vorhersage-Generator

Für Modalität mk, Kanal cj und Basis-Prädiktor bℓ wird eine Vorhersage $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$ generiert
Vorhersageergebnisse werden linear in einen hochdimensionalen Merkmalsraum $\mathbb{R}^{d_{model}}$ projiziert
Generiert Hypnodichten (Wahrscheinlichkeitsdarstellungen von Schlafstadien)

2. Dreiachsiger Aufmerksamkeits-Encoder

Erweiterung der Criss-Cross-Aufmerksamkeit auf drei Pfade:

Räumliche Aufmerksamkeit: Aufmerksamkeitsberechnung entlang der Kanalachse $C_{m_k}$ $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

Zeitliche Aufmerksamkeit: Aufmerksamkeitsberechnung entlang der Sequenzlängenachse T

Hybrid-Aufmerksamkeit: Aufmerksamkeitsberechnung entlang der Basis-Prädiktor-Achse $B_{m_k}$

Jedem Pfad werden h/3 Aufmerksamkeitsköpfe zugeordnet, wobei alle Pfadausgaben abschließend verkettet werden.

3. Modalitäts-Fusionsschicht

Verwendung eines aufmerksamkeitsbasierten Fusionsmechanismus: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

Berechnung der gewichteten Kombination: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. Klassifikator-Kopf

Feedforward-Netzwerk mit einer verborgenen Schicht, trainiert mit Cross-Entropy-Verlust end-to-end.

Technische Innovationen

Dreiachsiger Aufmerksamkeitsmechanismus: Zerlegung der Aufmerksamkeitsberechnung in räumliche, zeitliche und Prädiktor-Dimensionen, effizienter und gezielter als traditionelle gemeinsame Aufmerksamkeit.
Dynamische Dimensionsadaption: Während des Trainings werden zufällig unterschiedliche Zeitschritte, Modalitätsmengen, Kanalzahlen und Basis-Prädiktoren gesampelt, um die Generalisierungsfähigkeit zu verbessern.
Gradienten-Akkumulationsstrategie: Akkumulation von Gradienten über G verschiedene Batches, um Padding- und Masking-Operationen zu vermeiden und Recheneffizienz zu verbessern.

Experimentelle Einrichtung

Datensätze

Trainingsdatensätze:

BSWR: 8.410 PSG-Aufzeichnungen (≈67.000 Stunden), abdeckend das vollständige Spektrum von Schlaf-Wach-Störungen
Zurückgehaltene Sätze von NSRR-Datensätzen: einschließlich ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC und weitere

Evaluationsdatensätze (Zero-Shot):

DOD-H & DOD-O: Gesunde Erwachsene und OSA-Patienten
DCSM: Dänisches Schlafmedizin-Zentrum-Daten
SEDF-SC & SEDF-ST: Sleep-EDF-Erweiterungsdatensätze
PHYS: PhysioNet-Challenge-2018-Daten

Bewertungsmetriken

Makro-durchschnittlicher F1-Score (Macro F1, MF1)
F1-Scores für jedes Schlafstadium (F1W, F1N1, F1N2, F1N3, F1REM)

Vergleichsmethoden

Beste Single-Modalitäts-Modelle (wie DeepResNetEEG, U-SleepEEG)
SOMNUS-Ensemble-Methode (Soft-Voting über alle Kanäle, Modalitäten und Modelle)

Implementierungsdetails

Einbettungsdimension: dmodel = 24
Anzahl der Aufmerksamkeitsköpfe: h = 6 (2 Köpfe pro Pfad)
Anzahl der Encoder-Schichten: L = 4
Batch-Größe: B = 8 Aufzeichnungen, jede mit K = 4 Segmenten
Gradienten-Akkumulation: G = 4 Forward-Backward-Durchläufe
Optimierer: AdamW, Lernrate η = 10^-3

Experimentelle Ergebnisse

Hauptergebnisse

Datensatz	Modell	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ Zeigt statistisch signifikante Verbesserung des MF1 gegenüber anderen Methoden an (α < 0,05)

Wichtigste Erkenntnisse

Konsistente Verbesserungen: NAP erreicht Zero-Shot-MF1-Verbesserungen über die meisten Out-of-Distribution-Datensätze hinweg
- DCSM: 0,803 → 0,815
- DOD-H: 0,828 → 0,834
- PHYS: 0,693 → 0,732
- SEDF-SC: 0,734 → 0,752
- SEDF-ST: 0,761 → 0,796
N1-Stadiums-Verbesserung: Die MF1-Verbesserung stammt hauptsächlich aus verbesserter Erkennung des schwierigen N1-Stadiums und in einigen Fällen auch verbesserter Wach-Stadiums-Erkennung
Maximale Verbesserungsszenarien: NAP erreicht die größten Verbesserungen auf Datensätzen, auf denen SOMNUS relativ schlecht abschneidet (wie PHYS und SEDF)

Ablationsstudien

Obwohl das Paper keine detaillierten Ablationsstudien enthält, wird durch den Vergleich mit einfachem Soft-Voting (SOMNUS) der Vorteil des Aufmerksamkeitsmechanismus gegenüber einfacher Mittelwertbildung validiert.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

NAP aggregiert effektiv multimodale Vorhersageströme durch Aufmerksamkeitsmechanismen und erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg
Prinzipielle späte Fusion kann Leistungslücken bestehender Methoden auf einigen Datensätzen schließen
Der dreiachsige Aufmerksamkeitsmechanismus ist eine effektive Strategie zur Behandlung mehrdimensionaler Abhängigkeiten

Einschränkungen

Modalitätsbeschränkung: Aktuelle Experimente berücksichtigen nur EEG- und EOG-Modalitäten aufgrund der Verfügbarkeit vortrainierter Modelle
Abhängigkeit von Basis-Modellen: Die Leistung ist durch die Qualität vortrainierter Single-Channel-Modelle begrenzt
Rechenaufwand: Obwohl effizienter als gemeinsame Aufmerksamkeit, erfordert dennoch zusätzliche Rechenressourcen

Zukünftige Richtungen

Modalitätserweiterung: Integration vortrainierter Modelle für weitere physiologische Signale (EMG, ECG usw.)
Frühe Fusion: Anpassung als Neural Aggregator of Representations für Darstellungs-Level-Fusion
Anwendungen über Domänen hinweg: Erweiterung auf andere physiologische Signalverarbeitungsanwendungen, die multimodale Vorhersage-Aggregation erfordern

Tiefgreifende Bewertung

Stärken

Hohe Innovativität: Das Design des dreiachsigen Aufmerksamkeitsmechanismus ist neuartig und löst effektiv das Problem der mehrdimensionalen Abhängigkeitsmodellierung
Hoher praktischer Wert: Löst das wichtige Problem der PSG-Datenheterogenität in der klinischen Praxis
Umfassende Experimente: Umfassende Zero-Shot-Evaluierung über mehrere großskalige Datensätze
Generische Methode: Das Framework ist auf andere multimodale physiologische Signalverarbeitungsanwendungen erweiterbar

Schwächen

Unzureichende theoretische Analyse: Mangel an theoretischer Analyse und Komplexitätsanalyse des dreiachsigen Aufmerksamkeitsmechanismus
Begrenzte Ablationsstudien: Keine detaillierte Analyse der spezifischen Beiträge einzelner Komponenten (räumliche, zeitliche, Hybrid-Aufmerksamkeit)
Unvollständige Modalitätsabdeckung: Nur EEG und EOG validiert, fehlende Validierung anderer wichtiger Modalitäten (EMG, ECG)

Auswirkungen

Akademischer Beitrag: Bietet neue Fusionsstrategien für multimodale physiologische Signalverarbeitung
Klinischer Wert: Verspricht Verbesserung der Praktikabilität und Genauigkeit automatischer Schlafstadienklassifikationssysteme
Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails für einfache Reproduktion und Erweiterung

Anwendungsszenarien

Klinische Schlafmedizin: Automatische Schlafstadienklassifikation unter verschiedenen Krankenhaus- und Gerätekonfigurationen
Multimodale physiologische Signale: Andere medizinische Anwendungen, die Fusion mehrerer physiologischer Signalvorhersagen erfordern
Heterogene Datenfusion: Beliebige Aufgaben, die Aggregation multimodaler Vorhersagen mit variabler Dimensionalität erfordern

Referenzen

Das Paper zitiert wichtige Arbeiten in den Bereichen Schlafmedizin, tiefes Lernen und multimodale Fusion, einschließlich:

Berry et al. (2017): AASM-Schlafstadienklassifikationsstandard
Perslev et al. (2021): U-Sleep-Modell
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Originalarbeit zu Criss-Cross-Aufmerksamkeit
Zhang et al. (2018, 2024): NSRR-Datenressourcen

Gesamtbewertung: Dies ist ein hochqualitatives Maschinenlern-Paper, das eine innovative Lösung für ein klinisch wichtiges Problem bietet. Das Design des dreiachsigen Aufmerksamkeitsmechanismus ist elegant, und die experimentellen Ergebnisse sind überzeugend. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Ablationsstudien gibt, machen sein praktischer Wert und technische Innovation es zu einem wichtigen Beitrag im Bereich der multimodalen physiologischen Signalverarbeitung.