2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic

NAP: Aufmerksamkeitsbasierte späte Fusion für automatische Schlafstadienklassifikation

Grundinformationen

  • Paper-ID: 2511.03488
  • Titel: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
  • Autoren: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
  • Klassifikation: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 5. November 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2511.03488v1

Zusammenfassung

Polysomnographische (PSG) Signale weisen eine hohe Heterogenität auf, die sich in der Modalitätszusammensetzung (wie EEG, EOG, ECG), der Kanalverfügbarkeit (wie frontal und okzipital EEG) sowie in den Erfassungsprotokollen verschiedener Datensätze und klinischer Zentren manifestiert. Die meisten bestehenden Modelle zur Verarbeitung von PSG-Daten verlassen sich auf feste Modal- oder Kanaluntersätze und nutzen daher nicht vollständig die inhärenten multimodalen Eigenschaften. Dieser Artikel adressiert diese Einschränkung durch die Einführung von NAP (Neural Aggregator of Predictions), einem aufmerksamkeitsbasierten Modell, das einen dreiachsigen Aufmerksamkeitsmechanismus verwendet, um mehrere Vorhersageströme zu kombinieren und zeitliche, räumliche sowie Prädiktor-Ebenen-Abhängigkeiten zu erfassen. NAP wird trainiert, um sich an unterschiedliche Eingabedimensionen anzupassen. Durch die Aggregation von Ausgaben gefrorener vortrainierter Single-Channel-Modelle übertrifft NAP konsistent einzelne Prädiktoren und einfache Ensemble-Methoden und erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg.

Forschungshintergrund und Motivation

Problemdefinition

  1. Kernproblem: Heterogenitätsproblem von PSG-Daten, einschließlich unterschiedlicher Modalitätszusammensetzung, Kanalkonfigurationen und Erfassungsprotokolle, wobei bestehende Modelle die multimodalen Eigenschaften nicht vollständig nutzen können.
  2. Bedeutung:
    • Schlafstadienklassifikation ist der klinische Goldstandard für die Diagnose von Schlaf-Wach-Störungen
    • Manuelle Schlafstadienklassifikation ist zeitaufwändig und unterliegt subjektiven Verzerrungen
    • Multimodale Informationen bieten einen umfassenderen Überblick über die Schlafphysiologie und tragen zu einem besseren Verständnis des Patientenzustands bei
  3. Einschränkungen bestehender Methoden:
    • Die meisten Modelle verlassen sich auf feste Modal- oder Kanaluntersätze
    • Einfache Soft-Voting-Ensemble-Methoden gehen davon aus, dass Mittelwertbildung eine ausreichende Aggregationsfunktion ist
    • Behandeln implizit alle Beitragenden als gleich zuverlässig
    • Arbeiten auf Epoch-Ebene und ignorieren zeitliche Abhängigkeiten
  4. Forschungsmotivation: Entwicklung eines Modells, das flexibel unterschiedliche Eingabedimensionen verarbeiten, mehrere multimodale Vorhersageströme effektiv aggregieren und Modularität bewahren kann.

Kernbeiträge

  1. NAP-Modell: Ein leichtgewichtiges aufmerksamkeitsbasiertes Meta-Modell, das durch explizite Erfassung zeitlicher, räumlicher/Kanal-, Modell- und modalitätsübergreifender Abhängigkeiten lernt, Vorhersagen vortrainierter Single-Channel-Modelle zu aggregieren.
  2. Erweiterung des Cross-Attention-Mechanismus: Verallgemeinerung des Criss-Cross-Aufmerksamkeitsmechanismus von räumlich-zeitlichen Dimensionen zu einem dreiachsigen Aufmerksamkeitsmechanismus als effektive Fusionsstrategie.
  3. Dimensionsadaptives Training: Erweiterung des dimensionsadaptiven Trainings zur dynamischen Stichprobennahme unterschiedlicher Sequenzlängen, Kanalzahlen, Modellzahlen und Modalitätszahlen.
  4. SOTA Zero-Shot-Leistung: Erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg, deutlich besser als einzelne Prädiktoren und einfache Ensemble-Methoden.

Methodische Details

Aufgabendefinition

  • Eingabe: PSG-Aufzeichnung X, bestehend aus T aufeinanderfolgenden 30-Sekunden-Schlaf-Epochs, wobei jede Epoch M physiologische Modalitäten enthält
  • Ausgabe: Schlafstadienvorhersage für jede Epoch, unterteilt in 5 Kategorien: {Wach, N1, N2, N3, REM}
  • Einschränkungen: Das Modell muss sich an unterschiedliche Modalitätskombinationen, Kanalzahlen und Sequenzlängen anpassen

Modellarchitektur

Die NAP-Architektur besteht aus vier Hauptmodulen:

1. Basis-Vorhersage-Generator

  • Für Modalität mk, Kanal cj und Basis-Prädiktor bℓ wird eine Vorhersage h^(mk,cj,b),tR5\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5 generiert
  • Vorhersageergebnisse werden linear in einen hochdimensionalen Merkmalsraum Rdmodel\mathbb{R}^{d_{model}} projiziert
  • Generiert Hypnodichten (Wahrscheinlichkeitsdarstellungen von Schlafstadien)

2. Dreiachsiger Aufmerksamkeits-Encoder

Erweiterung der Criss-Cross-Aufmerksamkeit auf drei Pfade:

Räumliche Aufmerksamkeit: Aufmerksamkeitsberechnung entlang der Kanalachse CmkC_{m_k}Zs(i)=Softmax(LN(Qs(i))LN(Ks(i))Tdk)Vs(i)Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}

Zeitliche Aufmerksamkeit: Aufmerksamkeitsberechnung entlang der Sequenzlängenachse T

Hybrid-Aufmerksamkeit: Aufmerksamkeitsberechnung entlang der Basis-Prädiktor-Achse BmkB_{m_k}

Jedem Pfad werden h/3 Aufmerksamkeitsköpfe zugeordnet, wobei alle Pfadausgaben abschließend verkettet werden.

3. Modalitäts-Fusionsschicht

Verwendung eines aufmerksamkeitsbasierten Fusionsmechanismus: αt,n=exp(tanh(WAxt,n+bA)TuA)j=1Nexp(tanh(WAxt,j+bA)TuA)\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}

Berechnung der gewichteten Kombination: z^t=n=1Nαt,nz~t,n\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}

4. Klassifikator-Kopf

Feedforward-Netzwerk mit einer verborgenen Schicht, trainiert mit Cross-Entropy-Verlust end-to-end.

Technische Innovationen

  1. Dreiachsiger Aufmerksamkeitsmechanismus: Zerlegung der Aufmerksamkeitsberechnung in räumliche, zeitliche und Prädiktor-Dimensionen, effizienter und gezielter als traditionelle gemeinsame Aufmerksamkeit.
  2. Dynamische Dimensionsadaption: Während des Trainings werden zufällig unterschiedliche Zeitschritte, Modalitätsmengen, Kanalzahlen und Basis-Prädiktoren gesampelt, um die Generalisierungsfähigkeit zu verbessern.
  3. Gradienten-Akkumulationsstrategie: Akkumulation von Gradienten über G verschiedene Batches, um Padding- und Masking-Operationen zu vermeiden und Recheneffizienz zu verbessern.

Experimentelle Einrichtung

Datensätze

Trainingsdatensätze:

  • BSWR: 8.410 PSG-Aufzeichnungen (≈67.000 Stunden), abdeckend das vollständige Spektrum von Schlaf-Wach-Störungen
  • Zurückgehaltene Sätze von NSRR-Datensätzen: einschließlich ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC und weitere

Evaluationsdatensätze (Zero-Shot):

  • DOD-H & DOD-O: Gesunde Erwachsene und OSA-Patienten
  • DCSM: Dänisches Schlafmedizin-Zentrum-Daten
  • SEDF-SC & SEDF-ST: Sleep-EDF-Erweiterungsdatensätze
  • PHYS: PhysioNet-Challenge-2018-Daten

Bewertungsmetriken

  • Makro-durchschnittlicher F1-Score (Macro F1, MF1)
  • F1-Scores für jedes Schlafstadium (F1W, F1N1, F1N2, F1N3, F1REM)

Vergleichsmethoden

  • Beste Single-Modalitäts-Modelle (wie DeepResNetEEG, U-SleepEEG)
  • SOMNUS-Ensemble-Methode (Soft-Voting über alle Kanäle, Modalitäten und Modelle)

Implementierungsdetails

  • Einbettungsdimension: dmodel = 24
  • Anzahl der Aufmerksamkeitsköpfe: h = 6 (2 Köpfe pro Pfad)
  • Anzahl der Encoder-Schichten: L = 4
  • Batch-Größe: B = 8 Aufzeichnungen, jede mit K = 4 Segmenten
  • Gradienten-Akkumulation: G = 4 Forward-Backward-Durchläufe
  • Optimierer: AdamW, Lernrate η = 10^-3

Experimentelle Ergebnisse

Hauptergebnisse

DatensatzModellMF1F1WF1N1F1N2F1N3F1REM
BSWRDeepResNetEEG.695(.120).828(.143).397(.172).793(.148).629(.270).848(.180)
SOMNUS.708(.120).836(.141).404(.178).804(.146).696(.280).864(.173)
NAP.749(.117)‡.856(.132).533(.164).809(.146).705(.260).864(.172)
DCSMSOMNUS.803(.084).983(.023).505(.153).858(.097).783(.202).891(.146)
NAP.815(.081)‡.986(.020).550(.143).848(.103).802(.190).893(.145)

‡ Zeigt statistisch signifikante Verbesserung des MF1 gegenüber anderen Methoden an (α < 0,05)

Wichtigste Erkenntnisse

  1. Konsistente Verbesserungen: NAP erreicht Zero-Shot-MF1-Verbesserungen über die meisten Out-of-Distribution-Datensätze hinweg
    • DCSM: 0,803 → 0,815
    • DOD-H: 0,828 → 0,834
    • PHYS: 0,693 → 0,732
    • SEDF-SC: 0,734 → 0,752
    • SEDF-ST: 0,761 → 0,796
  2. N1-Stadiums-Verbesserung: Die MF1-Verbesserung stammt hauptsächlich aus verbesserter Erkennung des schwierigen N1-Stadiums und in einigen Fällen auch verbesserter Wach-Stadiums-Erkennung
  3. Maximale Verbesserungsszenarien: NAP erreicht die größten Verbesserungen auf Datensätzen, auf denen SOMNUS relativ schlecht abschneidet (wie PHYS und SEDF)

Ablationsstudien

Obwohl das Paper keine detaillierten Ablationsstudien enthält, wird durch den Vergleich mit einfachem Soft-Voting (SOMNUS) der Vorteil des Aufmerksamkeitsmechanismus gegenüber einfacher Mittelwertbildung validiert.

Verwandte Arbeiten

Hauptforschungsrichtungen

  1. Automatische Schlafstadienklassifikation: Mehrere Modellierungsparadigmen unter Verwendung von Faltungs-, rekurrenten und Aufmerksamkeitsnetzwerken
  2. Multimodale Fusion: Frühe Fusion (Darstellungsfusion) vs. späte Fusion (Vorhersage-Aggregation)
  3. Ensemble-Methoden: Soft-Voting-Strategien über Kanäle, Modalitäten oder Modelle

Vorteile dieses Papers

  1. Flexibilität: Kann beliebige Anzahlen von Modalitäten, Kanälen und Prädiktoren verarbeiten
  2. Zeitliche Modellierung: Explizite Modellierung zeitlicher Abhängigkeiten im Vergleich zu Epoch-Level-Soft-Voting
  3. Aufmerksamkeitsmechanismus: Lernt adaptive Gewichte statt Annahme gleicher Gewichte

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. NAP aggregiert effektiv multimodale Vorhersageströme durch Aufmerksamkeitsmechanismen und erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg
  2. Prinzipielle späte Fusion kann Leistungslücken bestehender Methoden auf einigen Datensätzen schließen
  3. Der dreiachsige Aufmerksamkeitsmechanismus ist eine effektive Strategie zur Behandlung mehrdimensionaler Abhängigkeiten

Einschränkungen

  1. Modalitätsbeschränkung: Aktuelle Experimente berücksichtigen nur EEG- und EOG-Modalitäten aufgrund der Verfügbarkeit vortrainierter Modelle
  2. Abhängigkeit von Basis-Modellen: Die Leistung ist durch die Qualität vortrainierter Single-Channel-Modelle begrenzt
  3. Rechenaufwand: Obwohl effizienter als gemeinsame Aufmerksamkeit, erfordert dennoch zusätzliche Rechenressourcen

Zukünftige Richtungen

  1. Modalitätserweiterung: Integration vortrainierter Modelle für weitere physiologische Signale (EMG, ECG usw.)
  2. Frühe Fusion: Anpassung als Neural Aggregator of Representations für Darstellungs-Level-Fusion
  3. Anwendungen über Domänen hinweg: Erweiterung auf andere physiologische Signalverarbeitungsanwendungen, die multimodale Vorhersage-Aggregation erfordern

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Das Design des dreiachsigen Aufmerksamkeitsmechanismus ist neuartig und löst effektiv das Problem der mehrdimensionalen Abhängigkeitsmodellierung
  2. Hoher praktischer Wert: Löst das wichtige Problem der PSG-Datenheterogenität in der klinischen Praxis
  3. Umfassende Experimente: Umfassende Zero-Shot-Evaluierung über mehrere großskalige Datensätze
  4. Generische Methode: Das Framework ist auf andere multimodale physiologische Signalverarbeitungsanwendungen erweiterbar

Schwächen

  1. Unzureichende theoretische Analyse: Mangel an theoretischer Analyse und Komplexitätsanalyse des dreiachsigen Aufmerksamkeitsmechanismus
  2. Begrenzte Ablationsstudien: Keine detaillierte Analyse der spezifischen Beiträge einzelner Komponenten (räumliche, zeitliche, Hybrid-Aufmerksamkeit)
  3. Unvollständige Modalitätsabdeckung: Nur EEG und EOG validiert, fehlende Validierung anderer wichtiger Modalitäten (EMG, ECG)

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Fusionsstrategien für multimodale physiologische Signalverarbeitung
  2. Klinischer Wert: Verspricht Verbesserung der Praktikabilität und Genauigkeit automatischer Schlafstadienklassifikationssysteme
  3. Reproduzierbarkeit: Bietet detaillierte Implementierungsdetails für einfache Reproduktion und Erweiterung

Anwendungsszenarien

  1. Klinische Schlafmedizin: Automatische Schlafstadienklassifikation unter verschiedenen Krankenhaus- und Gerätekonfigurationen
  2. Multimodale physiologische Signale: Andere medizinische Anwendungen, die Fusion mehrerer physiologischer Signalvorhersagen erfordern
  3. Heterogene Datenfusion: Beliebige Aufgaben, die Aggregation multimodaler Vorhersagen mit variabler Dimensionalität erfordern

Referenzen

Das Paper zitiert wichtige Arbeiten in den Bereichen Schlafmedizin, tiefes Lernen und multimodale Fusion, einschließlich:

  • Berry et al. (2017): AASM-Schlafstadienklassifikationsstandard
  • Perslev et al. (2021): U-Sleep-Modell
  • Phan et al. (2022): SleepTransformer
  • Huang et al. (2019): Originalarbeit zu Criss-Cross-Aufmerksamkeit
  • Zhang et al. (2018, 2024): NSRR-Datenressourcen

Gesamtbewertung: Dies ist ein hochqualitatives Maschinenlern-Paper, das eine innovative Lösung für ein klinisch wichtiges Problem bietet. Das Design des dreiachsigen Aufmerksamkeitsmechanismus ist elegant, und die experimentellen Ergebnisse sind überzeugend. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Ablationsstudien gibt, machen sein praktischer Wert und technische Innovation es zu einem wichtigen Beitrag im Bereich der multimodalen physiologischen Signalverarbeitung.