NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic
NAP: Aufmerksamkeitsbasierte späte Fusion für automatische Schlafstadienklassifikation
Polysomnographische (PSG) Signale weisen eine hohe Heterogenität auf, die sich in der Modalitätszusammensetzung (wie EEG, EOG, ECG), der Kanalverfügbarkeit (wie frontal und okzipital EEG) sowie in den Erfassungsprotokollen verschiedener Datensätze und klinischer Zentren manifestiert. Die meisten bestehenden Modelle zur Verarbeitung von PSG-Daten verlassen sich auf feste Modal- oder Kanaluntersätze und nutzen daher nicht vollständig die inhärenten multimodalen Eigenschaften. Dieser Artikel adressiert diese Einschränkung durch die Einführung von NAP (Neural Aggregator of Predictions), einem aufmerksamkeitsbasierten Modell, das einen dreiachsigen Aufmerksamkeitsmechanismus verwendet, um mehrere Vorhersageströme zu kombinieren und zeitliche, räumliche sowie Prädiktor-Ebenen-Abhängigkeiten zu erfassen. NAP wird trainiert, um sich an unterschiedliche Eingabedimensionen anzupassen. Durch die Aggregation von Ausgaben gefrorener vortrainierter Single-Channel-Modelle übertrifft NAP konsistent einzelne Prädiktoren und einfache Ensemble-Methoden und erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg.
Kernproblem: Heterogenitätsproblem von PSG-Daten, einschließlich unterschiedlicher Modalitätszusammensetzung, Kanalkonfigurationen und Erfassungsprotokolle, wobei bestehende Modelle die multimodalen Eigenschaften nicht vollständig nutzen können.
Bedeutung:
Schlafstadienklassifikation ist der klinische Goldstandard für die Diagnose von Schlaf-Wach-Störungen
Manuelle Schlafstadienklassifikation ist zeitaufwändig und unterliegt subjektiven Verzerrungen
Multimodale Informationen bieten einen umfassenderen Überblick über die Schlafphysiologie und tragen zu einem besseren Verständnis des Patientenzustands bei
Einschränkungen bestehender Methoden:
Die meisten Modelle verlassen sich auf feste Modal- oder Kanaluntersätze
Einfache Soft-Voting-Ensemble-Methoden gehen davon aus, dass Mittelwertbildung eine ausreichende Aggregationsfunktion ist
Behandeln implizit alle Beitragenden als gleich zuverlässig
Arbeiten auf Epoch-Ebene und ignorieren zeitliche Abhängigkeiten
Forschungsmotivation: Entwicklung eines Modells, das flexibel unterschiedliche Eingabedimensionen verarbeiten, mehrere multimodale Vorhersageströme effektiv aggregieren und Modularität bewahren kann.
NAP-Modell: Ein leichtgewichtiges aufmerksamkeitsbasiertes Meta-Modell, das durch explizite Erfassung zeitlicher, räumlicher/Kanal-, Modell- und modalitätsübergreifender Abhängigkeiten lernt, Vorhersagen vortrainierter Single-Channel-Modelle zu aggregieren.
Erweiterung des Cross-Attention-Mechanismus: Verallgemeinerung des Criss-Cross-Aufmerksamkeitsmechanismus von räumlich-zeitlichen Dimensionen zu einem dreiachsigen Aufmerksamkeitsmechanismus als effektive Fusionsstrategie.
Dimensionsadaptives Training: Erweiterung des dimensionsadaptiven Trainings zur dynamischen Stichprobennahme unterschiedlicher Sequenzlängen, Kanalzahlen, Modellzahlen und Modalitätszahlen.
SOTA Zero-Shot-Leistung: Erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg, deutlich besser als einzelne Prädiktoren und einfache Ensemble-Methoden.
Dreiachsiger Aufmerksamkeitsmechanismus: Zerlegung der Aufmerksamkeitsberechnung in räumliche, zeitliche und Prädiktor-Dimensionen, effizienter und gezielter als traditionelle gemeinsame Aufmerksamkeit.
Dynamische Dimensionsadaption: Während des Trainings werden zufällig unterschiedliche Zeitschritte, Modalitätsmengen, Kanalzahlen und Basis-Prädiktoren gesampelt, um die Generalisierungsfähigkeit zu verbessern.
Gradienten-Akkumulationsstrategie: Akkumulation von Gradienten über G verschiedene Batches, um Padding- und Masking-Operationen zu vermeiden und Recheneffizienz zu verbessern.
Konsistente Verbesserungen: NAP erreicht Zero-Shot-MF1-Verbesserungen über die meisten Out-of-Distribution-Datensätze hinweg
DCSM: 0,803 → 0,815
DOD-H: 0,828 → 0,834
PHYS: 0,693 → 0,732
SEDF-SC: 0,734 → 0,752
SEDF-ST: 0,761 → 0,796
N1-Stadiums-Verbesserung: Die MF1-Verbesserung stammt hauptsächlich aus verbesserter Erkennung des schwierigen N1-Stadiums und in einigen Fällen auch verbesserter Wach-Stadiums-Erkennung
Maximale Verbesserungsszenarien: NAP erreicht die größten Verbesserungen auf Datensätzen, auf denen SOMNUS relativ schlecht abschneidet (wie PHYS und SEDF)
Obwohl das Paper keine detaillierten Ablationsstudien enthält, wird durch den Vergleich mit einfachem Soft-Voting (SOMNUS) der Vorteil des Aufmerksamkeitsmechanismus gegenüber einfacher Mittelwertbildung validiert.
NAP aggregiert effektiv multimodale Vorhersageströme durch Aufmerksamkeitsmechanismen und erreicht State-of-the-Art-Leistung bei Zero-Shot-Generalisierung über mehrere Datensätze hinweg
Prinzipielle späte Fusion kann Leistungslücken bestehender Methoden auf einigen Datensätzen schließen
Der dreiachsige Aufmerksamkeitsmechanismus ist eine effektive Strategie zur Behandlung mehrdimensionaler Abhängigkeiten
Modalitätserweiterung: Integration vortrainierter Modelle für weitere physiologische Signale (EMG, ECG usw.)
Frühe Fusion: Anpassung als Neural Aggregator of Representations für Darstellungs-Level-Fusion
Anwendungen über Domänen hinweg: Erweiterung auf andere physiologische Signalverarbeitungsanwendungen, die multimodale Vorhersage-Aggregation erfordern
Hohe Innovativität: Das Design des dreiachsigen Aufmerksamkeitsmechanismus ist neuartig und löst effektiv das Problem der mehrdimensionalen Abhängigkeitsmodellierung
Hoher praktischer Wert: Löst das wichtige Problem der PSG-Datenheterogenität in der klinischen Praxis
Umfassende Experimente: Umfassende Zero-Shot-Evaluierung über mehrere großskalige Datensätze
Generische Methode: Das Framework ist auf andere multimodale physiologische Signalverarbeitungsanwendungen erweiterbar
Das Paper zitiert wichtige Arbeiten in den Bereichen Schlafmedizin, tiefes Lernen und multimodale Fusion, einschließlich:
Berry et al. (2017): AASM-Schlafstadienklassifikationsstandard
Perslev et al. (2021): U-Sleep-Modell
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Originalarbeit zu Criss-Cross-Aufmerksamkeit
Zhang et al. (2018, 2024): NSRR-Datenressourcen
Gesamtbewertung: Dies ist ein hochqualitatives Maschinenlern-Paper, das eine innovative Lösung für ein klinisch wichtiges Problem bietet. Das Design des dreiachsigen Aufmerksamkeitsmechanismus ist elegant, und die experimentellen Ergebnisse sind überzeugend. Obwohl es Raum für Verbesserungen in theoretischer Analyse und Ablationsstudien gibt, machen sein praktischer Wert und technische Innovation es zu einem wichtigen Beitrag im Bereich der multimodalen physiologischen Signalverarbeitung.