2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

基本信息

论文ID: 2511.03488
标题: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
作者: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
分类: cs.LG (Machine Learning)
发表时间: 2025年11月5日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2511.03488v1

摘要

多导睡眠监测(PSG)信号具有高度异质性，在模态组成(如EEG、EOG、ECG)、通道可用性(如额叶、枕叶EEG)以及不同数据集和临床中心的采集协议方面存在差异。现有处理多导睡眠监测数据的模型大多依赖固定的模态或通道子集，因此未能充分利用其固有的多模态特性。本文通过引入NAP(Neural Aggregator of Predictions)来解决这一局限性，这是一个基于注意力机制的模型，使用三轴注意力机制学习组合多个预测流，捕获时间、空间和预测器级别的依赖关系。NAP经过训练以适应不同的输入维度。通过聚合来自冻结的预训练单通道模型的输出，NAP始终优于单个预测器和简单集成方法，在多个数据集上实现了最先进的零样本泛化性能。

研究背景与动机

问题定义

核心问题: 多导睡眠监测(PSG)数据的异质性问题，包括不同的模态组成、通道配置和采集协议，现有模型无法充分利用其多模态特性。
重要性:
- 睡眠分期是诊断睡眠-觉醒障碍的临床金标准
- 手动睡眠分期耗时且存在主观偏差
- 多模态信息提供更全面的睡眠动态视图，有助于更好地了解患者健康状况
现有方法局限性:
- 大多数模型依赖固定的模态或通道子集
- 简单的软投票集成方法假设平均化是充分的聚合函数
- 隐式地将所有贡献者视为同等可靠
- 在epoch级别操作，忽略了时间依赖性
研究动机: 开发一个能够灵活处理不同输入维度、有效聚合多模态预测流并保持模块化的注意力机制模型。

核心贡献

提出NAP模型: 一个轻量级的基于注意力的元模型，通过显式捕获时间、空间/通道、模型级别和跨模态依赖关系来学习聚合预训练单通道模型的预测。
扩展交叉注意力机制: 将criss-cross注意力机制从时空维度泛化为三轴注意力机制，作为有效的融合策略。
维度自适应训练: 扩展维度自适应训练以动态采样不同的序列长度、通道数、模型数和模态数。
SOTA零样本性能: 在多个数据集上实现最先进的零样本泛化性能，显著优于个体预测器和简单集成方法。

方法详解

任务定义

输入: PSG记录X，包含T个连续的30秒睡眠epochs，每个epoch关联M个生理模态
输出: 每个epoch的睡眠阶段预测，分为5个类别：{Wake, N1, N2, N3, REM}
约束: 模型需要适应不同的模态组合、通道数量和序列长度

模型架构

NAP架构包含四个主要模块：

1. 基础预测生成器(Base Predictions Generator)

对于模态mk、通道cj和基础预测器bℓ，生成预测 $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$
预测结果线性投影到高维特征空间 $\mathbb{R}^{d_{model}}$
生成hypnodensities(睡眠阶段的概率表示)

2. 三轴注意力编码器(Tri-axial Attention Encoder)

将criss-cross注意力扩展为三个路径：

空间注意力: 沿通道轴 $C_{m_k}$ 进行注意力计算 $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

时间注意力: 沿序列长度轴T进行注意力计算

混合注意力: 沿基础预测器轴 $B_{m_k}$ 进行注意力计算

每个路径分配h/3个注意力头，最终连接所有路径输出。

3. 模态融合层(Modality Fusion Layer)

使用基于注意力的融合机制： $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

计算加权组合： $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. 分类器头(Classifier Head)

单隐藏层前馈网络，使用交叉熵损失进行端到端训练。

技术创新点

三轴注意力机制: 将注意力计算分解为空间、时间和预测器三个维度，比传统的联合注意力更高效且有针对性。
动态维度适应: 训练时随机采样不同的时间步数、模态集合、通道数和基础预测器，提高模型的泛化能力。
梯度累积策略: 在G个不同批次上累积梯度，避免填充和掩码操作，提高计算效率。

实验设置

数据集

训练数据集:

BSWR: 8,410个PSG记录(≈67,000小时)，涵盖完整的睡眠-觉醒障碍谱
NSRR数据集的保留集：包括ABC、APOE、APPLES、CCSHS、CFS、CHAT、HOMEPAP、MESA、MNC、MROS、MSP、NCHSDB、SHHS、SOF、WSC等

评估数据集(零样本):

DOD-H & DOD-O: 健康成人和OSA患者
DCSM: 丹麦睡眠医学中心数据
SEDF-SC & SEDF-ST: Sleep-EDF扩展数据集
PHYS: PhysioNet挑战赛2018数据

评价指标

宏平均F1分数(Macro F1, MF1)
各睡眠阶段的F1分数(F1W, F1N1, F1N2, F1N3, F1REM)

对比方法

最佳单模态模型(如DeepResNetEEG、U-SleepEEG)
SOMNUS集成方法(跨所有通道、模态和模型的软投票)

实现细节

嵌入维度: dmodel = 24
注意力头数: h = 6(每个路径2个头)
编码器层数: L = 4
批次大小: B = 8个记录，每个记录K = 4个段
梯度累积: G = 4个前向-后向传播
优化器: AdamW，学习率η = 10^-3

实验结果

主要结果

数据集	模型	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ 表示相对其他方法在MF1上有统计显著性改善(α < 0.05)

关键发现

一致性改善: NAP在大多数OOD数据集上都实现了零样本MF1提升
- DCSM: 0.803 → 0.815
- DOD-H: 0.828 → 0.834
- PHYS: 0.693 → 0.732
- SEDF-SC: 0.734 → 0.752
- SEDF-ST: 0.761 → 0.796
N1阶段改善: MF1改善主要来自对困难的N1阶段识别的改善，在某些情况下还改善了Wake阶段的识别
最大改善场景: 在SOMNUS表现相对较差的数据集(如PHYS和SEDF)上，NAP取得了最大的改善