2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

基本信息

  • 论文ID: 2511.03488
  • 标题: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
  • 作者: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
  • 分类: cs.LG (Machine Learning)
  • 发表时间: 2025年11月5日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2511.03488v1

摘要

多导睡眠监测(PSG)信号具有高度异质性,在模态组成(如EEG、EOG、ECG)、通道可用性(如额叶、枕叶EEG)以及不同数据集和临床中心的采集协议方面存在差异。现有处理多导睡眠监测数据的模型大多依赖固定的模态或通道子集,因此未能充分利用其固有的多模态特性。本文通过引入NAP(Neural Aggregator of Predictions)来解决这一局限性,这是一个基于注意力机制的模型,使用三轴注意力机制学习组合多个预测流,捕获时间、空间和预测器级别的依赖关系。NAP经过训练以适应不同的输入维度。通过聚合来自冻结的预训练单通道模型的输出,NAP始终优于单个预测器和简单集成方法,在多个数据集上实现了最先进的零样本泛化性能。

研究背景与动机

问题定义

  1. 核心问题: 多导睡眠监测(PSG)数据的异质性问题,包括不同的模态组成、通道配置和采集协议,现有模型无法充分利用其多模态特性。
  2. 重要性:
    • 睡眠分期是诊断睡眠-觉醒障碍的临床金标准
    • 手动睡眠分期耗时且存在主观偏差
    • 多模态信息提供更全面的睡眠动态视图,有助于更好地了解患者健康状况
  3. 现有方法局限性:
    • 大多数模型依赖固定的模态或通道子集
    • 简单的软投票集成方法假设平均化是充分的聚合函数
    • 隐式地将所有贡献者视为同等可靠
    • 在epoch级别操作,忽略了时间依赖性
  4. 研究动机: 开发一个能够灵活处理不同输入维度、有效聚合多模态预测流并保持模块化的注意力机制模型。

核心贡献

  1. 提出NAP模型: 一个轻量级的基于注意力的元模型,通过显式捕获时间、空间/通道、模型级别和跨模态依赖关系来学习聚合预训练单通道模型的预测。
  2. 扩展交叉注意力机制: 将criss-cross注意力机制从时空维度泛化为三轴注意力机制,作为有效的融合策略。
  3. 维度自适应训练: 扩展维度自适应训练以动态采样不同的序列长度、通道数、模型数和模态数。
  4. SOTA零样本性能: 在多个数据集上实现最先进的零样本泛化性能,显著优于个体预测器和简单集成方法。

方法详解

任务定义

  • 输入: PSG记录X,包含T个连续的30秒睡眠epochs,每个epoch关联M个生理模态
  • 输出: 每个epoch的睡眠阶段预测,分为5个类别:{Wake, N1, N2, N3, REM}
  • 约束: 模型需要适应不同的模态组合、通道数量和序列长度

模型架构

NAP架构包含四个主要模块:

1. 基础预测生成器(Base Predictions Generator)

  • 对于模态mk、通道cj和基础预测器bℓ,生成预测h^(mk,cj,b),tR5\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5
  • 预测结果线性投影到高维特征空间Rdmodel\mathbb{R}^{d_{model}}
  • 生成hypnodensities(睡眠阶段的概率表示)

2. 三轴注意力编码器(Tri-axial Attention Encoder)

将criss-cross注意力扩展为三个路径:

空间注意力: 沿通道轴CmkC_{m_k}进行注意力计算 Zs(i)=Softmax(LN(Qs(i))LN(Ks(i))Tdk)Vs(i)Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}

时间注意力: 沿序列长度轴T进行注意力计算

混合注意力: 沿基础预测器轴BmkB_{m_k}进行注意力计算

每个路径分配h/3个注意力头,最终连接所有路径输出。

3. 模态融合层(Modality Fusion Layer)

使用基于注意力的融合机制: αt,n=exp(tanh(WAxt,n+bA)TuA)j=1Nexp(tanh(WAxt,j+bA)TuA)\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}

计算加权组合:z^t=n=1Nαt,nz~t,n\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}

4. 分类器头(Classifier Head)

单隐藏层前馈网络,使用交叉熵损失进行端到端训练。

技术创新点

  1. 三轴注意力机制: 将注意力计算分解为空间、时间和预测器三个维度,比传统的联合注意力更高效且有针对性。
  2. 动态维度适应: 训练时随机采样不同的时间步数、模态集合、通道数和基础预测器,提高模型的泛化能力。
  3. 梯度累积策略: 在G个不同批次上累积梯度,避免填充和掩码操作,提高计算效率。

实验设置

数据集

训练数据集:

  • BSWR: 8,410个PSG记录(≈67,000小时),涵盖完整的睡眠-觉醒障碍谱
  • NSRR数据集的保留集:包括ABC、APOE、APPLES、CCSHS、CFS、CHAT、HOMEPAP、MESA、MNC、MROS、MSP、NCHSDB、SHHS、SOF、WSC等

评估数据集(零样本):

  • DOD-H & DOD-O: 健康成人和OSA患者
  • DCSM: 丹麦睡眠医学中心数据
  • SEDF-SC & SEDF-ST: Sleep-EDF扩展数据集
  • PHYS: PhysioNet挑战赛2018数据

评价指标

  • 宏平均F1分数(Macro F1, MF1)
  • 各睡眠阶段的F1分数(F1W, F1N1, F1N2, F1N3, F1REM)

对比方法

  • 最佳单模态模型(如DeepResNetEEG、U-SleepEEG)
  • SOMNUS集成方法(跨所有通道、模态和模型的软投票)

实现细节

  • 嵌入维度: dmodel = 24
  • 注意力头数: h = 6(每个路径2个头)
  • 编码器层数: L = 4
  • 批次大小: B = 8个记录,每个记录K = 4个段
  • 梯度累积: G = 4个前向-后向传播
  • 优化器: AdamW,学习率η = 10^-3

实验结果

主要结果

数据集模型MF1F1WF1N1F1N2F1N3F1REM
BSWRDeepResNetEEG.695(.120).828(.143).397(.172).793(.148).629(.270).848(.180)
SOMNUS.708(.120).836(.141).404(.178).804(.146).696(.280).864(.173)
NAP.749(.117)‡.856(.132).533(.164).809(.146).705(.260).864(.172)
DCSMSOMNUS.803(.084).983(.023).505(.153).858(.097).783(.202).891(.146)
NAP.815(.081)‡.986(.020).550(.143).848(.103).802(.190).893(.145)

‡ 表示相对其他方法在MF1上有统计显著性改善(α < 0.05)

关键发现

  1. 一致性改善: NAP在大多数OOD数据集上都实现了零样本MF1提升
    • DCSM: 0.803 → 0.815
    • DOD-H: 0.828 → 0.834
    • PHYS: 0.693 → 0.732
    • SEDF-SC: 0.734 → 0.752
    • SEDF-ST: 0.761 → 0.796
  2. N1阶段改善: MF1改善主要来自对困难的N1阶段识别的改善,在某些情况下还改善了Wake阶段的识别
  3. 最大改善场景: 在SOMNUS表现相对较差的数据集(如PHYS和SEDF)上,NAP取得了最大的改善

消融实验

虽然论文没有详细的消融实验,但通过与简单软投票(SOMNUS)的对比,验证了注意力机制相比简单平均的优势。

相关工作

主要研究方向

  1. 自动睡眠分期: 使用卷积、循环和注意力网络的多种建模范式
  2. 多模态融合: 早期融合(表示融合)vs 晚期融合(预测聚合)
  3. 集成方法: 跨通道、模态或模型的软投票策略

本文优势

  1. 灵活性: 能够处理任意数量的模态、通道和预测器
  2. 时间建模: 相比epoch级别的软投票,显式建模时间依赖性
  3. 注意力机制: 学习自适应权重而非假设等权重

结论与讨论

主要结论

  1. NAP通过注意力机制有效聚合多模态预测流,在多个数据集上实现SOTA零样本性能
  2. 原则性的晚期融合可以弥合现有方法在某些数据集上的性能差距
  3. 三轴注意力机制是处理多维度依赖关系的有效策略

局限性

  1. 模态限制: 当前实验仅考虑EEG和EOG模态,由于预训练模型的可用性限制
  2. 基础模型依赖: 性能受限于预训练单通道模型的质量
  3. 计算开销: 虽然相比联合注意力更高效,但仍需要额外的计算资源

未来方向

  1. 扩展模态: 集成更多生理信号(EMG、ECG等)的预训练模型
  2. 早期融合: 适配为Neural Aggregator of Representations进行表示级融合
  3. 跨领域应用: 扩展到其他需要多模态预测聚合的生理信号应用

深度评价

优点

  1. 创新性强: 三轴注意力机制的设计新颖,有效解决了多维度依赖建模问题
  2. 实用价值高: 解决了临床实际中PSG数据异质性的重要问题
  3. 实验充分: 在多个大规模数据集上进行了全面的零样本评估
  4. 方法通用: 框架可扩展到其他多模态生理信号应用

不足

  1. 理论分析不足: 缺乏对三轴注意力机制的理论分析和复杂度分析
  2. 消融实验有限: 没有详细分析各个组件(空间、时间、混合注意力)的具体贡献
  3. 模态覆盖不全: 仅验证了EEG和EOG,缺乏对其他重要模态(EMG、ECG)的验证

影响力

  1. 学术贡献: 为多模态生理信号处理提供了新的融合策略
  2. 临床价值: 有望提高自动睡眠分期系统的实用性和准确性
  3. 可复现性: 提供了详细的实现细节,便于复现和扩展

适用场景

  1. 临床睡眠医学: 不同医院和设备配置下的自动睡眠分期
  2. 多模态生理信号: 其他需要融合多种生理信号预测的医疗应用
  3. 异构数据融合: 任何需要处理维度可变的多模态预测聚合任务

参考文献

论文引用了睡眠医学、深度学习和多模态融合领域的重要工作,包括:

  • Berry et al. (2017): AASM睡眠分期标准
  • Perslev et al. (2021): U-Sleep模型
  • Phan et al. (2022): SleepTransformer
  • Huang et al. (2019): Criss-cross attention原始工作
  • Zhang et al. (2018, 2024): NSRR数据资源

总体评价: 这是一篇高质量的机器学习论文,针对临床重要问题提出了创新的解决方案。三轴注意力机制的设计巧妙,实验结果令人信服。虽然在理论分析和消融实验方面还有改进空间,但其实用价值和技术创新使其成为多模态生理信号处理领域的重要贡献。