2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: 注意機構に基づく遅延融合による自動睡眠段階分類

基本情報

論文ID: 2511.03488
タイトル: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
著者: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
分類: cs.LG（機械学習）
発表日: 2025年11月5日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2511.03488v1

要約

多導睡眠ポリグラフ検査（PSG）信号は高度に異質であり、モダリティ構成（EEG、EOG、ECGなど）、チャネル可用性（前頭葉、後頭葉EEGなど）、および異なるデータセットと臨床センターの取得プロトコルにおいて差異が存在する。多導睡眠ポリグラフ検査データを処理する既存モデルの大多数は、固定されたモダリティまたはチャネルのサブセットに依存しているため、その固有の多モダリティ特性を十分に活用できていない。本論文では、NAP（Neural Aggregator of Predictions）を導入することでこの制限に対処する。これは注意機構に基づくモデルであり、三軸注意機構を使用して複数の予測ストリームを組み合わせることを学習し、時間的、空間的、および予測器レベルの依存関係を捉える。NAPは異なる入力次元に適応するように訓練される。凍結された事前学習済み単一チャネルモデルからの出力を集約することにより、NAPは一貫して個別の予測器と単純なアンサンブル方法を上回り、複数のデータセットにおいて最先端のゼロショット汎化性能を実現する。

研究背景と動機

問題定義

核心問題: 異なるモダリティ構成、チャネル構成、取得プロトコルを含む多導睡眠ポリグラフ検査データの異質性問題。既存モデルはその多モダリティ特性を十分に活用できない。
重要性:
- 睡眠段階分類は睡眠覚醒障害の診断における臨床的ゴールドスタンダード
- 手動睡眠段階分類は時間がかかり、主観的バイアスが存在する
- 多モダリティ情報は睡眠ダイナミクスのより包括的な見方を提供し、患者の健康状態をより良く理解するのに役立つ
既存方法の制限:
- ほとんどのモデルは固定されたモダリティまたはチャネルのサブセットに依存している
- 単純なソフト投票アンサンブル方法は、平均化が十分な集約関数であると仮定している
- 暗黙的にすべての寄与者を同等の信頼性を持つものとして扱う
- エポックレベルで動作し、時間的依存性を無視している
研究動機: 異なる入力次元を柔軟に処理でき、多モダリティ予測ストリームを効果的に集約し、モジュール性を維持できる注意機構ベースのモデルを開発する。

核心的貢献

NAPモデルの提案: 時間的、空間的/チャネル、モデルレベル、およびクロスモダリティ依存関係を明示的に捉えることにより、事前学習済み単一チャネルモデルの予測を集約することを学習する軽量な注意ベースのメタモデル。
クロスクロス注意機構の拡張: クロスクロス注意機構を時空間次元から三軸注意機構に一般化し、効果的な融合戦略として機能させる。
次元適応訓練: 異なるシーケンス長、チャネル数、モデル数、およびモダリティ数を動的にサンプリングするために、次元適応訓練を拡張する。
SOTA ゼロショット性能: 複数のデータセットにおいて最先端のゼロショット汎化性能を実現し、個別予測器と単純なアンサンブル方法を大幅に上回る。

方法の詳細

タスク定義

入力: PSG記録X。T個の連続した30秒睡眠エポックを含み、各エポックはM個の生理的モダリティに関連付けられている
出力: 各エポックの睡眠段階予測。5つのカテゴリに分類：{覚醒、N1、N2、N3、REM}
制約: モデルは異なるモダリティの組み合わせ、チャネル数、およびシーケンス長に適応する必要がある

モデルアーキテクチャ

NAPアーキテクチャは4つの主要なモジュールで構成される：

1. 基本予測生成器（Base Predictions Generator）

モダリティmk、チャネルcj、および基本予測器bℓに対して、予測 $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$ を生成
予測結果を高次元特徴空間 $\mathbb{R}^{d_{model}}$ に線形投影
ハイプノデンシティ（睡眠段階の確率表現）を生成

2. 三軸注意エンコーダ（Tri-axial Attention Encoder）

クロスクロス注意を3つのパスに拡張：

空間注意: チャネル軸 $C_{m_k}$ に沿った注意計算 $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

時間注意: シーケンス長軸Tに沿った注意計算

混合注意: 基本予測器軸 $B_{m_k}$ に沿った注意計算

各パスにh/3個の注意ヘッドを割り当て、最終的にすべてのパス出力を連結する。

3. モダリティ融合層（Modality Fusion Layer）

注意ベースの融合機構を使用： $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

加重組み合わせを計算： $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. 分類器ヘッド（Classifier Head）

単一隠れ層フィードフォワードネットワーク。交差エントロピー損失を使用したエンドツーエンド訓練。

技術的革新点

三軸注意機構: 注意計算を空間、時間、予測器の3つの次元に分解。従来の結合注意よりも効率的で的を絞った方法。
動的次元適応: 訓練時に異なるタイムステップ数、モダリティセット、チャネル数、基本予測器をランダムにサンプリング。モデルの汎化能力を向上させる。
勾配累積戦略: G個の異なるバッチにわたって勾配を累積。パディングとマスク操作を回避し、計算効率を向上させる。

実験設定

データセット

訓練データセット:

BSWR: 8,410個のPSG記録（≈67,000時間）。睡眠覚醒障害の完全なスペクトラムをカバー
NSRRデータセットの保持セット：ABC、APOE、APPLES、CCSHS、CFS、CHAT、HOMEPAP、MESA、MNC、MROS、MSP、NCHSDB、SHHS、SOF、WSCを含む

評価データセット（ゼロショット）:

DOD-H & DOD-O: 健康成人とOSA患者
DCSM: デンマーク睡眠医学センターデータ
SEDF-SC & SEDF-ST: Sleep-EDF拡張データセット
PHYS: PhysioNetチャレンジ2018データ

評価指標

マクロ平均F1スコア（Macro F1、MF1）
各睡眠段階のF1スコア（F1W、F1N1、F1N2、F1N3、F1REM）

比較方法

最良の単一モダリティモデル（DeepResNetEEG、U-SleepEEGなど）
SOMNUSアンサンブル方法（すべてのチャネル、モダリティ、モデルにわたるソフト投票）

実装詳細

埋め込み次元: dmodel = 24
注意ヘッド数: h = 6（各パスあたり2ヘッド）
エンコーダ層数: L = 4
バッチサイズ: B = 8レコード、各レコードK = 4セグメント
勾配累積: G = 4フォワード-バックワード伝播
オプティマイザ: AdamW、学習率η = 10^-3

実験結果

主要結果

データセット	モデル	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ は他の方法と比較してMF1で統計的に有意な改善を示す（α < 0.05）

主要な知見

一貫した改善: NAPはほとんどのOODデータセットでゼロショットMF1改善を実現
- DCSM: 0.803 → 0.815
- DOD-H: 0.828 → 0.834
- PHYS: 0.693 → 0.732
- SEDF-SC: 0.734 → 0.752
- SEDF-ST: 0.761 → 0.796
N1段階の改善: MF1改善は主に困難なN1段階認識の改善に由来し、場合によっては覚醒段階の認識も改善
最大改善シナリオ: SOMNUSが相対的に性能が低いデータセット（PHYSおよびSEDFなど）でNAPは最大の改善を達成

アブレーション実験

論文に詳細なアブレーション実験は記載されていないが、単純なソフト投票（SOMNUS）との比較を通じて、単純な平均化に対する注意機構の優位性が検証されている。

結論と議論

主要な結論

NAPは注意機構を通じて多モダリティ予測ストリームを効果的に集約し、複数のデータセットにおいて最先端のゼロショット性能を実現
原則的な遅延融合は既存方法が特定のデータセットで性能ギャップを埋めることができる
三軸注意機構は多次元依存関係を処理するための効果的な戦略

制限事項

モダリティ制限: 現在の実験は事前学習済みモデルの利用可能性の制限により、EEGおよびEOGモダリティのみを考慮
基本モデル依存: 性能は事前学習済み単一チャネルモデルの品質に制限される
計算オーバーヘッド: 結合注意と比較してより効率的であるが、追加の計算リソースが必要

今後の方向

モダリティの拡張: EMG、ECGなどの事前学習済みモデルの統合
早期融合: 表現レベル融合のためのNeural Aggregator of Representationsへの適応
クロスドメイン応用: 他の多モダリティ予測集約が必要な生理信号応用への拡張

深い評価

利点

革新性が高い: 三軸注意機構の設計は新規であり、多次元依存関係のモデリング問題を効果的に解決
実用的価値が高い: 臨床実践におけるPSGデータ異質性の重要な問題を解決
実験が充分: 複数の大規模データセットにおける包括的なゼロショット評価
方法が汎用的: フレームワークは他の多モダリティ生理信号応用に拡張可能

不足点

理論分析が不足: 三軸注意機構の理論的分析と複雑性分析が欠如
アブレーション実験が限定的: 各コンポーネント（空間、時間、混合注意）の具体的な寄与の詳細な分析がない
モダリティカバレッジが不完全: EGおよびEOGのみで検証。他の重要なモダリティ（EMG、ECG）の検証が欠如

影響力

学術的貢献: 多モダリティ生理信号処理に新しい融合戦略を提供
臨床的価値: 自動睡眠段階分類システムの実用性と精度の向上が期待される
再現可能性: 詳細な実装詳細が提供され、再現と拡張が容易

適用可能なシナリオ

臨床睡眠医学: 異なる病院および機器構成での自動睡眠段階分類
多モダリティ生理信号: 複数の生理信号予測の融合が必要な他の医療応用
異種データ融合: 次元が可変の多モダリティ予測集約が必要なあらゆるタスク

参考文献

論文は睡眠医学、深層学習、および多モダリティ融合分野の重要な研究を引用している。以下を含む：

Berry et al. (2017): AASM睡眠段階分類基準
Perslev et al. (2021): U-Sleepモデル
Phan et al. (2022): SleepTransformer
Huang et al. (2019): クロスクロス注意の原始的研究
Zhang et al. (2018, 2024): NSRRデータリソース

総合評価: これは臨床的に重要な問題に対して革新的なソリューションを提案する高品質な機械学習論文である。三軸注意機構の設計は巧妙であり、実験結果は説得力がある。理論的分析とアブレーション実験の面でまだ改善の余地があるが、その実用的価値と技術的革新により、多モダリティ生理信号処理分野への重要な貢献となっている。