NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
多導睡眠ポリグラフ検査(PSG)信号は高度に異質であり、モダリティ構成(EEG、EOG、ECGなど)、チャネル可用性(前頭葉、後頭葉EEGなど)、および異なるデータセットと臨床センターの取得プロトコルにおいて差異が存在する。多導睡眠ポリグラフ検査データを処理する既存モデルの大多数は、固定されたモダリティまたはチャネルのサブセットに依存しているため、その固有の多モダリティ特性を十分に活用できていない。本論文では、NAP(Neural Aggregator of Predictions)を導入することでこの制限に対処する。これは注意機構に基づくモデルであり、三軸注意機構を使用して複数の予測ストリームを組み合わせることを学習し、時間的、空間的、および予測器レベルの依存関係を捉える。NAPは異なる入力次元に適応するように訓練される。凍結された事前学習済み単一チャネルモデルからの出力を集約することにより、NAPは一貫して個別の予測器と単純なアンサンブル方法を上回り、複数のデータセットにおいて最先端のゼロショット汎化性能を実現する。