NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
다중채널 수면다원검사(PSG) 신호는 높은 이질성을 나타내며, 양식 구성(예: EEG, EOG, ECG), 채널 가용성(예: 전두엽, 후두엽 EEG) 및 서로 다른 데이터셋과 임상 센터의 수집 프로토콜에서 차이가 있습니다. 다중채널 수면다원검사 데이터를 처리하는 기존 모델은 대부분 고정된 양식 또는 채널 부분집합에 의존하므로 고유한 다중양식 특성을 충분히 활용하지 못합니다. 본 논문은 삼축 주의 메커니즘을 사용하여 여러 예측 흐름을 결합하고 시간, 공간 및 예측기 수준의 종속성을 포착하는 주의 기반 모델인 NAP(Neural Aggregator of Predictions)를 도입하여 이러한 제한을 해결합니다. NAP는 서로 다른 입력 차원에 적응하도록 훈련됩니다. 동결된 사전훈련된 단일채널 모델의 출력을 집계함으로써, NAP는 일관되게 개별 예측기 및 단순 앙상블 방법을 능가하며, 여러 데이터셋에서 최첨단 영점 샷 일반화 성능을 달성합니다.
논문은 수면의학, 심층학습 및 다중양식 융합 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:
Berry et al. (2017): AASM 수면 단계 분류 표준
Perslev et al. (2021): U-Sleep 모델
Phan et al. (2022): SleepTransformer
Huang et al. (2019): 크리스-크로스 주의 원본 연구
Zhang et al. (2018, 2024): NSRR 데이터 자원
종합 평가: 이는 임상적으로 중요한 문제에 대해 혁신적인 해결책을 제시하는 고품질의 기계학습 논문입니다. 삼축 주의 메커니즘의 설계가 정교하며, 실험 결과는 설득력이 있습니다. 이론 분석 및 제거 실험 측면에서 개선의 여지가 있지만, 실용적 가치와 기술 혁신성으로 인해 다중양식 생리 신호 처리 분야의 중요한 기여가 됩니다.