2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: 자동 수면 단계 분류를 위한 주의 기반 후기 융합

기본 정보

논문 ID: 2511.03488
제목: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
저자: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
분류: cs.LG (기계학습)
발표 시간: 2025년 11월 5일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2511.03488v1

초록

다중채널 수면다원검사(PSG) 신호는 높은 이질성을 나타내며, 양식 구성(예: EEG, EOG, ECG), 채널 가용성(예: 전두엽, 후두엽 EEG) 및 서로 다른 데이터셋과 임상 센터의 수집 프로토콜에서 차이가 있습니다. 다중채널 수면다원검사 데이터를 처리하는 기존 모델은 대부분 고정된 양식 또는 채널 부분집합에 의존하므로 고유한 다중양식 특성을 충분히 활용하지 못합니다. 본 논문은 삼축 주의 메커니즘을 사용하여 여러 예측 흐름을 결합하고 시간, 공간 및 예측기 수준의 종속성을 포착하는 주의 기반 모델인 NAP(Neural Aggregator of Predictions)를 도입하여 이러한 제한을 해결합니다. NAP는 서로 다른 입력 차원에 적응하도록 훈련됩니다. 동결된 사전훈련된 단일채널 모델의 출력을 집계함으로써, NAP는 일관되게 개별 예측기 및 단순 앙상블 방법을 능가하며, 여러 데이터셋에서 최첨단 영점 샷 일반화 성능을 달성합니다.

연구 배경 및 동기

문제 정의

핵심 문제: 다중채널 수면다원검사(PSG) 데이터의 이질성 문제로, 서로 다른 양식 구성, 채널 구성 및 수집 프로토콜을 포함하며, 기존 모델은 다중양식 특성을 충분히 활용하지 못합니다.
중요성:
- 수면 단계 분류는 수면-각성 장애 진단의 임상 금표준
- 수동 수면 단계 분류는 시간이 많이 소요되고 주관적 편향 존재
- 다중양식 정보는 수면 역학에 대한 더 포괄적인 관점을 제공하여 환자 건강 상태를 더 잘 이해하는 데 도움
기존 방법의 한계:
- 대부분의 모델은 고정된 양식 또는 채널 부분집합에 의존
- 단순 소프트 투표 앙상블 방법은 평균화가 충분한 집계 함수라고 가정
- 암묵적으로 모든 기여자를 동등하게 신뢰할 수 있는 것으로 취급
- 에포크 수준에서 작동하여 시간 종속성 무시
연구 동기: 서로 다른 입력 차원을 유연하게 처리하고, 다중양식 예측 흐름을 효과적으로 집계하며, 모듈성을 유지할 수 있는 주의 메커니즘 모델 개발.

핵심 기여

NAP 모델 제안: 시간, 공간/채널, 모델 수준 및 양식 간 종속성을 명시적으로 포착하여 사전훈련된 단일채널 모델의 예측을 집계하는 방법을 학습하는 경량 주의 기반 메타모델.
교차 주의 메커니즘 확장: 크리스-크로스 주의 메커니즘을 시공간 차원에서 삼축 주의 메커니즘으로 일반화하여 효과적인 융합 전략으로 활용.
차원 자적응 훈련: 차원 자적응 훈련을 확장하여 서로 다른 시퀀스 길이, 채널 수, 모델 수 및 양식 수를 동적으로 샘플링.
SOTA 영점 샷 성능: 여러 데이터셋에서 최첨단 영점 샷 일반화 성능을 달성하여 개별 예측기 및 단순 앙상블 방법을 크게 능가.

방법론 상세 설명

작업 정의

입력: T개의 연속 30초 수면 에포크를 포함하는 PSG 기록 X, 각 에포크는 M개의 생리 양식과 연관
출력: 각 에포크의 수면 단계 예측으로 5가지 범주: {Wake, N1, N2, N3, REM}
제약: 모델은 서로 다른 양식 조합, 채널 수량 및 시퀀스 길이에 적응해야 함

모델 아키텍처

NAP 아키텍처는 네 가지 주요 모듈을 포함합니다:

1. 기본 예측 생성기(Base Predictions Generator)

양식 mk, 채널 cj 및 기본 예측기 bℓ에 대해 예측 $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$ 생성
예측 결과를 고차원 특징 공간 $\mathbb{R}^{d_{model}}$ 으로 선형 투영
수면밀도(수면 단계의 확률 표현) 생성

2. 삼축 주의 인코더(Tri-axial Attention Encoder)

크리스-크로스 주의를 세 가지 경로로 확장:

공간 주의: 채널 축 $C_{m_k}$ 를 따라 주의 계산 $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

시간 주의: 시퀀스 길이 축 T를 따라 주의 계산

혼합 주의: 기본 예측기 축 $B_{m_k}$ 를 따라 주의 계산

각 경로는 h/3개의 주의 헤드를 할당받으며, 최종적으로 모든 경로 출력을 연결합니다.

3. 양식 융합 계층(Modality Fusion Layer)

주의 기반 융합 메커니즘 사용: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

가중 조합 계산: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. 분류기 헤드(Classifier Head)

단일 은닉층 피드포워드 네트워크로, 교차 엔트로피 손실을 사용한 엔드-투-엔드 훈련.

기술 혁신 포인트

삼축 주의 메커니즘: 주의 계산을 공간, 시간 및 예측기 세 가지 차원으로 분해하여 기존 결합 주의보다 더 효율적이고 목표 지향적.
동적 차원 적응: 훈련 중 서로 다른 시간 단계, 양식 집합, 채널 수 및 기본 예측기를 무작위로 샘플링하여 모델의 일반화 능력 향상.
기울기 누적 전략: G개의 서로 다른 배치에서 기울기를 누적하여 패딩 및 마스킹 작업을 피하고 계산 효율성 향상.

실험 설정

데이터셋

훈련 데이터셋:

BSWR: 8,410개의 PSG 기록(≈67,000시간)으로 완전한 수면-각성 장애 스펙트럼 포함
NSRR 데이터셋의 보유 집합: ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC 포함

평가 데이터셋(영점 샷):

DOD-H & DOD-O: 건강한 성인 및 폐쇄성 수면무호흡증 환자
DCSM: 덴마크 수면의학 센터 데이터
SEDF-SC & SEDF-ST: Sleep-EDF 확장 데이터셋
PHYS: PhysioNet 챌린지 2018 데이터

평가 지표

매크로 평균 F1 점수(Macro F1, MF1)
각 수면 단계의 F1 점수(F1W, F1N1, F1N2, F1N3, F1REM)

비교 방법

최적 단일양식 모델(예: DeepResNetEEG, U-SleepEEG)
SOMNUS 앙상블 방법(모든 채널, 양식 및 모델에 걸친 소프트 투표)

구현 세부사항

임베딩 차원: dmodel = 24
주의 헤드 수: h = 6(각 경로당 2개 헤드)
인코더 계층 수: L = 4
배치 크기: B = 8개 기록, 각 기록 K = 4개 세그먼트
기울기 누적: G = 4개 전진-후진 전파
최적화기: AdamW, 학습률 η = 10^-3

실험 결과

주요 결과

데이터셋	모델	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ 다른 방법에 비해 MF1에서 통계적으로 유의미한 개선을 나타냄(α < 0.05)

주요 발견

일관된 개선: NAP는 대부분의 분포 외 데이터셋에서 영점 샷 MF1 향상 달성
- DCSM: 0.803 → 0.815
- DOD-H: 0.828 → 0.834
- PHYS: 0.693 → 0.732
- SEDF-SC: 0.734 → 0.752
- SEDF-ST: 0.761 → 0.796
N1 단계 개선: MF1 개선은 주로 어려운 N1 단계 인식 개선에서 비롯되며, 일부 경우 Wake 단계 인식도 개선
최대 개선 시나리오: SOMNUS가 상대적으로 성능이 낮은 데이터셋(예: PHYS 및 SEDF)에서 NAP가 최대 개선 달성

제거 실험

논문에는 상세한 제거 실험이 없지만, 단순 소프트 투표(SOMNUS)와의 비교를 통해 단순 평균에 비한 주의 메커니즘의 우월성을 검증했습니다.

결론 및 논의

주요 결론

NAP는 주의 메커니즘을 통해 다중양식 예측 흐름을 효과적으로 집계하며, 여러 데이터셋에서 SOTA 영점 샷 성능 달성
원칙적인 후기 융합은 기존 방법의 일부 데이터셋 성능 격차를 해소할 수 있음
삼축 주의 메커니즘은 다차원 종속성 관계 처리를 위한 효과적인 전략

한계

양식 제한: 현재 실험은 EEG 및 EOG 양식만 고려하며, 사전훈련된 모델 가용성 제한으로 인함
기본 모델 의존성: 성능은 사전훈련된 단일채널 모델의 품질에 의해 제한됨
계산 오버헤드: 결합 주의에 비해 더 효율적이지만 여전히 추가 계산 자원 필요

향후 방향

양식 확장: EMG, ECG 등 더 많은 생리 신호의 사전훈련된 모델 통합
초기 융합: 표현 수준 융합을 위한 Neural Aggregator of Representations로 적응
교차 영역 응용: 다중양식 예측 집계가 필요한 다른 생리 신호 응용으로 확장

심층 평가

장점

높은 혁신성: 삼축 주의 메커니즘의 설계가 새로우며, 다차원 종속성 모델링 문제를 효과적으로 해결
높은 실용 가치: 임상 실무에서 PSG 데이터 이질성의 중요한 문제 해결
충분한 실험: 여러 대규모 데이터셋에서 포괄적인 영점 샷 평가 수행
범용 방법: 프레임워크는 다른 다중양식 생리 신호 응용으로 확장 가능

부족한 점

이론 분석 부족: 삼축 주의 메커니즘의 이론적 분석 및 복잡도 분석 부재
제한된 제거 실험: 각 구성 요소(공간, 시간, 혼합 주의)의 구체적 기여도 분석 부족
불완전한 양식 범위: EEG 및 EOG만 검증하여 다른 중요 양식(EMG, ECG) 검증 부족

영향력

학술 기여: 다중양식 생리 신호 처리를 위한 새로운 융합 전략 제공
임상 가치: 자동 수면 단계 분류 시스템의 실용성 및 정확성 향상 기대
재현성: 상세한 구현 세부사항 제공으로 재현 및 확장 용이

적용 시나리오

임상 수면의학: 서로 다른 병원 및 장비 구성에서의 자동 수면 단계 분류
다중양식 생리 신호: 다양한 생리 신호 예측 융합이 필요한 다른 의료 응용
이질적 데이터 융합: 차원이 가변적인 다중양식 예측 집계가 필요한 모든 작업

참고문헌

논문은 수면의학, 심층학습 및 다중양식 융합 분야의 중요한 연구를 인용하고 있으며, 다음을 포함합니다:

Berry et al. (2017): AASM 수면 단계 분류 표준
Perslev et al. (2021): U-Sleep 모델
Phan et al. (2022): SleepTransformer
Huang et al. (2019): 크리스-크로스 주의 원본 연구
Zhang et al. (2018, 2024): NSRR 데이터 자원

종합 평가: 이는 임상적으로 중요한 문제에 대해 혁신적인 해결책을 제시하는 고품질의 기계학습 논문입니다. 삼축 주의 메커니즘의 설계가 정교하며, 실험 결과는 설득력이 있습니다. 이론 분석 및 제거 실험 측면에서 개선의 여지가 있지만, 실용적 가치와 기술 혁신성으로 인해 다중양식 생리 신호 처리 분야의 중요한 기여가 됩니다.