2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: स्वचालित नींद चरणीकरण के लिए ध्यान-आधारित देर से संलयन

बुनियादी जानकारी

पेपर ID: 2511.03488
शीर्षक: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
लेखक: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन समय: 5 नवंबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2511.03488v1

सारांश

पॉलीसोम्नोग्राफी (PSG) संकेत अत्यधिक विषम हैं, जिनमें मोडैलिटी संरचना (जैसे EEG, EOG, ECG), चैनल उपलब्धता (जैसे ललाट, पश्चकपाल EEG) और विभिन्न डेटासेट तथा नैदानिक केंद्रों में संग्रह प्रोटोकॉल में अंतर है। PSG डेटा को संभालने वाले अधिकांश मौजूदा मॉडल निश्चित मोडैलिटी या चैनल उपसमुच्चय पर निर्भर करते हैं, इसलिए इसकी अंतर्निहित बहु-मोडैलिटी विशेषताओं का पूरी तरह से उपयोग नहीं कर पाते हैं। यह पेपर NAP (Neural Aggregator of Predictions) को प्रस्तुत करके इस सीमा को संबोधित करता है, जो एक ध्यान-आधारित मॉडल है जो तीन-अक्ष ध्यान तंत्र का उपयोग करके कई भविष्यवाणी प्रवाहों को संयोजित करने के लिए सीखता है, जो अस्थायी, स्थानिक और भविष्यवक्ता-स्तरीय निर्भरताओं को पकड़ता है। NAP विभिन्न इनपुट आयामों के अनुकूल होने के लिए प्रशिक्षित है। जमे हुए पूर्व-प्रशिक्षित एकल-चैनल मॉडल के आउटपुट को एकत्रित करके, NAP लगातार एकल भविष्यवक्ताओं और सरल समूह विधियों से बेहतर प्रदर्शन करता है, कई डेटासेट पर अत्याधुनिक शून्य-शॉट सामान्यीकरण प्रदर्शन प्राप्त करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: PSG डेटा की विषमता समस्या, जिसमें विभिन्न मोडैलिटी संरचना, चैनल कॉन्फ़िगरेशन और संग्रह प्रोटोकॉल शामिल हैं, मौजूदा मॉडल इसकी बहु-मोडैलिटी विशेषताओं का पूरी तरह से उपयोग नहीं कर सकते हैं।
महत्व:
- नींद चरणीकरण नींद-जागरण विकारों के निदान के लिए नैदानिक मानक है
- मैनुअल नींद चरणीकरण समय-गहन है और व्यक्तिपरक पूर्वाग्रह से ग्रस्त है
- बहु-मोडैलिटी जानकारी नींद की गतिविधि का अधिक व्यापक दृश्य प्रदान करती है, जो रोगी के स्वास्थ्य की बेहतर समझ में सहायता करती है
मौजूदा विधियों की सीमाएं:
- अधिकांश मॉडल निश्चित मोडैलिटी या चैनल उपसमुच्चय पर निर्भर करते हैं
- सरल सॉफ्ट वोटिंग समूह विधियां मानती हैं कि औसतकरण एक पर्याप्त एकत्रीकरण फ़ंक्शन है
- सभी योगदानकर्ताओं को समान रूप से विश्वसनीय मानते हैं
- epoch स्तर पर काम करते हैं, अस्थायी निर्भरताओं को अनदेखा करते हैं
अनुसंधान प्रेरणा: एक ऐसा मॉडल विकसित करना जो विभिन्न इनपुट आयामों को लचीले ढंग से संभाल सके, बहु-मोडैलिटी भविष्यवाणी प्रवाहों को प्रभावी ढंग से एकत्रित कर सके और मॉड्यूलर रहे।

मुख्य योगदान

NAP मॉडल प्रस्तुत करना: एक हल्का ध्यान-आधारित मेटा-मॉडल जो पूर्व-प्रशिक्षित एकल-चैनल मॉडल की भविष्यवाणियों को एकत्रित करने के लिए अस्थायी, स्थानिक/चैनल, मॉडल-स्तरीय और क्रॉस-मोडैलिटी निर्भरताओं को स्पष्ट रूप से पकड़ता है।
क्रॉस-अटेंशन तंत्र का विस्तार: criss-cross ध्यान तंत्र को स्पेस-टाइम आयामों से सामान्यीकृत करके तीन-अक्ष ध्यान तंत्र में परिवर्तित करना, जो एक प्रभावी संलयन रणनीति के रूप में कार्य करता है।
आयाम-अनुकूल प्रशिक्षण: विभिन्न अनुक्रम लंबाई, चैनल संख्या, मॉडल संख्या और मोडैलिटी संख्या को गतिशील रूप से नमूना करने के लिए आयाम-अनुकूल प्रशिक्षण का विस्तार करना।
SOTA शून्य-शॉट प्रदर्शन: कई डेटासेट पर अत्याधुनिक शून्य-शॉट सामान्यीकरण प्रदर्शन प्राप्त करना, जो व्यक्तिगत भविष्यवक्ताओं और सरल समूह विधियों से काफी बेहतर है।

विधि विवरण

कार्य परिभाषा

इनपुट: PSG रिकॉर्डिंग X, जिसमें T क्रमागत 30-सेकंड नींद epochs हैं, प्रत्येक epoch M जैविक मोडैलिटी से जुड़ा है
आउटपुट: प्रत्येक epoch के लिए नींद चरण भविष्यवाणी, 5 श्रेणियों में विभाजित: {Wake, N1, N2, N3, REM}
बाधा: मॉडल को विभिन्न मोडैलिटी संयोजन, चैनल संख्या और अनुक्रम लंबाई के अनुकूल होने की आवश्यकता है

मॉडल आर्किटेक्चर

NAP आर्किटेक्चर में चार मुख्य मॉड्यूल हैं:

1. आधार भविष्यवाणी जनरेटर (Base Predictions Generator)

मोडैलिटी mk, चैनल cj और आधार भविष्यवक्ता bℓ के लिए, भविष्यवाणी $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$ उत्पन्न करता है
भविष्यवाणी परिणाम को उच्च-आयामी विशेषता स्थान $\mathbb{R}^{d_{model}}$ में रैखिक रूप से प्रक्षेपित किया जाता है
Hypnodensities (नींद चरणों का संभाव्यता प्रतिनिधित्व) उत्पन्न करता है

2. तीन-अक्ष ध्यान एनकोडर (Tri-axial Attention Encoder)

criss-cross ध्यान को तीन पथों में विस्तारित करता है:

स्थानिक ध्यान: चैनल अक्ष $C_{m_k}$ के साथ ध्यान गणना $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

अस्थायी ध्यान: अनुक्रम लंबाई अक्ष T के साथ ध्यान गणना

मिश्रित ध्यान: आधार भविष्यवक्ता अक्ष $B_{m_k}$ के साथ ध्यान गणना

प्रत्येक पथ को h/3 ध्यान सिर आवंटित किए जाते हैं, अंतिम सभी पथ आउटपुट को जोड़ा जाता है।

3. मोडैलिटी संलयन परत (Modality Fusion Layer)

ध्यान-आधारित संलयन तंत्र का उपयोग करता है: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

भारित संयोजन की गणना करता है: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. वर्गीकरण सिर (Classifier Head)

एकल छिपी परत फीडफॉरवर्ड नेटवर्क, क्रॉस-एंट्रॉपी हानि का उपयोग करके अंत-से-अंत प्रशिक्षण के लिए।

तकनीकी नवाचार

तीन-अक्ष ध्यान तंत्र: ध्यान गणना को स्थानिक, अस्थायी और भविष्यवक्ता तीन आयामों में विघटित करता है, जो पारंपरिक संयुक्त ध्यान की तुलना में अधिक कुशल और लक्षित है।
गतिशील आयाम अनुकूलन: प्रशिक्षण के समय विभिन्न समय चरणों, मोडैलिटी सेट, चैनल संख्या और आधार भविष्यवक्ताओं को यादृच्छिक रूप से नमूना करता है, मॉडल की सामान्यीकरण क्षमता में सुधार करता है।
ग्रेडिएंट संचय रणनीति: G विभिन्न बैचों पर ग्रेडिएंट जमा करता है, पैडिंग और मास्किंग ऑपरेशन से बचता है, कम्प्यूटेशनल दक्षता में सुधार करता है।

प्रायोगिक सेटअप

डेटासेट

प्रशिक्षण डेटासेट:

BSWR: 8,410 PSG रिकॉर्डिंग (≈67,000 घंटे), नींद-जागरण विकारों के पूर्ण स्पेक्ट्रम को कवर करता है
NSRR डेटासेट का आरक्षित सेट: ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC सहित

मूल्यांकन डेटासेट (शून्य-शॉट):

DOD-H & DOD-O: स्वस्थ वयस्क और OSA रोगी
DCSM: डेनमार्क स्लीप मेडिसिन सेंटर डेटा
SEDF-SC & SEDF-ST: Sleep-EDF विस्तारित डेटासेट
PHYS: PhysioNet चुनौती 2018 डेटा

मूल्यांकन मेट्रिक्स

मैक्रो-औसत F1 स्कोर (Macro F1, MF1)
प्रत्येक नींद चरण के लिए F1 स्कोर (F1W, F1N1, F1N2, F1N3, F1REM)

तुलनात्मक विधियां

सर्वश्रेष्ठ एकल-मोडैलिटी मॉडल (जैसे DeepResNetEEG, U-SleepEEG)
SOMNUS समूह विधि (सभी चैनल, मोडैलिटी और मॉडल पर सॉफ्ट वोटिंग)

कार्यान्वयन विवरण

एम्बेडिंग आयाम: dmodel = 24
ध्यान सिर संख्या: h = 6 (प्रति पथ 2 सिर)
एनकोडर परतें: L = 4
बैच आकार: B = 8 रिकॉर्डिंग, प्रत्येक रिकॉर्डिंग K = 4 सेगमेंट
ग्रेडिएंट संचय: G = 4 फॉरवर्ड-बैकवर्ड प्रसार
ऑप्टिमाइजर: AdamW, सीखने की दर η = 10^-3

प्रायोगिक परिणाम

मुख्य परिणाम

डेटासेट	मॉडल	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ अन्य विधियों की तुलना में MF1 पर सांख्यिकीय रूप से महत्वपूर्ण सुधार को दर्शाता है (α < 0.05)

मुख्य निष्कर्ष

सुसंगत सुधार: NAP अधिकांश OOD डेटासेट पर शून्य-शॉट MF1 वृद्धि प्राप्त करता है
- DCSM: 0.803 → 0.815
- DOD-H: 0.828 → 0.834
- PHYS: 0.693 → 0.732
- SEDF-SC: 0.734 → 0.752
- SEDF-ST: 0.761 → 0.796
N1 चरण सुधार: MF1 सुधार मुख्य रूप से कठिन N1 चरण की पहचान में सुधार से आता है, कुछ मामलों में Wake चरण की पहचान में भी सुधार करता है
अधिकतम सुधार परिदृश्य: उन डेटासेट पर जहां SOMNUS अपेक्षाकृत खराब प्रदर्शन करता है (जैसे PHYS और SEDF), NAP सबसे बड़ा सुधार प्राप्त करता है

विलोपन प्रयोग

हालांकि पेपर में विस्तृत विलोपन प्रयोग नहीं हैं, सरल सॉफ्ट वोटिंग (SOMNUS) के साथ तुलना के माध्यम से, सरल औसतकरण की तुलना में ध्यान तंत्र के लाभ को सत्यापित किया जाता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

NAP ध्यान तंत्र के माध्यम से बहु-मोडैलिटी भविष्यवाणी प्रवाहों को प्रभावी ढंग से एकत्रित करता है, कई डेटासेट पर SOTA शून्य-शॉट प्रदर्शन प्राप्त करता है
सिद्धांतबद्ध देर से संलयन कुछ डेटासेट पर मौजूदा विधियों में प्रदर्शन अंतर को पाट सकता है
तीन-अक्ष ध्यान तंत्र बहु-आयामी निर्भरताओं को संभालने के लिए एक प्रभावी रणनीति है

सीमाएं

मोडैलिटी सीमा: वर्तमान प्रयोग केवल EEG और EOG मोडैलिटी पर विचार करते हैं, पूर्व-प्रशिक्षित मॉडल की उपलब्धता सीमा के कारण
आधार मॉडल निर्भरता: प्रदर्शन पूर्व-प्रशिक्षित एकल-चैनल मॉडल की गुणवत्ता से सीमित है
कम्प्यूटेशनल ओवरहेड: हालांकि संयुक्त ध्यान की तुलना में अधिक कुशल है, फिर भी अतिरिक्त कम्प्यूटेशनल संसाधनों की आवश्यकता है

भविष्य की दिशाएं

मोडैलिटी विस्तार: अधिक जैविक संकेतों (EMG, ECG आदि) के पूर्व-प्रशिक्षित मॉडल को एकीकृत करना
प्रारंभिक संलयन: प्रतिनिधित्व-स्तरीय संलयन के लिए Neural Aggregator of Representations के रूप में अनुकूलन
क्रॉस-डोमेन अनुप्रयोग: अन्य जैविक संकेत अनुप्रयोगों में विस्तार जिन्हें बहु-मोडैलिटी भविष्यवाणी एकत्रीकरण की आवश्यकता है

गहन मूल्यांकन

शक्तियां

मजबूत नवाचार: तीन-अक्ष ध्यान तंत्र का डिजाइन नवीन है, बहु-आयामी निर्भरता मॉडलिंग समस्या को प्रभावी ढंग से हल करता है
उच्च व्यावहारिक मूल्य: नैदानिक वास्तविकता में PSG डेटा विषमता की महत्वपूर्ण समस्या को हल करता है
व्यापक प्रयोग: कई बड़े पैमाने के डेटासेट पर व्यापक शून्य-शॉट मूल्यांकन
विधि सामान्यता: ढांचा अन्य बहु-मोडैलिटी जैविक संकेत अनुप्रयोगों तक विस्तारित हो सकता है

कमियां

अपर्याप्त सैद्धांतिक विश्लेषण: तीन-अक्ष ध्यान तंत्र के सैद्धांतिक विश्लेषण और जटिलता विश्लेषण की कमी
सीमित विलोपन प्रयोग: प्रत्येक घटक (स्थानिक, अस्थायी, मिश्रित ध्यान) के विशिष्ट योगदान का विस्तृत विश्लेषण नहीं
अधूरा मोडैलिटी कवरेज: केवल EEG और EOG को सत्यापित किया गया, अन्य महत्वपूर्ण मोडैलिटी (EMG, ECG) की कमी

प्रभाव

शैक्षणिक योगदान: बहु-मोडैलिटी जैविक संकेत प्रसंस्करण के लिए नई संलयन रणनीति प्रदान करता है
नैदानिक मूल्य: स्वचालित नींद चरणीकरण प्रणाली की व्यावहारिकता और सटीकता में सुधार की संभावना
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण प्रदान करता है, पुनरुत्पादन और विस्तार को सुविधाजनक बनाता है

लागू परिदृश्य

नैदानिक नींद चिकित्सा: विभिन्न अस्पतालों और उपकरण कॉन्फ़िगरेशन में स्वचालित नींद चरणीकरण
बहु-मोडैलिटी जैविक संकेत: अन्य चिकित्सा अनुप्रयोग जिन्हें कई जैविक संकेतों की भविष्यवाणी को संलयित करने की आवश्यकता है
विषम डेटा संलयन: कोई भी कार्य जिसे परिवर्तनशील आयाम बहु-मोडैलिटी भविष्यवाणी एकत्रीकरण को संभालने की आवश्यकता है

संदर्भ

पेपर नींद चिकित्सा, गहन शिक्षा और बहु-मोडैलिटी संलयन क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

Berry et al. (2017): AASM नींद चरणीकरण मानक
Perslev et al. (2021): U-Sleep मॉडल
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Criss-cross attention मूल कार्य
Zhang et al. (2018, 2024): NSRR डेटा संसाधन

समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला मशीन लर्निंग पेपर है जो नैदानिक रूप से महत्वपूर्ण समस्या के लिए एक नवीन समाधान प्रस्तुत करता है। तीन-अक्ष ध्यान तंत्र का डिजाइन चतुर है, प्रायोगिक परिणाम प्रेरक हैं। हालांकि सैद्धांतिक विश्लेषण और विलोपन प्रयोगों में सुधार की गुंजाइश है, इसकी व्यावहारिक मूल्य और तकनीकी नवाचार इसे बहु-मोडैलिटी जैविक संकेत प्रसंस्करण क्षेत्र में एक महत्वपूर्ण योगदान बनाते हैं।

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

NAP: स्वचालित नींद चरणीकरण के लिए ध्यान-आधारित देर से संलयन

बुनियादी जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

मॉडल आर्किटेक्चर

1. आधार भविष्यवाणी जनरेटर (Base Predictions Generator)

2. तीन-अक्ष ध्यान एनकोडर (Tri-axial Attention Encoder)

3. मोडैलिटी संलयन परत (Modality Fusion Layer)

4. वर्गीकरण सिर (Classifier Head)

तकनीकी नवाचार

प्रायोगिक सेटअप

डेटासेट

मूल्यांकन मेट्रिक्स

तुलनात्मक विधियां

कार्यान्वयन विवरण

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

विलोपन प्रयोग

संबंधित कार्य

मुख्य अनुसंधान दिशाएं

इस पेपर के लाभ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

शक्तियां

कमियां

प्रभाव

लागू परिदृश्य

संदर्भ