NAP: Attention-Based Late Fusion for Automatic Sleep Staging
Rossi, van der Meer, Schmidt et al.
Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.
academic
NAP: स्वचालित नींद चरणीकरण के लिए ध्यान-आधारित देर से संलयन
पॉलीसोम्नोग्राफी (PSG) संकेत अत्यधिक विषम हैं, जिनमें मोडैलिटी संरचना (जैसे EEG, EOG, ECG), चैनल उपलब्धता (जैसे ललाट, पश्चकपाल EEG) और विभिन्न डेटासेट तथा नैदानिक केंद्रों में संग्रह प्रोटोकॉल में अंतर है। PSG डेटा को संभालने वाले अधिकांश मौजूदा मॉडल निश्चित मोडैलिटी या चैनल उपसमुच्चय पर निर्भर करते हैं, इसलिए इसकी अंतर्निहित बहु-मोडैलिटी विशेषताओं का पूरी तरह से उपयोग नहीं कर पाते हैं। यह पेपर NAP (Neural Aggregator of Predictions) को प्रस्तुत करके इस सीमा को संबोधित करता है, जो एक ध्यान-आधारित मॉडल है जो तीन-अक्ष ध्यान तंत्र का उपयोग करके कई भविष्यवाणी प्रवाहों को संयोजित करने के लिए सीखता है, जो अस्थायी, स्थानिक और भविष्यवक्ता-स्तरीय निर्भरताओं को पकड़ता है। NAP विभिन्न इनपुट आयामों के अनुकूल होने के लिए प्रशिक्षित है। जमे हुए पूर्व-प्रशिक्षित एकल-चैनल मॉडल के आउटपुट को एकत्रित करके, NAP लगातार एकल भविष्यवक्ताओं और सरल समूह विधियों से बेहतर प्रदर्शन करता है, कई डेटासेट पर अत्याधुनिक शून्य-शॉट सामान्यीकरण प्रदर्शन प्राप्त करता है।
मुख्य समस्या: PSG डेटा की विषमता समस्या, जिसमें विभिन्न मोडैलिटी संरचना, चैनल कॉन्फ़िगरेशन और संग्रह प्रोटोकॉल शामिल हैं, मौजूदा मॉडल इसकी बहु-मोडैलिटी विशेषताओं का पूरी तरह से उपयोग नहीं कर सकते हैं।
महत्व:
नींद चरणीकरण नींद-जागरण विकारों के निदान के लिए नैदानिक मानक है
मैनुअल नींद चरणीकरण समय-गहन है और व्यक्तिपरक पूर्वाग्रह से ग्रस्त है
बहु-मोडैलिटी जानकारी नींद की गतिविधि का अधिक व्यापक दृश्य प्रदान करती है, जो रोगी के स्वास्थ्य की बेहतर समझ में सहायता करती है
मौजूदा विधियों की सीमाएं:
अधिकांश मॉडल निश्चित मोडैलिटी या चैनल उपसमुच्चय पर निर्भर करते हैं
सरल सॉफ्ट वोटिंग समूह विधियां मानती हैं कि औसतकरण एक पर्याप्त एकत्रीकरण फ़ंक्शन है
सभी योगदानकर्ताओं को समान रूप से विश्वसनीय मानते हैं
epoch स्तर पर काम करते हैं, अस्थायी निर्भरताओं को अनदेखा करते हैं
अनुसंधान प्रेरणा: एक ऐसा मॉडल विकसित करना जो विभिन्न इनपुट आयामों को लचीले ढंग से संभाल सके, बहु-मोडैलिटी भविष्यवाणी प्रवाहों को प्रभावी ढंग से एकत्रित कर सके और मॉड्यूलर रहे।
NAP मॉडल प्रस्तुत करना: एक हल्का ध्यान-आधारित मेटा-मॉडल जो पूर्व-प्रशिक्षित एकल-चैनल मॉडल की भविष्यवाणियों को एकत्रित करने के लिए अस्थायी, स्थानिक/चैनल, मॉडल-स्तरीय और क्रॉस-मोडैलिटी निर्भरताओं को स्पष्ट रूप से पकड़ता है।
क्रॉस-अटेंशन तंत्र का विस्तार: criss-cross ध्यान तंत्र को स्पेस-टाइम आयामों से सामान्यीकृत करके तीन-अक्ष ध्यान तंत्र में परिवर्तित करना, जो एक प्रभावी संलयन रणनीति के रूप में कार्य करता है।
आयाम-अनुकूल प्रशिक्षण: विभिन्न अनुक्रम लंबाई, चैनल संख्या, मॉडल संख्या और मोडैलिटी संख्या को गतिशील रूप से नमूना करने के लिए आयाम-अनुकूल प्रशिक्षण का विस्तार करना।
SOTA शून्य-शॉट प्रदर्शन: कई डेटासेट पर अत्याधुनिक शून्य-शॉट सामान्यीकरण प्रदर्शन प्राप्त करना, जो व्यक्तिगत भविष्यवक्ताओं और सरल समूह विधियों से काफी बेहतर है।
तीन-अक्ष ध्यान तंत्र: ध्यान गणना को स्थानिक, अस्थायी और भविष्यवक्ता तीन आयामों में विघटित करता है, जो पारंपरिक संयुक्त ध्यान की तुलना में अधिक कुशल और लक्षित है।
गतिशील आयाम अनुकूलन: प्रशिक्षण के समय विभिन्न समय चरणों, मोडैलिटी सेट, चैनल संख्या और आधार भविष्यवक्ताओं को यादृच्छिक रूप से नमूना करता है, मॉडल की सामान्यीकरण क्षमता में सुधार करता है।
ग्रेडिएंट संचय रणनीति: G विभिन्न बैचों पर ग्रेडिएंट जमा करता है, पैडिंग और मास्किंग ऑपरेशन से बचता है, कम्प्यूटेशनल दक्षता में सुधार करता है।
हालांकि पेपर में विस्तृत विलोपन प्रयोग नहीं हैं, सरल सॉफ्ट वोटिंग (SOMNUS) के साथ तुलना के माध्यम से, सरल औसतकरण की तुलना में ध्यान तंत्र के लाभ को सत्यापित किया जाता है।
पेपर नींद चिकित्सा, गहन शिक्षा और बहु-मोडैलिटी संलयन क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:
Berry et al. (2017): AASM नींद चरणीकरण मानक
Perslev et al. (2021): U-Sleep मॉडल
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Criss-cross attention मूल कार्य
Zhang et al. (2018, 2024): NSRR डेटा संसाधन
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला मशीन लर्निंग पेपर है जो नैदानिक रूप से महत्वपूर्ण समस्या के लिए एक नवीन समाधान प्रस्तुत करता है। तीन-अक्ष ध्यान तंत्र का डिजाइन चतुर है, प्रायोगिक परिणाम प्रेरक हैं। हालांकि सैद्धांतिक विश्लेषण और विलोपन प्रयोगों में सुधार की गुंजाइश है, इसकी व्यावहारिक मूल्य और तकनीकी नवाचार इसे बहु-मोडैलिटी जैविक संकेत प्रसंस्करण क्षेत्र में एक महत्वपूर्ण योगदान बनाते हैं।