2025-11-11T15:10:09.360380

NAP: Attention-Based Late Fusion for Automatic Sleep Staging

Rossi, van der Meer, Schmidt et al.

Polysomnography signals are highly heterogeneous, varying in modality composition (e.g., EEG, EOG, ECG), channel availability (e.g., frontal, occipital EEG), and acquisition protocols across datasets and clinical sites. Most existing models that process polysomnography data rely on a fixed subset of modalities or channels and therefore neglect to fully exploit its inherently multimodal nature. We address this limitation by introducing NAP (Neural Aggregator of Predictions), an attention-based model which learns to combine multiple prediction streams using a tri-axial attention mechanism that captures temporal, spatial, and predictor-level dependencies. NAP is trained to adapt to different input dimensions. By aggregating outputs from frozen, pretrained single-channel models, NAP consistently outperforms individual predictors and simple ensembles, achieving state-of-the-art zero-shot generalization across multiple datasets. While demonstrated in the context of automated sleep staging from polysomnography, the proposed approach could be extended to other multimodal physiological applications.

academic

NAP: স্বয়ংক্রিয় ঘুমের পর্যায় নির্ধারণের জন্য মনোযোগ-ভিত্তিক দেরী সংমিশ্রণ

মৌলিক তথ্য

পেপার আইডি: 2511.03488
শিরোনাম: NAP: Attention-Based Late Fusion for Automatic Sleep Staging
লেখক: Alvise Dei Rossi, Julia van der Meer, Markus H. Schmidt, Claudio L.A. Bassetti, Luigi Fiorillo, Francesca Faraci
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
প্রকাশনার সময়: ২০২৫ সালের ৫ নভেম্বর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2511.03488v1

সারসংক্ষেপ

পলিসোমনোগ্রাফি (PSG) সংকেত অত্যন্ত বৈচিত্র্যময়, যা মোডালিটি গঠন (যেমন EEG, EOG, ECG), চ্যানেল উপলব্ধতা (যেমন ফ্রন্টাল, অক্সিপিটাল EEG) এবং বিভিন্ন ডেটাসেট ও ক্লিনিক্যাল কেন্দ্রের সংগ্রহ প্রোটোকলে পার্থক্য প্রদর্শন করে। বহু-চ্যানেল PSG ডেটা পরিচালনাকারী বেশিরভাগ বিদ্যমান মডেল নির্দিষ্ট মোডালিটি বা চ্যানেল সাবসেটের উপর নির্ভর করে, তাই এর অন্তর্নিহিত মাল্টিমোডাল বৈশিষ্ট্যগুলি সম্পূর্ণভাবে কাজে লাগাতে ব্যর্থ হয়। এই পেপারটি NAP (Neural Aggregator of Predictions) প্রবর্তন করে এই সীমাবদ্ধতা সমাধান করে, যা একটি মনোযোগ-ভিত্তিক মডেল যা তিন-অক্ষ মনোযোগ প্রক্রিয়া ব্যবহার করে একাধিক পূর্বাভাস প্রবাহ একত্রিত করতে শেখে, সময়গত, স্থানিক এবং পূর্বাভাসকারী-স্তরের নির্ভরতা ক্যাপচার করে। NAP বিভিন্ন ইনপুট মাত্রা সামঞ্জস্য করার জন্য প্রশিক্ষিত। হিমায়িত প্রাক-প্রশিক্ষিত একক-চ্যানেল মডেলের আউটপুট একত্রিত করে, NAP ধারাবাহিকভাবে একক পূর্বাভাসকারী এবং সাধারণ সমন্বয় পদ্ধতিকে ছাড়িয়ে যায়, একাধিক ডেটাসেটে অত্যাধুনিক শূন্য-শট সাধারণীকরণ কর্মক্ষমতা অর্জন করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

মূল সমস্যা: পলিসোমনোগ্রাফি (PSG) ডেটার বৈচিত্র্যের সমস্যা, যার মধ্যে রয়েছে বিভিন্ন মোডালিটি গঠন, চ্যানেল কনফিগারেশন এবং সংগ্রহ প্রোটোকল, বিদ্যমান মডেলগুলি এর মাল্টিমোডাল বৈশিষ্ট্যগুলি সম্পূর্ণভাবে কাজে লাগাতে পারে না।
গুরুত্ব:
- ঘুমের পর্যায় নির্ধারণ ঘুম-জাগরণ ব্যাধি নির্ণয়ের ক্লিনিক্যাল স্বর্ণমান
- ম্যানুয়াল ঘুমের পর্যায় নির্ধারণ সময়সাপেক্ষ এবং বিষয়গত পক্ষপাত রয়েছে
- মাল্টিমোডাল তথ্য ঘুমের গতিশীলতার আরও ব্যাপক দৃশ্য প্রদান করে, রোগীর স্বাস্থ্য অবস্থা আরও ভালভাবে বোঝার জন্য সহায়তা করে
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- বেশিরভাগ মডেল নির্দিষ্ট মোডালিটি বা চ্যানেল সাবসেটের উপর নির্ভর করে
- সাধারণ সফট ভোটিং সমন্বয় পদ্ধতি গড়কে যথেষ্ট একত্রীকরণ ফাংশন হিসাবে অনুমান করে
- সমস্ত অবদানকারীকে সমানভাবে নির্ভরযোগ্য হিসাবে বিবেচনা করে
- epoch-স্তরে কাজ করে, সময়গত নির্ভরতা উপেক্ষা করে
গবেষণা প্রেরণা: এমন একটি মডেল বিকাশ করা যা বিভিন্ন ইনপুট মাত্রা নমনীয়ভাবে পরিচালনা করতে, মাল্টিমোডাল পূর্বাভাস প্রবাহ কার্যকরভাবে একত্রিত করতে এবং মডুলারিটি বজায় রাখতে পারে।

মূল অবদান

NAP মডেল প্রস্তাব: একটি হালকা-ওজনের মনোযোগ-ভিত্তিক মেটা-মডেল যা সময়গত, স্থানিক/চ্যানেল, মডেল-স্তর এবং ক্রস-মোডাল নির্ভরতা স্পষ্টভাবে ক্যাপচার করে প্রাক-প্রশিক্ষিত একক-চ্যানেল মডেলের পূর্বাভাস একত্রিত করতে শেখে।
ক্রস-অ্যাটেনশন মেকানিজম সম্প্রসারণ: ক্রিস-ক্রস মনোযোগ প্রক্রিয়াকে স্থানিক-সময়গত মাত্রা থেকে তিন-অক্ষ মনোযোগ প্রক্রিয়ায় সাধারণীকরণ করা, একটি কার্যকর সংমিশ্রণ কৌশল হিসাবে।
মাত্রা-অভিযোজিত প্রশিক্ষণ: বিভিন্ন ক্রম দৈর্ঘ্য, চ্যানেল সংখ্যা, মডেল সংখ্যা এবং মোডালিটি সংখ্যা গতিশীলভাবে নমুনা করার জন্য মাত্রা-অভিযোজিত প্রশিক্ষণ সম্প্রসারণ।
SOTA শূন্য-শট কর্মক্ষমতা: একাধিক ডেটাসেটে অত্যাধুনিক শূন্য-শট সাধারণীকরণ কর্মক্ষমতা অর্জন করা, ব্যক্তিগত পূর্বাভাসকারী এবং সাধারণ সমন্বয় পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল।

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

ইনপুট: PSG রেকর্ড X, যাতে T টি ক্রমাগত 30-সেকেন্ডের ঘুমের epochs রয়েছে, প্রতিটি epoch M টি শারীরবৃত্তীয় মোডালিটির সাথে যুক্ত
আউটপুট: প্রতিটি epoch এর ঘুমের পর্যায় পূর্বাভাস, 5 টি বিভাগে বিভক্ত: {জাগরণ, N1, N2, N3, REM}
সীমাবদ্ধতা: মডেলকে বিভিন্ন মোডালিটি সমন্বয়, চ্যানেল সংখ্যা এবং ক্রম দৈর্ঘ্য সামঞ্জস্য করতে হবে

মডেল আর্কিটেকচার

NAP আর্কিটেকচারে চারটি প্রধান মডিউল রয়েছে:

1. বেস পূর্বাভাস জেনারেটর (Base Predictions Generator)

মোডালিটি mk, চ্যানেল cj এবং বেস পূর্বাসকারী bℓ এর জন্য, পূর্বাভাস $\hat{h}_{(m_k,c_j,b_\ell),t} \in \mathbb{R}^5$ উৎপন্ন করে
পূর্বাভাস ফলাফল উচ্চ-মাত্রিক বৈশিষ্ট্য স্থানে রৈখিকভাবে প্রজেক্ট করা হয় $\mathbb{R}^{d_{model}}$
হাইপনোডেনসিটি উৎপন্ন করে (ঘুমের পর্যায়ের সম্ভাব্যতা প্রতিনিধিত্ব)

2. তিন-অক্ষ মনোযোগ এনকোডার (Tri-axial Attention Encoder)

ক্রিস-ক্রস মনোযোগকে তিনটি পথে সম্প্রসারিত করে:

স্থানিক মনোযোগ: চ্যানেল অক্ষ $C_{m_k}$ বরাবর মনোযোগ গণনা $Z_s^{(i)} = \text{Softmax}\left(\frac{\text{LN}(Q_s^{(i)}) \text{LN}(K_s^{(i)})^T}{\sqrt{d_k}}\right) V_s^{(i)}$

সময়গত মনোযোগ: ক্রম দৈর্ঘ্য অক্ষ T বরাবর মনোযোগ গণনা

মিশ্র মনোযোগ: বেস পূর্বাসকারী অক্ষ $B_{m_k}$ বরাবর মনোযোগ গণনা

প্রতিটি পথ h/3 টি মনোযোগ হেড বরাদ্দ করা হয়, চূড়ান্ত সংযোগ সমস্ত পথ আউটপুট।

3. মোডালিটি সংমিশ্রণ স্তর (Modality Fusion Layer)

মনোযোগ-ভিত্তিক সংমিশ্রণ প্রক্রিয়া ব্যবহার করে: $\alpha_{t,n} = \frac{\exp(\tanh(W_A x_{t,n} + b_A)^T u_A)}{\sum_{j=1}^N \exp(\tanh(W_A x_{t,j} + b_A)^T u_A)}$

ওজনযুক্ত সমন্বয় গণনা করে: $\hat{z}_t = \sum_{n=1}^N \alpha_{t,n} \tilde{z}_{t,n}$

4. শ্রেণীবিভাগকারী হেড (Classifier Head)

একক লুকানো স্তরের ফিডফরওয়ার্ড নেটওয়ার্ক, ক্রস-এন্ট্রপি ক্ষতি ব্যবহার করে প্রান্ত-থেকে-প্রান্ত প্রশিক্ষণ।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

তিন-অক্ষ মনোযোগ প্রক্রিয়া: মনোযোগ গণনাকে স্থানিক, সময়গত এবং পূর্বাসকারী তিনটি মাত্রায় বিয়োজিত করা, ঐতিহ্যবাহী যৌথ মনোযোগের চেয়ে আরও দক্ষ এবং লক্ষ্যবস্তু।
গতিশীল মাত্রা অভিযোজন: প্রশিক্ষণের সময় বিভিন্ন সময়ের ধাপ, মোডালিটি সেট, চ্যানেল সংখ্যা এবং বেস পূর্বাসকারী র্যান্ডমলি নমুনা করা, মডেলের সাধারণীকরণ ক্ষমতা উন্নত করে।
গ্রেডিয়েন্ট সংগ্রহ কৌশল: G টি বিভিন্ন ব্যাচে গ্রেডিয়েন্ট সংগ্রহ করা, প্যাডিং এবং মাস্কিং অপারেশন এড়ানো, গণনা দক্ষতা উন্নত করে।

পরীক্ষামূলক সেটআপ

ডেটাসেট

প্রশিক্ষণ ডেটাসেট:

BSWR: 8,410 টি PSG রেকর্ড (≈67,000 ঘন্টা), সম্পূর্ণ ঘুম-জাগরণ ব্যাধি বর্ণনা জুড়ে
NSRR ডেটাসেটের সংরক্ষিত সেট: ABC, APOE, APPLES, CCSHS, CFS, CHAT, HOMEPAP, MESA, MNC, MROS, MSP, NCHSDB, SHHS, SOF, WSC অন্তর্ভুক্ত

মূল্যায়ন ডেটাসেট (শূন্য-শট):

DOD-H & DOD-O: স্বাস্থ্যকর প্রাপ্তবয়স্ক এবং OSA রোগী
DCSM: ডেনমার্ক ঘুম মেডিসিন সেন্টার ডেটা
SEDF-SC & SEDF-ST: Sleep-EDF সম্প্রসারিত ডেটাসেট
PHYS: PhysioNet চ্যালেঞ্জ 2018 ডেটা

মূল্যায়ন মেট্রিক্স

ম্যাক্রো গড় F1 স্কোর (Macro F1, MF1)
প্রতিটি ঘুমের পর্যায়ের F1 স্কোর (F1W, F1N1, F1N2, F1N3, F1REM)

তুলনা পদ্ধতি

সর্বোত্তম একক-মোডালিটি মডেল (যেমন DeepResNetEEG, U-SleepEEG)
SOMNUS সমন্বয় পদ্ধতি (সমস্ত চ্যানেল, মোডালিটি এবং মডেল জুড়ে সফট ভোটিং)

বাস্তবায়ন বিবরণ

এম্বেডিং মাত্রা: dmodel = 24
মনোযোগ হেড সংখ্যা: h = 6 (প্রতিটি পথে 2 টি হেড)
এনকোডার স্তর সংখ্যা: L = 4
ব্যাচ আকার: B = 8 টি রেকর্ড, প্রতিটি রেকর্ডে K = 4 টি সেগমেন্ট
গ্রেডিয়েন্ট সংগ্রহ: G = 4 টি ফরওয়ার্ড-ব্যাকওয়ার্ড প্রচার
অপ্টিমাইজার: AdamW, শেখার হার η = 10^-3

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

ডেটাসেট	মডেল	MF1	F1W	F1N1	F1N2	F1N3	F1REM
BSWR	DeepResNetEEG	.695(.120)	.828(.143)	.397(.172)	.793(.148)	.629(.270)	.848(.180)
	SOMNUS	.708(.120)	.836(.141)	.404(.178)	.804(.146)	.696(.280)	.864(.173)
	NAP	.749(.117)‡	.856(.132)	.533(.164)	.809(.146)	.705(.260)	.864(.172)
DCSM	SOMNUS	.803(.084)	.983(.023)	.505(.153)	.858(.097)	.783(.202)	.891(.146)
	NAP	.815(.081)‡	.986(.020)	.550(.143)	.848(.103)	.802(.190)	.893(.145)

‡ অন্যান্য পদ্ধতির তুলনায় MF1 এ পরিসংখ্যানগতভাবে উল্লেখযোগ্য উন্নতি নির্দেশ করে (α < 0.05)

মূল আবিষ্কার

সামঞ্জস্যপূর্ণ উন্নতি: NAP বেশিরভাগ OOD ডেটাসেটে শূন্য-শট MF1 উন্নতি অর্জন করেছে
- DCSM: 0.803 → 0.815
- DOD-H: 0.828 → 0.834
- PHYS: 0.693 → 0.732
- SEDF-SC: 0.734 → 0.752
- SEDF-ST: 0.761 → 0.796
N1 পর্যায় উন্নতি: MF1 উন্নতি প্রধানত কঠিন N1 পর্যায় সনাক্তকরণের উন্নতি থেকে আসে, কিছু ক্ষেত্রে জাগরণ পর্যায়ের সনাক্তকরণও উন্নত করে
সর্বাধিক উন্নতির পরিস্থিতি: যেসব ডেটাসেটে SOMNUS তুলনামূলকভাবে খারাপ কর্মক্ষমতা করে (যেমন PHYS এবং SEDF), NAP সর্বাধিক উন্নতি অর্জন করেছে

অ্যাবলেশন পরীক্ষা

যদিও পেপারটিতে বিস্তারিত অ্যাবলেশন পরীক্ষা নেই, সাধারণ সফট ভোটিং (SOMNUS) এর সাথে তুলনার মাধ্যমে, সাধারণ গড়ের তুলনায় মনোযোগ প্রক্রিয়ার সুবিধা যাচাই করা হয়েছে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

NAP মনোযোগ প্রক্রিয়ার মাধ্যমে কার্যকরভাবে মাল্টিমোডাল পূর্বাভাস প্রবাহ একত্রিত করে, একাধিক ডেটাসেটে SOTA শূন্য-শট কর্মক্ষমতা অর্জন করে
নীতিগত দেরী সংমিশ্রণ কিছু ডেটাসেটে বিদ্যমান পদ্ধতির কর্মক্ষমতা ব্যবধান পূরণ করতে পারে
তিন-অক্ষ মনোযোগ প্রক্রিয়া বহু-মাত্রিক নির্ভরতা সম্পর্ক পরিচালনার জন্য একটি কার্যকর কৌশল

সীমাবদ্ধতা

মোডালিটি সীমাবদ্ধতা: বর্তমান পরীক্ষা শুধুমাত্র EEG এবং EOG মোডালিটি বিবেচনা করে, প্রাক-প্রশিক্ষিত মডেলের উপলব্ধতা সীমাবদ্ধতার কারণে
বেস মডেল নির্ভরতা: কর্মক্ষমতা প্রাক-প্রশিক্ষিত একক-চ্যানেল মডেলের গুণমান দ্বারা সীমাবদ্ধ
গণনা ওভারহেড: যদিও যৌথ মনোযোগের তুলনায় আরও দক্ষ, তবুও অতিরিক্ত গণনা সম্পদ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

মোডালিটি সম্প্রসারণ: আরও শারীরবৃত্তীয় সংকেত (EMG, ECG ইত্যাদি) এর প্রাক-প্রশিক্ষিত মডেল একীভূত করা
প্রাথমিক সংমিশ্রণ: প্রতিনিধিত্ব-স্তরের সংমিশ্রণের জন্য Neural Aggregator of Representations হিসাবে অভিযোজিত করা
ক্রস-ডোমেইন প্রয়োগ: অন্যান্য মাল্টিমোডাল পূর্বাভাস একত্রীকরণ প্রয়োজনীয় শারীরবৃত্তীয় সংকেত প্রয়োগে সম্প্রসারণ

গভীর মূল্যায়ন

সুবিধা

শক্তিশালী উদ্ভাবনী: তিন-অক্ষ মনোযোগ প্রক্রিয়ার ডিজাইন উপন্যাস, বহু-মাত্রিক নির্ভরতা মডেলিং সমস্যা কার্যকরভাবে সমাধান করে
উচ্চ ব্যবহারিক মূল্য: ক্লিনিক্যাল অনুশীলনে PSG ডেটা বৈচিত্র্যের গুরুত্বপূর্ণ সমস্যা সমাধান করে
ব্যাপক পরীক্ষা: একাধিক বড় আকারের ডেটাসেটে ব্যাপক শূন্য-শট মূল্যায়ন পরিচালিত
পদ্ধতি সর্বজনীনতা: কাঠামো অন্যান্য মাল্টিমোডাল শারীরবৃত্তীয় সংকেত প্রয়োগে সম্প্রসারণযোগ্য

অপূর্ণতা

তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: তিন-অক্ষ মনোযোগ প্রক্রিয়ার তাত্ত্বিক বিশ্লেষণ এবং জটিলতা বিশ্লেষণের অভাব
সীমিত অ্যাবলেশন পরীক্ষা: প্রতিটি উপাদান (স্থানিক, সময়গত, মিশ্র মনোযোগ) এর নির্দিষ্ট অবদান বিশ্লেষণ করার বিস্তারিত অভাব
সম্পূর্ণ মোডালিটি কভারেজ নয়: শুধুমাত্র EEG এবং EOG যাচাই করা, অন্যান্য গুরুত্বপূর্ণ মোডালিটি (EMG, ECG) এর যাচাইকরণ অভাব

প্রভাব

একাডেমিক অবদান: মাল্টিমোডাল শারীরবৃত্তীয় সংকেত প্রক্রিয়াকরণের জন্য নতুন সংমিশ্রণ কৌশল প্রদান করে
ক্লিনিক্যাল মূল্য: স্বয়ংক্রিয় ঘুমের পর্যায় নির্ধারণ সিস্টেমের ব্যবহারিকতা এবং নির্ভুলতা উন্নত করার সম্ভাবনা
পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ প্রদান করে, পুনরুৎপাদন এবং সম্প্রসারণ সহজতর করে

প্রযোজ্য পরিস্থিতি

ক্লিনিক্যাল ঘুম চিকিৎসা: বিভিন্ন হাসপাতাল এবং ডিভাইস কনফিগারেশনে স্বয়ংক্রিয় ঘুমের পর্যায় নির্ধারণ
মাল্টিমোডাল শারীরবৃত্তীয় সংকেত: অন্যান্য মাল্টিপল শারীরবৃত্তীয় সংকেত পূর্বাভাস একত্রীকরণ প্রয়োজনীয় চিকিৎসা প্রয়োগ
বিষমজাত ডেটা সংমিশ্রণ: যেকোনো পরিবর্তনশীল মাত্রার মাল্টিমোডাল পূর্বাভাস একত্রীকরণ কাজ

সংদর্ভ

পেপারটি ঘুম চিকিৎসা, গভীর শিক্ষা এবং মাল্টিমোডাল সংমিশ্রণ ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Berry et al. (2017): AASM ঘুমের পর্যায় নির্ধারণ মান
Perslev et al. (2021): U-Sleep মডেল
Phan et al. (2022): SleepTransformer
Huang et al. (2019): Criss-cross মনোযোগ মূল কাজ
Zhang et al. (2018, 2024): NSRR ডেটা সম্পদ

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের মেশিন লার্নিং পেপার যা ক্লিনিক্যালি গুরুত্বপূর্ণ সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে। তিন-অক্ষ মনোযোগ প্রক্রিয়ার ডিজাইন চতুর, পরীক্ষামূলক ফলাফল বিশ্বাসযোগ্য। যদিও তাত্ত্বিক বিশ্লেষণ এবং অ্যাবলেশন পরীক্ষায় উন্নতির অবকাশ রয়েছে, তবে এর ব্যবহারিক মূল্য এবং প্রযুক্তিগত উদ্ভাবন এটিকে মাল্টিমোডাল শারীরবৃত্তীয় সংকেত প্রক্রিয়াকরণ ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।