MedFuse: Multiplicative Embedding Fusion For Irregular Clinical Time Series
Hsieh, Chien, Huang et al.
Clinical time series derived from electronic health records (EHRs) are inherently irregular, with asynchronous sampling, missing values, and heterogeneous feature dynamics. While numerical laboratory measurements are highly informative, existing embedding strategies usually combine feature identity and value embeddings through additive operations, which constrains their ability to capture value-dependent feature interactions. We propose MedFuse, a framework for irregular clinical time series centered on the MuFuse (Multiplicative Embedding Fusion) module. MuFuse fuses value and feature embeddings through multiplicative modulation, preserving feature-specific information while modeling higher-order dependencies across features. Experiments on three real-world datasets covering both intensive and chronic care show that MedFuse consistently outperforms state-of-the-art baselines on key predictive tasks. Analysis of the learned representations further demonstrates that multiplicative fusion enhances expressiveness and supports cross-dataset pretraining. These results establish MedFuse as a generalizable approach for modeling irregular clinical time series.
academic
MedFuse: অনিয়মিত ক্লিনিক্যাল টাইম সিরিজের জন্য গুণক এমবেডিং ফিউশন
ইলেকট্রনিক স্বাস্থ্য রেকর্ড (EHR) এ ক্লিনিক্যাল টাইম সিরিজ অন্তর্নিহিত অনিয়মিততা প্রদর্শন করে, যার মধ্যে রয়েছে অ্যাসিঙ্ক্রোনাস স্যাম্পলিং, অনুপস্থিত মান এবং বৈশিষ্ট্য গতিশীলতার বৈচিত্র্য। বিদ্যমান এমবেডিং কৌশলগুলি সাধারণত যোগ অপারেশনের মাধ্যমে বৈশিষ্ট্য পরিচয় এবং সংখ্যাসূচক এমবেডিং একত্রিত করে, যা মূল্য-নির্ভর বৈশিষ্ট্য মিথস্ক্রিয়া ক্যাপচার করার ক্ষমতা সীমিত করে। এই পেপারটি MedFuse ফ্রেমওয়ার্ক প্রস্তাব করে, যার মূল হল MuFuse (গুণক এমবেডিং ফিউশন) মডিউল। MuFuse গুণক মডুলেশনের মাধ্যমে সংখ্যাসূচক এবং বৈশিষ্ট্য এমবেডিং একীভূত করে, বৈশিষ্ট্য-নির্দিষ্ট তথ্য সংরক্ষণ করার সাথে সাথে উচ্চ-ক্রম নির্ভরতা মডেল করে। তিনটি বাস্তব-বিশ্ব ডেটাসেটে পরীক্ষা-নিরীক্ষা দেখায় যে MedFuse গুরুত্বপূর্ণ পূর্বাভাস কাজে অত্যাধুনিক বেসলাইনকে ধারাবাহিকভাবে অতিক্রম করে। শেখা প্রতিনিধিত্বের বিশ্লেষণ আরও প্রমাণ করে যে গুণক ফিউশন প্রকাশমূলক ক্ষমতা বৃদ্ধি করে এবং ডেটাসেট জুড়ে প্রাক-প্রশিক্ষণ সমর্থন করে।
ক্লিনিক্যাল টাইম সিরিজ মডেলিং তিনটি প্রধান চ্যালেঞ্জের সম্মুখীন:
অনিয়মিত স্যাম্পলিং: জীবন চিহ্ন ঘন ঘন পর্যবেক্ষণ করা যেতে পারে, যখন ল্যাবরেটরি পরীক্ষা শুধুমাত্র ক্লিনিক্যাল প্রয়োজনে করা হয়, রোগীরা নির্ধারিত পরিদর্শন মিস করতে পারে
উচ্চ অনুপস্থিত হার: ডেটাসেটে গড় অনুপস্থিত হার ৭৩.৭৭%-৮৮.১৪% পৌঁছায়
সংখ্যাসূচক প্রতিনিধিত্বের অসুবিধা: ল্যাবরেটরি সংখ্যা ক্রমাগত পরিসরে জটিল তথ্য এনকোড করে, নীতিগতভাবে অসীম অনেক প্রতিনিধিত্ব প্রয়োজন
বিদ্যমান EVAT (প্রতিটি মূল্য একটি টোকেন হিসাবে) পদ্ধতি প্রধানত যোগ ফিউশন ব্যবহার করে:
সংখ্যাসূচক এমবেডিংকে বৈশিষ্ট্য এমবেডিংয়ের যোগ অফসেট হিসাবে বিবেচনা করে
সীমিত প্রকাশমূলক ক্ষমতা: মূল্য-নির্ভর অ-রৈখিক মিথস্ক্রিয়া ক্যাপচার করা কঠিন
ক্লিনিক্যাল শব্দার্থ হারানো: ল্যাবরেটরি পরীক্ষার ছোট বিচ্যুতি এবং বড় বিচ্যুতির গুণগত পার্থক্য আলাদা করতে পারে না (যেমন ক্রিয়েটিনিনের হালকা বৃদ্ধি বনাম তীব্র বৃদ্ধি)
গুণক ফিউশন অন্যান্য ক্ষেত্রে যোগ বা সংযোগের চেয়ে শক্তিশালী শব্দার্থ একীকরণ প্রদান করতে প্রমাণিত হয়েছে
ক্লিনিক্যাল ডেটার বিশেষ প্রকৃতি (যেমন চিকিৎসা সমতা: বিভিন্ন অস্বাভাবিক বিচ্যুতি একই ক্লিনিক্যাল ঝুঁকির সাথে সামঞ্জস্যপূর্ণ হতে পারে) আরও নমনীয় ফিউশন প্রক্রিয়া প্রয়োজন
একটি সর্বজনীন ফ্রেমওয়ার্ক প্রয়োজন যা ইম্পুটেশন ছাড়াই অনিয়মিত পর্যবেক্ষণ সরাসরি পরিচালনা করতে পারে
১. গুণক মূল্য-বৈশিষ্ট্য ফিউশন: MuFuse মডিউল প্রস্তাব করে, যা মূল্য-শর্তসাপেক্ষ গুণক ফিউশনের মাধ্যমে অ-রৈখিক, বৈশিষ্ট্য-নির্দিষ্ট মডুলেশন সম্পাদন করে, এমবেডিং শব্দভাণ্ডার প্রসারিত না করে
२. সর্বজনীন ইম্পুটেশন-মুক্ত ফ্রেমওয়ার্ক: MuFuse এর উপর ভিত্তি করে MedFuse তৈরি করে, (বৈশিষ্ট্য, মূল্য, টাইমস্ট্যাম্প) ত্রিপদ টোকেনাইজেশন স্কিম ব্যবহার করে অনিয়মিত পরিমাপ সরাসরি মডেল করে
३. ব্যাপক যাচাইকরণ এবং স্থানান্তরযোগ্যতা:
ICU এবং দীর্ঘস্থায়ী রোগ ডেটাসেটে শক্তিশালী বেসলাইনকে ধারাবাহিকভাবে অতিক্রম করে
অ্যাবলেশন অধ্যয়ন যোগ ফিউশনের উপর গুণক ফিউশনের শ্রেষ্ঠত্ব নিশ্চিত করে
স্থানান্তর পরীক্ষা দেখায় যে শেখা বৈশিষ্ট্য এমবেডিং ডেটাসেট জুড়ে পুনরায় ব্যবহার করা যায়
४. তাত্ত্বিক অন্তর্দৃষ্টি: প্রমাণ করে যে সাম্প্রতিক SOTA পদ্ধতি SCANE আসলে MuFuse এর একটি বিশেষ ক্ষেত্র (d'=1), আরও সর্বজনীন ফিউশন প্রক্রিয়া প্রতিষ্ঠা করে
SCANE সরাসরি পর্যবেক্ষণ মূল্য স্কেলার দ্বারা বৈশিষ্ট্য এমবেডিং গুণ করে, আসলে MuFuse এর একটি বিশেষ ক্ষেত্র (d'=1, কোন মূল্য রূপান্তর নেই)। MuFuse নমনীয় মাত্রা নির্বাচন এবং অ-রৈখিক প্রজেকশনের মাধ্যমে শক্তিশালী প্রকাশমূলক ক্ষমতা প্রদান করে।
পরীক্ষা প্রোটোকল:
१. উৎস ডেটাসেটে প্রাক-প্রশিক্ষণ
२. শুধুমাত্র ওভারল্যাপিং বৈশিষ্ট্য (F∩) এর বৈশিষ্ট্য পরিচয় এমবেডিং স্থানান্তর করুন
३. P12 এবং MI3 এ 25 টি ওভারল্যাপিং বৈশিষ্ট্য (P12 এর 59.5%, MI3 এর 18.9%)
টেবিল 3: ডেটাসেট জুড়ে স্থানান্তর ফলাফল
স্থানান্তর দিকনির্দেশনা
AUPRC
উন্নতি
MI3→P12 (বড়→ছোট)
0.5454
+1.7%
P12 র্যান্ডম প্রশিক্ষণ
0.5361
বেসলাইন
MI3 সাব-নমুনা→P12
0.5276
-1.6%
P12→MI3 (ছোট→বড়)
0.6422
-3.3%
MI3 র্যান্ডম প্রশিক্ষণ
0.6639
বেসলাইন
মূল অনুসন্ধান:
উৎস ডেটাসেট আকার গুরুত্বপূর্ণ: বড় ডেটাসেট→ছোট ডেটাসেটে ইতিবাচক স্থানান্তর
ডেটাসেট পরিচয় প্রধান কারণ নয়: MI3 সাব-নমুনা→P12 এখনও নেতিবাচক স্থানান্তর
বৈশিষ্ট্য এমবেডিং পুনঃব্যবহারযোগ্য, কোহর্ট-অজ্ঞেয় শব্দার্থ ক্যাপচার করে
१. গুণক ফিউশন যোগের চেয়ে উত্তম: MuFuse মূল্য-শর্তসাপেক্ষ মডুলেশনের মাধ্যমে বৈশিষ্ট্য-নির্দিষ্ট অ-রৈখিক মিথস্ক্রিয়া বাস্তবায়ন করে
२. সর্বজনীন ইম্পুটেশন-মুক্ত ফ্রেমওয়ার্ক: MedFuse ICU এবং দীর্ঘস্থায়ী রোগ পরিস্থিতিতে কার্যকর
३. স্থানান্তরযোগ্যতা: শেখা বৈশিষ্ট্য এমবেডিং ডেটাসেট জুড়ে অভিযোজন সমর্থন করে (পর্যাপ্ত উৎস ডেটাসেট আকার প্রয়োজন)
४. তাত্ত্বিক একীকরণ: MuFuse SCANE সাধারণীকরণ করে, স্পষ্ট ডিজাইন নীতি প্রদান করে
१. গণনা খরচ: 32-স্তর Transformer রিয়েল-টাইম অ্যাপ্লিকেশন সীমিত করতে পারে
२. স্থানান্তর শর্ত: ডেটাসেট জুড়ে স্থানান্তর বড় আকারের উৎস ডেটাসেট প্রয়োজন
३. বৈশিষ্ট্য ওভারল্যাপ: স্থানান্তর পর্যাপ্ত বৈশিষ্ট্য ওভারল্যাপের উপর নির্ভর করে (এই পরীক্ষায় 18.9%-59.5%)
४. ব্যাখ্যাযোগ্যতা: গুণক মিথস্ক্রিয়ার ক্লিনিক্যাল শব্দার্থ আরও অন্বেষণ প্রয়োজন
५. মাল্টিমোডাল সম্প্রসারণ: বর্তমানে শুধুমাত্র সংখ্যাসূচক এবং শ্রেণীবিভাগ বৈশিষ্ট্য পরিচালনা করে, পাঠ্য, চিত্র অন্তর্ভুক্ত করে না
१. বড় আকারের মাল্টিমোডাল প্রাক-প্রশিক্ষণ: পাঠ্য নোট, চিকিৎসা চিত্রে সম্প্রসারণ
२. কারণ অনুমান: প্রতিফলনমূলক বিশ্লেষণ একীভূত করে ব্যাখ্যাযোগ্যতা বৃদ্ধি করে
३. বিশ্বাসযোগ্য ক্লিনিক্যাল সিদ্ধান্ত সমর্থন: প্রকৃত ক্লিনিক্যাল পরিবেশে স্থাপনা
४. দক্ষ আর্কিটেকচার: সম্পদ-সীমিত পরিস্থিতির জন্য হালকা ভেরিয়েন্ট অন্বেষণ করে
५. সময় এনকোডিং উন্নতি: অনিয়মিত স্যাম্পলিংয়ের জন্য আরও উপযুক্ত অবস্থান এনকোডিং গবেষণা করে
१. উচ্চ অনুপস্থিত হার পরিস্থিতি (>70%): ইম্পুটেশন ছাড়ার সুবিধা স্পষ্ট
२. অনিয়মিত স্যাম্পলিং: ICU পর্যবেক্ষণ, আউটপেশেন্ট অনুসরণ ইত্যাদি অ্যাসিঙ্ক্রোনাস ডেটা
३. সংখ্যাসূচক বৈশিষ্ট্য প্রধান: ল্যাবরেটরি পরীক্ষা, জীবন চিহ্ন ইত্যাদি ক্রমাগত পরিমাপ
४. প্রাক-প্রশিক্ষণ প্রয়োজন: বড় আকারের উৎস ডেটাসেট ব্যবহার করতে পারে
१. রিয়েল-টাইম পূর্বাভাস: 32-স্তর Transformer অনুমান বিলম্ব বেশি
२. ছোট নমুনা পরিস্থিতি: স্থানান্তর শিক্ষা বড় আকারের উৎস ডেটা প্রয়োজন
३. খাঁটি শ্রেণীবিভাগ বৈশিষ্ট্য: গুণক ফিউশন সুবিধা স্পষ্ট নয়
४. সম্পদ-সীমিত পরিবেশ: এজ ডিভাইস, মোবাইল স্বাস্থ্য অ্যাপ্লিকেশন
१. স্ব-অভিযোজন মাত্রা নির্বাচন: k স্বয়ংক্রিয়ভাবে নির্ধারণ করার পদ্ধতি বিকাশ করে (যেমন নিউরাল আর্কিটেকচার অনুসন্ধান)
२. হালকা ভেরিয়েন্ট: গণনা খরচ হ্রাস করতে জ্ঞান পাতন বা ছাঁটাই অন্বেষণ করে
३. মাল্টিমোডাল সম্প্রসারণ: ক্লিনিক্যাল নোট, চিকিৎসা ডেটা একীভূত করে
४. ব্যাখ্যাযোগ্যতা বৃদ্ধি: বৈশিষ্ট্য মিথস্ক্রিয়ার ক্লিনিক্যাল শব্দার্থ ব্যাখ্যা প্রদান করে
५. কোড এবং মডেল প্রকাশ: সম্প্রদায় যাচাইকরণ এবং প্রয়োগ প্রচার করে
१. Huang et al. (2024): SCANE/SUMMIT - এই পেপারের উন্নত SOTA বেসলাইন
२. Chrysos et al. (2025): গভীর শিক্ষায় Hadamard পণ্যের সমীক্ষা
३. Tipirneni & Reddy (2022): STraTS - EVAT প্যারাডাইমের প্রতিনিধি কাজ
४. Shukla & Marlin (2021): mTAN - ক্রমাগত সময় মনোযোগ প্রক্রিয়া
५. Vaswani et al. (2017): Transformer - এই পেপারের মেরুদণ্ড আর্কিটেকচার
६. Johnson et al. (2016): MIMIC-III ডাটাবেস - মূল মূল্যায়ন ডেটাসেট
MedFuse ক্লিনিক্যাল টাইম সিরিজ মডেলিং ক্ষেত্রে বাস্তব অবদান সহ একটি পেপার। এর মূল উদ্ভাবন — গুণক এমবেডিং ফিউশন (MuFuse) — শুধুমাত্র তাত্ত্বিকভাবে বিদ্যমান SOTA পদ্ধতি সুন্দরভাবে সাধারণীকরণ করে না, বরং একাধিক বাস্তব-বিশ্ব ডেটাসেটে ধারাবাহিক কর্মক্ষমতা উন্নতি অর্জন করে। পেপারের পরীক্ষা ডিজাইন ব্যাপক, প্রধান কর্মক্ষমতা তুলনা থেকে অ্যাবলেশন অধ্যয়ন, মাত্রা বিশ্লেষণ এবং স্থানান্তর শিক্ষা পর্যন্ত, পদ্ধতির কার্যকারিতা সিস্টেমেটিকভাবে যাচাই করে।
বিশেষভাবে প্রশংসনীয় হল পেপারের চিকিৎসা সমতা (medical equifinality) সম্পর্কে অন্তর্দৃষ্টি — গুণক ফিউশনের মাস্কিং প্রভাবের মাধ্যমে স্বাভাবিকভাবে বিভিন্ন অস্বাভাবিক বিচ্যুতি যা একই ক্লিনিক্যাল ঝুঁকির সাথে সামঞ্জস্যপূর্ণ তা মডেল করে, যা ক্লিনিক্যাল ক্ষেত্রে লেখকদের গভীর বোঝাপড়া প্রদর্শন করে।
তবে, পেপারে কিছু অপূর্ণতা রয়েছে: উচ্চ গণনা খরচ, সীমিত স্থানান্তর শিক্ষা পরীক্ষা, কোড প্রকাশ অভাব ইত্যাদি। তা সত্ত্বেও, MedFuse অনিয়মিত ক্লিনিক্যাল টাইম সিরিজ মডেলিংয়ের জন্য একটি শক্তিশালী এবং সর্বজনীন ফ্রেমওয়ার্ক প্রদান করে, চিকিৎসা AI ক্ষেত্রের উন্নয়ন প্রচারে গুরুত্বপূর্ণ অর্থ রাখে। মাল্টিমোডাল সম্প্রসারণ, ব্যাখ্যাযোগ্যতা এবং প্রকৃত ক্লিনিক্যাল স্থাপনায় পরবর্তী কাজের অগ্রগতি দেখার জন্য প্রত্যাশা করছি।