MedFuse: Multiplicative Embedding Fusion For Irregular Clinical Time Series
Hsieh, Chien, Huang et al.
Clinical time series derived from electronic health records (EHRs) are inherently irregular, with asynchronous sampling, missing values, and heterogeneous feature dynamics. While numerical laboratory measurements are highly informative, existing embedding strategies usually combine feature identity and value embeddings through additive operations, which constrains their ability to capture value-dependent feature interactions. We propose MedFuse, a framework for irregular clinical time series centered on the MuFuse (Multiplicative Embedding Fusion) module. MuFuse fuses value and feature embeddings through multiplicative modulation, preserving feature-specific information while modeling higher-order dependencies across features. Experiments on three real-world datasets covering both intensive and chronic care show that MedFuse consistently outperforms state-of-the-art baselines on key predictive tasks. Analysis of the learned representations further demonstrates that multiplicative fusion enhances expressiveness and supports cross-dataset pretraining. These results establish MedFuse as a generalizable approach for modeling irregular clinical time series.
academic
MedFuse: अनियमित क्लिनिकल समय श्रृंखला के लिए गुणक एम्बेडिंग फ्यूजन
इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड (EHR) में क्लिनिकल समय श्रृंखला में अंतर्निहित अनियमितता होती है, जिसमें अतुल्यकालिक नमूनाकरण, लापता मान और विषम विशेषता गतिशीलता शामिल है। मौजूदा एम्बेडिंग रणनीतियाँ आमतौर पर योजक संचालन के माध्यम से विशेषता पहचान और संख्यात्मक एम्बेडिंग को जोड़ती हैं, जो मान-निर्भर विशेषता इंटरैक्शन को कैप्चर करने की क्षमता को सीमित करती है। यह पेपर MedFuse ढांचा प्रस्तावित करता है, जिसका मूल MuFuse (गुणक एम्बेडिंग फ्यूजन) मॉड्यूल है। MuFuse गुणक मॉड्यूलेशन के माध्यम से संख्यात्मक और विशेषता एम्बेडिंग को फ्यूज करता है, विशेषता-विशिष्ट जानकारी को संरक्षित करते हुए उच्च-क्रम निर्भरता को मॉडल करता है। तीन वास्तविक-विश्व डेटासेट पर प्रयोग दिखाते हैं कि MedFuse महत्वपूर्ण पूर्वानुमान कार्यों पर लगातार अत्याधुनिक आधारभूत से बेहतर प्रदर्शन करता है। सीखे गए प्रतिनिधित्व का विश्लेषण आगे साबित करता है कि गुणक फ्यूजन अभिव्यक्ति क्षमता को बढ़ाता है और डेटासेट भर में पूर्व-प्रशिक्षण का समर्थन करता है।
क्लिनिकल समय श्रृंखला मॉडलिंग तीन प्रमुख चुनौतियों का सामना करती है:
अनियमित नमूनाकरण: जीवन संकेत बार-बार निगरानी की जा सकती है, जबकि प्रयोगशाला परीक्षण केवल नैदानिक आवश्यकता पर किए जाते हैं, रोगी निर्धारित दौरे को याद कर सकते हैं
उच्च लापता दर: डेटासेट में औसत लापता दर 73.77%-88.14% तक पहुंचती है
संख्यात्मक प्रतिनिधित्व कठिनाई: प्रयोगशाला संख्यात्मक मान निरंतर श्रेणी में जटिल जानकारी को एन्कोड करते हैं, सिद्धांत रूप में असीम प्रतिनिधित्व की आवश्यकता होती है
मौजूदा EVAT (Each Value As Token) विधियाँ मुख्य रूप से योजक फ्यूजन अपनाती हैं:
संख्यात्मक एम्बेडिंग को विशेषता एम्बेडिंग के योजक ऑफसेट के रूप में मानती हैं
अभिव्यक्ति क्षमता को सीमित करता है: मान-निर्भर गैर-रैखिक इंटरैक्शन को कैप्चर करना मुश्किल है
क्लिनिकल शब्दार्थ हानि: प्रयोगशाला परीक्षण के छोटे विचलन बनाम बड़े विचलन के गुणात्मक अंतर को अलग नहीं कर सकता (जैसे क्रिएटिनिन में मामूली वृद्धि बनाम तीव्र वृद्धि)
गुणक फ्यूजन अन्य क्षेत्रों में योजक या संयोजन से बेहतर शब्दार्थ एकीकरण प्रदान करने के लिए सिद्ध किया गया है
क्लिनिकल डेटा की विशेष प्रकृति (जैसे चिकित्सा समतुल्यता: विभिन्न असामान्य विचलन समान क्लिनिकल जोखिम के अनुरूप हो सकते हैं) अधिक लचीली फ्यूजन तंत्र की आवश्यकता है
एक सार्वभौमिक ढांचे की आवश्यकता है जो प्रक्षेप के बिना, अनियमित अवलोकन को सीधे संभाल सके
गुणक मान-विशेषता फ्यूजन: MuFuse मॉड्यूल प्रस्तावित करता है, जो मान-सशर्त गुणक फ्यूजन के माध्यम से गैर-रैखिक, विशेषता-विशिष्ट मॉड्यूलेशन करता है, एम्बेडिंग शब्दावली का विस्तार किए बिना
सार्वभौमिक प्रक्षेप-मुक्त ढांचा: MuFuse के आधार पर MedFuse का निर्माण, (विशेषता, मान, समय मुहर) ट्रिपल टोकनीकरण योजना अपनाता है जो अनियमित माप को सीधे मॉडल करता है
व्यापक सत्यापन और स्थानांतरणीयता:
ICU और पुरानी बीमारी डेटासेट पर मजबूत आधारभूत से लगातार बेहतर प्रदर्शन
विलोपन अध्ययन गुणक को योजक फ्यूजन से बेहतर साबित करता है
स्थानांतरण प्रयोग दिखाते हैं कि सीखी गई विशेषता एम्बेडिंग डेटासेट भर में पुनः उपयोग की जा सकती है
सैद्धांतिक अंतर्दृष्टि: साबित करता है कि हाल की SOTA विधि SCANE वास्तव में MuFuse का विशेष मामला है (d'=1), अधिक सार्वभौमिक फ्यूजन तंत्र स्थापित करता है
क्लिनिकल परिदृश्य: कम सोडियम और उच्च सोडियम दोनों दौरे का कारण बन सकते हैं
योजक फ्यूजन: विभिन्न मान श्रेणियों के लिए समान एम्बेडिंग निर्दिष्ट करने की आवश्यकता है, लचीलापन खो देता है
MuFuse: तत्व-स्तरीय गुणा के माध्यम से, भले ही ev भिन्न हो, ef को मुखौटा के रूप में उपयोग करके विभिन्न एम्बेडिंग को समान प्रतिनिधित्व में संक्षिप्त कर सकता है
SCANE सीधे अवलोकन मान को विशेषता एम्बेडिंग से गुणा करता है, वास्तव में MuFuse का विशेष मामला है (d'=1, कोई मान रूपांतरण नहीं)। MuFuse लचीले आयाम चयन और गैर-रैखिक प्रक्षेपण के माध्यम से मजबूत अभिव्यक्ति क्षमता प्रदान करता है।
MedFuse क्लिनिकल समय श्रृंखला मॉडलिंग क्षेत्र में वास्तविक योगदान वाला एक पेपर है। इसका मूल नवाचार — गुणक एम्बेडिंग फ्यूजन (MuFuse) — न केवल सैद्धांतिक रूप से मौजूदा SOTA विधि को सुंदरता से सामान्य करता है, बल्कि कई वास्तविक-विश्व डेटासेट पर सुसंगत प्रदर्शन सुधार भी प्राप्त करता है। पेपर का प्रयोग डिजाइन व्यापक है, मुख्य प्रदर्शन तुलना से विलोपन अध्ययन, आयाम विश्लेषण और स्थानांतरण शिक्षण तक, विधि की प्रभावशीलता को व्यवस्थित रूप से सत्यापित करता है।
विशेष रूप से प्रशंसनीय है पेपर की चिकित्सा समतुल्यता (medical equifinality) में अंतर्दृष्टि — गुणक फ्यूजन के मास्किंग प्रभाव के माध्यम से स्वाभाविक रूप से विभिन्न असामान्य विचलन के अनुरूप समान क्लिनिकल जोखिम की घटना को मॉडल करता है, जो क्लिनिकल क्षेत्र के लिए लेखकों की गहन समझ प्रदर्शित करता है।
हालांकि, पेपर में कुछ कमियाँ भी हैं: उच्च कम्प्यूटेशनल लागत, सीमित स्थानांतरण शिक्षण प्रयोग, कोड प्रकाशन की कमी आदि। फिर भी, MedFuse अनियमित क्लिनिकल समय श्रृंखला मॉडलिंग के लिए एक शक्तिशाली और सार्वभौमिक ढांचा प्रदान करता है, चिकित्सा AI क्षेत्र के विकास को आगे बढ़ाने में महत्वपूर्ण है। बहु-मोडल विस्तार, व्याख्यात्मकता और वास्तविक क्लिनिकल तैनाती के संदर्भ में आगामी कार्य की प्रत्याशा है।