MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: बहु-मोडल ब्रेन ट्यूमर विभाजन के लिए श्रेणी-अज्ञेयवादी प्रॉम्प्टिंग के साथ मोडैलिटी-और-स्लाइस मेमोरी फ्रेमवर्क
बहु-मोडल ब्रेन ट्यूमर विभाजन नैदानिक निदान के लिए महत्वपूर्ण है, जिसमें विभिन्न आंतरिक शारीरिक उप-क्षेत्रों की सटीक पहचान की आवश्यकता होती है। हालांकि हाल ही में प्रॉम्प्ट-आधारित विभाजन प्रतिमान चिकित्सकों को इंटरैक्टिव अनुभव प्रदान करते हैं, मौजूदा विधियां क्रॉस-मोडैलिटी सहसंबंध को नजरअंदाज करती हैं, श्रम-गहन श्रेणी-विशिष्ट प्रॉम्प्ट पर निर्भर करती हैं, और वास्तविक परिदृश्यों में इसकी प्रयोज्यता को सीमित करती हैं। इन समस्याओं को हल करने के लिए, यह पेपर बहु-मोडल ब्रेन ट्यूमर विभाजन के लिए MSM-Seg फ्रेमवर्क प्रस्तावित करता है। MSM-Seg एक नवीन दोहरी-मेमोरी विभाजन प्रतिमान प्रस्तुत करता है जो बहु-मोडल और स्लाइस-अंतर-संबंधी जानकारी को कुशल श्रेणी-अज्ञेयवादी प्रॉम्प्टिंग के साथ सहक्रियात्मक रूप से एकीकृत करता है।
बहु-मोडल ब्रेन ट्यूमर विभाजन की जटिलता: विषम ट्यूमर घटकों की एक साथ पहचान की आवश्यकता है, जिसमें विपरीत-वर्धित कोर, नेक्रोटिक क्षेत्र और पेरिट्यूमोरल एडिमा शामिल हैं, जिनमें से प्रत्येक ट्यूमर ग्रेडिंग और उपचार निर्णय के लिए विभिन्न नैदानिक बायोमार्कर प्रदान करता है।
मौजूदा विधियों की सीमाएं:
शास्त्रीय 3D बहु-मोडल विभाजन फ्रेमवर्क वॉल्यूम प्रसंस्करण की अंतर्निहित कम्प्यूटेशनल अक्षमता से सीमित हैं
आसन्न स्लाइस के बीच प्राकृतिक अनुक्रमिक संबंध को नजरअंदाज करते हैं
SAM2 जैसी विधियां प्रॉम्प्ट के रूप में श्रेणी-विशिष्ट एनोटेशन पर निर्भर करती हैं, जिसमें श्रम-गहन मैनुअल एनोटेशन की आवश्यकता होती है
मौजूदा विधियां आमतौर पर विभिन्न MRI मोडैलिटी को स्वतंत्र रूप से संसाधित करती हैं या सरल पूर्व कनेक्शन के माध्यम से, मोडैलिटी के बीच समृद्ध पूरक जानकारी का पूर्ण उपयोग नहीं करती हैं
विभिन्न MRI मोडैलिटी में मजबूत पूरक संबंध हैं: FLAIR अनुक्रम पेरिट्यूमोरल एडिमा और उच्च-संकेत घावों को प्रदर्शित करने में माहिर है, जबकि T1c अनुक्रम सक्रिय ट्यूमर क्षेत्रों और रक्त-मस्तिष्क बाधा टूटने का विपरीत-वर्धित दृश्य प्रदान करता है। यह पूरक संबंध एक एकीकृत फ्रेमवर्क विकसित करने की आवश्यकता को प्रेरित करता है जो क्रॉस-मोडैलिटी संबंध और स्थानिक निरंतरता को प्रभावी ढंग से कैप्चर कर सके।
दोहरी-मेमोरी विभाजन प्रतिमान प्रस्तावित करना: इनपुट स्कैन में क्रॉस-मोडैलिटी और स्लाइस-अंतर-संबंधी संबंधों का उपयोग करके ट्यूमर उप-क्षेत्रों की व्यापक समझ प्राप्त करना
मोडैलिटी और स्लाइस मेमोरी अटेंशन मैकेनिज्म (MSMA) डिजाइन करना: क्रॉस-मोडैलिटी और स्लाइस-अंतर-संबंधी संबंधों का कुशलतापूर्वक उपयोग करके बहु-मोडल फीचर प्रतिनिधित्व को बढ़ाना
बहु-स्केल श्रेणी-अज्ञेयवादी प्रॉम्प्ट एनकोडर (MCP-Encoder) विकसित करना: ट्यूमर क्षेत्र मार्गदर्शन प्रदान करना और मोडैलिटी स्व-अनुकूली फ्यूजन डिकोडर (MF-Decoder) डिजाइन करना
ग्लियोमा और मेटास्टेटिक ट्यूमर डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: मौजूदा अत्याधुनिक विभाजन विधियों को पार करना
बहु-मोडल MRI स्कैन {X_{t,m}} दिया गया है, जहां t ∈ {1,...,T} स्लाइस इंडेक्स को दर्शाता है, m ∈ {1,...,M} मोडैलिटी इंडेक्स को दर्शाता है, लक्ष्य सटीक ब्रेन ट्यूमर विभाजन मास्क उत्पन्न करना है, जो तीन पदानुक्रमित क्षेत्रों की पहचान करता है: वर्धित ट्यूमर (ET), ट्यूमर कोर (TC) और संपूर्ण ट्यूमर (WT)।
मुख्य विचार क्रमिक मेमोरी एकीकरण स्थापित करना है, संपूर्ण ट्यूमर संरचना की समझ को क्रमिक रूप से परिष्कृत करना। इनपुट स्लाइस X_{t,m} दिया गया है, मॉडल लेटेंट स्टेट S_{t,m} ∈ R^{C×H×W} को बनाए रखता है, अपडेट नियम है:
प्रत्येक मोडैलिटी m के लिए स्लाइस t पर, मेमोरी-वर्धित एम्बेडिंग Z_{t,m} और संबंधित ट्यूमर मार्गदर्शन P_{t,m} प्राप्त करता है। तत्व-स्तरीय जोड़ के माध्यम से प्रॉम्प्ट एम्बेडिंग को फ्यूज करना:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
मोडैलिटी-विशिष्ट भविष्यवाणी उत्पन्न करना:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
अंतिम विभाजन मास्क स्व-अनुकूली भारण रणनीति के माध्यम से प्राप्त किया जाता है:
BraTS-METS: ब्रेन मेटास्टेटिक ट्यूमर विभाजन डेटासेट, जिसमें 652 बहु-विपरीत MRI परीक्षाएं शामिल हैं, जो T1, T1c, T2, FLAIR चार मोडैलिटी को कवर करती हैं
BraTS-AGPT: वयस्क उपचार-पश्चात ग्लियोमा विभाजन डेटासेट, जिसमें 1,349 उदाहरण शामिल हैं, जो उपचार हस्तक्षेप के बाद अवशिष्ट या पुनरावर्ती ग्लियोमा के विभाजन पर ध्यान केंद्रित करते हैं
पारंपरिक विधियां (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) और प्रॉम्प्ट-आधारित विधियां (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2) शामिल हैं
t-परीक्षण विश्लेषण विभिन्न मोडैलिटी इनपुट अनुक्रमों के बीच कोई महत्वपूर्ण अंतर नहीं दिखाता है (P मान >0.05), मोडैलिटी अनुक्रम परिवर्तन के लिए MSM-Seg की महत्वपूर्ण दृढ़ता को प्रमाणित करता है।
प्रारंभिक अनुसंधान 3D CNN के साथ U-आकार एनकोडर-डिकोडर फ्रेमवर्क अपनाते हैं। हाल के विधियां 3D CNN को विजन ट्रांसफॉर्मर के साथ एकीकृत करती हैं ताकि स्थानीय स्थानिक पैटर्न और वैश्विक संदर्भ जानकारी को कैप्चर किया जा सके। वर्तमान अनुसंधान विजन Mamba और RWKV का उपयोग करके ViT को प्रतिस्थापित करने की खोज करता है ताकि रैखिक कम्प्यूटेशनल जटिलता के साथ लंबी दूरी की निर्भरता को मॉडल किया जा सके।
मेमोरी तंत्र वीडियो ऑब्जेक्ट विभाजन कार्यों में व्यापक रूप से लागू होते हैं। SAM2 जटिल मेमोरी लाइब्रेरी और मेमोरी अटेंशन तंत्र प्रस्तुत करता है ताकि वॉल्यूम स्कैन में अनुक्रमिक स्लाइस के बीच भविष्यवाणी सामंजस्य को बढ़ाया जा सके। ReSurgSAM2, Medical SAM2 जैसे बाद के कार्य मेमोरी लाइब्रेरी भंडारण और समानता माप को अनुकूलित करते हैं।
MSM-Seg दोहरी-मेमोरी विभाजन प्रतिमान के माध्यम से क्रॉस-मोडैलिटी और स्लाइस-अंतर-संबंधी जानकारी को प्रभावी ढंग से एकीकृत करता है, श्रेणी-अज्ञेयवादी प्रॉम्प्ट डिजाइन के साथ मिलकर, बहु-मोडल ब्रेन ट्यूमर विभाजन कार्य पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है, नैदानिक अनुप्रयोग के लिए एक कुशल और व्यावहारिक समाधान प्रदान करता है।
यह कार्य बहु-मोडल चिकित्सा इमेज विभाजन के लिए एक नई तकनीकी प्रतिमान प्रदान करता है, दोहरी-मेमोरी तंत्र और श्रेणी-अज्ञेयवादी प्रॉम्प्ट डिजाइन में व्यापक अनुप्रयोग क्षमता है, चिकित्सा इमेज विश्लेषण क्षेत्र पर महत्वपूर्ण प्रभाव डालने की अपेक्षा है।
पेपर 45 संबंधित संदर्भों का हवाला देता है, जिसमें बहु-मोडल विभाजन, विजन ट्रांसफॉर्मर, SAM श्रृंखला विधियां आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।