2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.

Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.

academic

MSM-Seg: बहु-मोडल ब्रेन ट्यूमर विभाजन के लिए श्रेणी-अज्ञेयवादी प्रॉम्प्टिंग के साथ मोडैलिटी-और-स्लाइस मेमोरी फ्रेमवर्क

बुनियादी जानकारी

पेपर ID: 2510.10679
शीर्षक: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
लेखक: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
वर्गीकरण: cs.CV (कंप्यूटर विजन)
प्रकाशित पत्रिका: IEEE Transactions on Medical Imaging
पेपर लिंक: https://arxiv.org/abs/2510.10679
कोड लिंक: https://github.com/xq141839/MSM-Seg

सारांश

बहु-मोडल ब्रेन ट्यूमर विभाजन नैदानिक निदान के लिए महत्वपूर्ण है, जिसमें विभिन्न आंतरिक शारीरिक उप-क्षेत्रों की सटीक पहचान की आवश्यकता होती है। हालांकि हाल ही में प्रॉम्प्ट-आधारित विभाजन प्रतिमान चिकित्सकों को इंटरैक्टिव अनुभव प्रदान करते हैं, मौजूदा विधियां क्रॉस-मोडैलिटी सहसंबंध को नजरअंदाज करती हैं, श्रम-गहन श्रेणी-विशिष्ट प्रॉम्प्ट पर निर्भर करती हैं, और वास्तविक परिदृश्यों में इसकी प्रयोज्यता को सीमित करती हैं। इन समस्याओं को हल करने के लिए, यह पेपर बहु-मोडल ब्रेन ट्यूमर विभाजन के लिए MSM-Seg फ्रेमवर्क प्रस्तावित करता है। MSM-Seg एक नवीन दोहरी-मेमोरी विभाजन प्रतिमान प्रस्तुत करता है जो बहु-मोडल और स्लाइस-अंतर-संबंधी जानकारी को कुशल श्रेणी-अज्ञेयवादी प्रॉम्प्टिंग के साथ सहक्रियात्मक रूप से एकीकृत करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मुख्य समस्याएं

बहु-मोडल ब्रेन ट्यूमर विभाजन की जटिलता: विषम ट्यूमर घटकों की एक साथ पहचान की आवश्यकता है, जिसमें विपरीत-वर्धित कोर, नेक्रोटिक क्षेत्र और पेरिट्यूमोरल एडिमा शामिल हैं, जिनमें से प्रत्येक ट्यूमर ग्रेडिंग और उपचार निर्णय के लिए विभिन्न नैदानिक बायोमार्कर प्रदान करता है।
मौजूदा विधियों की सीमाएं:
- शास्त्रीय 3D बहु-मोडल विभाजन फ्रेमवर्क वॉल्यूम प्रसंस्करण की अंतर्निहित कम्प्यूटेशनल अक्षमता से सीमित हैं
- आसन्न स्लाइस के बीच प्राकृतिक अनुक्रमिक संबंध को नजरअंदाज करते हैं
- SAM2 जैसी विधियां प्रॉम्प्ट के रूप में श्रेणी-विशिष्ट एनोटेशन पर निर्भर करती हैं, जिसमें श्रम-गहन मैनुअल एनोटेशन की आवश्यकता होती है
- मौजूदा विधियां आमतौर पर विभिन्न MRI मोडैलिटी को स्वतंत्र रूप से संसाधित करती हैं या सरल पूर्व कनेक्शन के माध्यम से, मोडैलिटी के बीच समृद्ध पूरक जानकारी का पूर्ण उपयोग नहीं करती हैं

अनुसंधान प्रेरणा

विभिन्न MRI मोडैलिटी में मजबूत पूरक संबंध हैं: FLAIR अनुक्रम पेरिट्यूमोरल एडिमा और उच्च-संकेत घावों को प्रदर्शित करने में माहिर है, जबकि T1c अनुक्रम सक्रिय ट्यूमर क्षेत्रों और रक्त-मस्तिष्क बाधा टूटने का विपरीत-वर्धित दृश्य प्रदान करता है। यह पूरक संबंध एक एकीकृत फ्रेमवर्क विकसित करने की आवश्यकता को प्रेरित करता है जो क्रॉस-मोडैलिटी संबंध और स्थानिक निरंतरता को प्रभावी ढंग से कैप्चर कर सके।

मुख्य योगदान

दोहरी-मेमोरी विभाजन प्रतिमान प्रस्तावित करना: इनपुट स्कैन में क्रॉस-मोडैलिटी और स्लाइस-अंतर-संबंधी संबंधों का उपयोग करके ट्यूमर उप-क्षेत्रों की व्यापक समझ प्राप्त करना
मोडैलिटी और स्लाइस मेमोरी अटेंशन मैकेनिज्म (MSMA) डिजाइन करना: क्रॉस-मोडैलिटी और स्लाइस-अंतर-संबंधी संबंधों का कुशलतापूर्वक उपयोग करके बहु-मोडल फीचर प्रतिनिधित्व को बढ़ाना
बहु-स्केल श्रेणी-अज्ञेयवादी प्रॉम्प्ट एनकोडर (MCP-Encoder) विकसित करना: ट्यूमर क्षेत्र मार्गदर्शन प्रदान करना और मोडैलिटी स्व-अनुकूली फ्यूजन डिकोडर (MF-Decoder) डिजाइन करना
ग्लियोमा और मेटास्टेटिक ट्यूमर डेटासेट पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करना: मौजूदा अत्याधुनिक विभाजन विधियों को पार करना

विधि विवरण

कार्य परिभाषा

बहु-मोडल MRI स्कैन {X_{t,m}} दिया गया है, जहां t ∈ {1,...,T} स्लाइस इंडेक्स को दर्शाता है, m ∈ {1,...,M} मोडैलिटी इंडेक्स को दर्शाता है, लक्ष्य सटीक ब्रेन ट्यूमर विभाजन मास्क उत्पन्न करना है, जो तीन पदानुक्रमित क्षेत्रों की पहचान करता है: वर्धित ट्यूमर (ET), ट्यूमर कोर (TC) और संपूर्ण ट्यूमर (WT)।

मॉडल आर्किटेक्चर

1. दोहरी-मेमोरी विभाजन प्रतिमान

मुख्य विचार क्रमिक मेमोरी एकीकरण स्थापित करना है, संपूर्ण ट्यूमर संरचना की समझ को क्रमिक रूप से परिष्कृत करना। इनपुट स्लाइस X_{t,m} दिया गया है, मॉडल लेटेंट स्टेट S_{t,m} ∈ R^{C×H×W} को बनाए रखता है, अपडेट नियम है:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

जहां:

R(·) स्टेट अपडेट फंक्शन है
P(·) विभाजन भविष्यवाणी हेड है
S_{t,≺m} वर्तमान स्लाइस t से पहले की मोडैलिटी के क्रॉस-मोडैलिटी संदर्भ को दर्शाता है
S_{≺t} पूर्ववर्ती स्लाइस के स्लाइस-अंतर-संबंधी संदर्भ को दर्शाता है
θ_{t,m} कुशल श्रेणी-अज्ञेयवादी प्रॉम्प्ट है

2. मोडैलिटी और स्लाइस मेमोरी अटेंशन (MSMA)

इमेज एम्बेडिंग F को चैनल आयाम के साथ समान रूप से विभाजित करना:

[F_slice, F_modal] = Split(F)

स्व-अटेंशन के माध्यम से एम्बेडिंग को अपडेट करना:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

मेमोरी लाइब्रेरी जानकारी को एकीकृत करने के लिए क्रॉस-अटेंशन लागू करना:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. बहु-स्केल श्रेणी-अज्ञेयवादी प्रॉम्प्ट एनकोडर (MCP-Encoder)

दो मोड का समर्थन करता है:

श्रेणी-अज्ञेयवादी प्रॉम्प्ट मोड: केवल संपूर्ण ट्यूमर क्षेत्र को कवर करने वाले एकल बाउंडिंग बॉक्स की आवश्यकता होती है
स्वचालित मोड: कोई मैनुअल एनोटेशन की आवश्यकता नहीं, स्वायत्त रूप से ट्यूमर क्षेत्र मार्गदर्शन उत्पन्न करता है

बहु-स्केल फ्यूजन प्रक्रिया:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

अंतिम ट्यूमर क्षेत्र मार्गदर्शन:

P = DS(σ(φ(F^fusion_l)))

4. मोडैलिटी स्व-अनुकूली फ्यूजन डिकोडर (MF-Decoder)

प्रत्येक मोडैलिटी m के लिए स्लाइस t पर, मेमोरी-वर्धित एम्बेडिंग Z_{t,m} और संबंधित ट्यूमर मार्गदर्शन P_{t,m} प्राप्त करता है। तत्व-स्तरीय जोड़ के माध्यम से प्रॉम्प्ट एम्बेडिंग को फ्यूज करना:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

मोडैलिटी-विशिष्ट भविष्यवाणी उत्पन्न करना:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

अंतिम विभाजन मास्क स्व-अनुकूली भारण रणनीति के माध्यम से प्राप्त किया जाता है:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

तकनीकी नवाचार बिंदु

दोहरी-मेमोरी तंत्र: पहली बार क्रॉस-मोडैलिटी और स्लाइस-अंतर-संबंधी संबंधों को एक साथ मॉडल करना, मोडैलिटी और स्लाइस के बीच अलगाववाद को तोड़ना
श्रेणी-अज्ञेयवादी प्रॉम्प्ट: श्रम-गहन श्रेणी-विशिष्ट एनोटेशन से मुक्त होना, नैदानिक प्रयोज्यता में सुधार करना
मोडैलिटी स्व-अनुकूली फ्यूजन: प्रत्येक वॉक्सल के लिए सबसे सूचनापूर्ण मोडैलिटी को गतिशील रूप से चुनना
मेमोरी-वर्धित अटेंशन: लंबी दूरी की निर्भरता और संदर्भ जानकारी को प्रभावी ढंग से कैप्चर करना

प्रायोगिक सेटअप

डेटासेट

BraTS-METS: ब्रेन मेटास्टेटिक ट्यूमर विभाजन डेटासेट, जिसमें 652 बहु-विपरीत MRI परीक्षाएं शामिल हैं, जो T1, T1c, T2, FLAIR चार मोडैलिटी को कवर करती हैं

BraTS-AGPT: वयस्क उपचार-पश्चात ग्लियोमा विभाजन डेटासेट, जिसमें 1,349 उदाहरण शामिल हैं, जो उपचार हस्तक्षेप के बाद अवशिष्ट या पुनरावर्ती ग्लियोमा के विभाजन पर ध्यान केंद्रित करते हैं

मूल्यांकन मेट्रिक्स

Dice समानता गुणांक: विभाजन गुणवत्ता को मापता है, उच्च मान बेहतर प्रदर्शन को दर्शाता है
95% हॉसडॉर्फ दूरी (HD95): सीमा चित्रण सटीकता का मूल्यांकन करता है, कम मान अधिक सटीक सीमा को दर्शाता है

तीन पदानुक्रमित ट्यूमर क्षेत्रों का मूल्यांकन:

वर्धित ट्यूमर (ET): वर्धित ट्यूमर क्षेत्र
ट्यूमर कोर (TC): ET और आसपास के गैर-वर्धित FLAIR उच्च-संकेत का संयोजन
संपूर्ण ट्यूमर (WT): TC और गैर-वर्धित ट्यूमर कोर का संयोजन

तुलनात्मक विधियां

पारंपरिक विधियां (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) और प्रॉम्प्ट-आधारित विधियां (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2) शामिल हैं

कार्यान्वयन विवरण

हार्डवेयर: NVIDIA A6000 GPU
ऑप्टिमाइजर: AdamW (β1=0.9, β2=0.999)
सीखने की दर: 1×10^-4, वजन क्षय 0.01
बैच आकार: 16, प्रशिक्षण एपोक: 300
इमेज आकार: 256×256
मोडैलिटी मेमोरी लाइब्रेरी k=3, स्लाइस मेमोरी लाइब्रेरी n=7

प्रायोगिक परिणाम

मुख्य परिणाम

BraTS-METS डेटासेट:

MSM-Seg 79.51% औसत Dice स्कोर प्राप्त करता है, सर्वश्रेष्ठ पारंपरिक विधि SegMamba-V2 (73.92%) को 5.59% से पार करता है
सर्वश्रेष्ठ प्रॉम्प्ट विधि SAMed-2 (77.47%) की तुलना में 2.04% सुधार
HD95 SAMed-2 के 14.27mm से घटकर 13.75mm हो गया

BraTS-AGPT डेटासेट:

MSM-Seg 83.84% औसत Dice स्कोर प्राप्त करता है, SegMamba-V2 (76.49%) को 7.35% से पार करता है
SAMed-2 (81.44%) की तुलना में 2.40% सुधार
HD95 SAMed-2 के 6.12mm से घटकर 5.56mm हो गया

विलोपन प्रयोग

विभिन्न घटकों के योगदान को सत्यापित करने के लिए व्यवस्थित विलोपन अध्ययन:

MSMA: 0.65% और 0.81% की Dice वृद्धि प्रदान करता है
MCP-Encoder: अतिरिक्त 0.87% और 1.07% वृद्धि में योगदान देता है
MF-Decoder: आगे 1.08% और 1.33% वृद्धि करता है
दोहरी-मेमोरी प्रतिमान: सबसे महत्वपूर्ण योगदान, औसत 1.73% और 2.08% वृद्धि

मेमोरी क्षमता विश्लेषण

मोडैलिटी मेमोरी क्षमता: k=0 से k=3 तक वृद्धि निरंतर प्रदर्शन सुधार दिखाती है, k=3 सर्वश्रेष्ठ परिणाम प्राप्त करता है, औसत Dice 5.13% और 3.98% वृद्धि

स्लाइस मेमोरी क्षमता: n=0 से n=16 तक महत्वपूर्ण सुधार दिखाता है, n=8 सटीकता और दक्षता का सर्वश्रेष्ठ संतुलन प्रदान करता है

मोडैलिटी अनुक्रम दृढ़ता

t-परीक्षण विश्लेषण विभिन्न मोडैलिटी इनपुट अनुक्रमों के बीच कोई महत्वपूर्ण अंतर नहीं दिखाता है (P मान >0.05), मोडैलिटी अनुक्रम परिवर्तन के लिए MSM-Seg की महत्वपूर्ण दृढ़ता को प्रमाणित करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

MSM-Seg दोहरी-मेमोरी विभाजन प्रतिमान के माध्यम से क्रॉस-मोडैलिटी और स्लाइस-अंतर-संबंधी जानकारी को प्रभावी ढंग से एकीकृत करता है, श्रेणी-अज्ञेयवादी प्रॉम्प्ट डिजाइन के साथ मिलकर, बहु-मोडल ब्रेन ट्यूमर विभाजन कार्य पर महत्वपूर्ण प्रदर्शन सुधार प्राप्त करता है, नैदानिक अनुप्रयोग के लिए एक कुशल और व्यावहारिक समाधान प्रदान करता है।

सीमाएं

कम्प्यूटेशनल ओवरहेड: दोहरी-मेमोरी तंत्र अनुमान विलंब को बढ़ाता है, 3.86s से 4.17s तक
मेमोरी क्षमता सीमा: बड़ी मेमोरी क्षमता के सीमांत लाभ में कमी
डेटासेट आकार: केवल दो BraTS डेटासेट पर सत्यापित, अधिक व्यापक डेटासेट सत्यापन की आवश्यकता है

भविष्य की दिशाएं

कम्प्यूटेशनल ओवरहेड को कम करने के लिए अधिक कुशल मेमोरी तंत्र की खोज करना
अन्य चिकित्सा इमेज विभाजन कार्यों तक विस्तार करना
स्व-अनुकूली मेमोरी क्षमता चयन रणनीति का अनुसंधान करना

गहन मूल्यांकन

शक्तियां

तकनीकी नवाचार शक्तिशाली: दोहरी-मेमोरी प्रतिमान और श्रेणी-अज्ञेयवादी प्रॉम्प्ट डिजाइन में महत्वपूर्ण नवाचार है
पर्याप्त प्रयोग: व्यापक विलोपन प्रयोग और तुलनात्मक प्रयोग विधि की प्रभावशीलता को सत्यापित करते हैं
उच्च व्यावहारिक मूल्य: एनोटेशन बोझ को कम करता है, नैदानिक प्रयोज्यता में सुधार करता है
महत्वपूर्ण प्रदर्शन सुधार: कई मेट्रिक्स पर मौजूदा अत्याधुनिक विधियों को पार करता है

कमियां

कम्प्यूटेशनल जटिलता विश्लेषण अपर्याप्त: विस्तृत समय और स्थान जटिलता विश्लेषण की कमी
क्रॉस-डेटासेट सामान्यीकरण सत्यापन अपर्याप्त: केवल BraTS श्रृंखला डेटासेट पर सत्यापित
विफलता केस विश्लेषण अनुपस्थित: विधि विफलता के विशिष्ट केस विश्लेषण प्रदान नहीं करता है

प्रभाव

यह कार्य बहु-मोडल चिकित्सा इमेज विभाजन के लिए एक नई तकनीकी प्रतिमान प्रदान करता है, दोहरी-मेमोरी तंत्र और श्रेणी-अज्ञेयवादी प्रॉम्प्ट डिजाइन में व्यापक अनुप्रयोग क्षमता है, चिकित्सा इमेज विश्लेषण क्षेत्र पर महत्वपूर्ण प्रभाव डालने की अपेक्षा है।

प्रयोज्य परिदृश्य

नैदानिक ब्रेन ट्यूमर निदान: चिकित्सक एनोटेशन कार्य को कम करता है
बहु-मोडल चिकित्सा इमेज विभाजन: अन्य अंगों और रोगों तक विस्तारित किया जा सकता है
कंप्यूटर-सहायक निदान प्रणाली: उच्च-सटीकता विभाजन आधार प्रदान करता है

संदर्भ

पेपर 45 संबंधित संदर्भों का हवाला देता है, जिसमें बहु-मोडल विभाजन, विजन ट्रांसफॉर्मर, SAM श्रृंखला विधियां आदि मुख्य क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।