MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: বহু-মোডাল ব্রেইন টিউমার সেগমেন্টেশনের জন্য মোডালিটি-এবং-স্লাইস মেমরি ফ্রেমওয়ার্ক এবং ক্যাটাগরি-অজ্ঞেয় প্রম্পটিং
বহু-মোডাল ব্রেইন টিউমার সেগমেন্টেশন ক্লিনিক্যাল ডায়াগনসিসের জন্য অত্যন্ত গুরুত্বপূর্ণ এবং বিভিন্ন অভ্যন্তরীণ শারীরিক উপ-অঞ্চলগুলির সঠিক চিহ্নিতকরণের প্রয়োজন। যদিও সম্প্রতি প্রম্পট-ভিত্তিক সেগমেন্টেশন প্যারাডাইম ক্লিনিশিয়ানদের জন্য ইন্টারঅ্যাক্টিভ অভিজ্ঞতা প্রদান করেছে, বিদ্যমান পদ্ধতিগুলি ক্রস-মোডালিটি সম্পর্ক উপেক্ষা করে, শ্রম-নিবিড় ক্যাটাগরি-নির্দিষ্ট প্রম্পটের উপর নির্ভর করে এবং বাস্তব পরিস্থিতিতে এর প্রয়োগযোগ্যতা সীমিত করে। এই সমস্যাগুলি সমাধানের জন্য, আমরা বহু-মোডাল ব্রেইন টিউমার সেগমেন্টেশনের জন্য MSM-Seg ফ্রেমওয়ার্ক প্রস্তাব করি। MSM-Seg একটি উপন্যাস দ্বৈত-মেমরি সেগমেন্টেশন প্যারাডাইম প্রবর্তন করে যা দক্ষ ক্যাটাগরি-অজ্ঞেয় প্রম্পটিংয়ের সাথে বহু-মোডাল এবং স্লাইস-মধ্যস্থ তথ্য সহযোগিতামূলকভাবে একীভূত করে ব্রেইন টিউমার বোঝার জন্য।
বহু-মোডাল ব্রেইন টিউমার সেগমেন্টেশনের জটিলতা: একযোগে বিষমজাতীয় টিউমার উপাদান চিহ্নিত করার প্রয়োজন, যার মধ্যে রয়েছে বৈপরীত্য-বর্ধিত মূল, নেক্রোটিক অঞ্চল এবং পেরিটিউমোরাল এডিমা, প্রতিটি টিউমার গ্রেডিং এবং চিকিৎসা সিদ্ধান্তের জন্য বিভিন্ন ক্লিনিক্যাল বায়োমার্কার প্রদান করে।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
ক্লাসিক্যাল 3D বহু-মোডাল সেগমেন্টেশন ফ্রেমওয়ার্ক ভলিউম প্রসেসিংয়ের অন্তর্নিহিত গণনামূলক অদক্ষতার দ্বারা সীমাবদ্ধ
সংলগ্ন স্লাইসগুলির মধ্যে প্রাকৃতিক ক্রমিক সম্পর্ক উপেক্ষা করে
SAM2 এর মতো পদ্ধতিগুলি প্রম্পট হিসাবে ক্যাটাগরি-নির্দিষ্ট টীকা নির্ভর করে, যা শ্রম-নিবিড় ম্যানুয়াল টীকা প্রয়োজন
বিদ্যমান পদ্ধতিগুলি সাধারণত বিভিন্ন MRI মোডালিটি স্বাধীনভাবে প্রক্রিয়া করে বা সাধারণ পূর্ববর্তী সংযোগের মাধ্যমে, মোডালিটি জুড়ে সমৃদ্ধ পরিপূরক তথ্য সম্পূর্ণভাবে ব্যবহার করতে ব্যর্থ
বিভিন্ন MRI মোডালিটির শক্তিশালী পরিপূরক সম্পর্ক রয়েছে: FLAIR সিকোয়েন্স পেরিটিউমোরাল এডিমা এবং উচ্চ-সংকেত ক্ষত প্রদর্শনে পারদর্শী, যখন T1c সিকোয়েন্স সক্রিয় টিউমার অঞ্চল এবং রক্ত-মস্তিষ্ক বাধা ব্যাহতের বৈপরীত্য-বর্ধিত ভিজ্যুয়ালাইজেশন প্রদান করে। এই পরিপূরক সম্পর্ক একটি একীভূত ফ্রেমওয়ার্ক বিকাশের প্রয়োজনীয়তা অনুপ্রাণিত করে যা কার্যকরভাবে ক্রস-মোডালিটি সম্পর্ক এবং স্থানিক ধারাবাহিকতা ক্যাপচার করতে পারে।
দ্বৈত-মেমরি সেগমেন্টেশন প্যারাডাইম প্রস্তাব: ইনপুট স্ক্যানে ক্রস-মোডালিটি এবং স্লাইস-মধ্যস্থ সম্পর্ক ব্যবহার করে টিউমার উপ-অঞ্চলের ব্যাপক বোঝাপড়া অর্জন করে
মোডালিটি এবং স্লাইস মেমরি অ্যাটেনশন মেকানিজম (MSMA) ডিজাইন করা: ক্রস-মোডালিটি এবং স্লাইস-মধ্যস্থ সম্পর্ক দক্ষতার সাথে ব্যবহার করে বহু-মোডাল বৈশিষ্ট্য প্রতিনিধিত্ব উন্নত করে
মাল্টি-স্কেল ক্যাটাগরি-অজ্ঞেয় প্রম্পট এনকোডার (MCP-Encoder) বিকাশ করা: টিউমার অঞ্চল নির্দেশনা প্রদান করে এবং মোডালিটি-অভিযোজিত ফিউশন ডিকোডার (MF-Decoder) ডিজাইন করে
গ্লিওমা এবং মেটাস্ট্যাটিক টিউমার ডেটাসেটে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করা: বিদ্যমান অত্যাধুনিক সেগমেন্টেশন পদ্ধতিকে অতিক্রম করে
বহু-মোডাল MRI স্ক্যান {X_{t,m}} দেওয়া, যেখানে t ∈ {1,...,T} স্লাইস সূচক নির্দেশ করে, m ∈ {1,...,M} মোডালিটি সূচক নির্দেশ করে, লক্ষ্য হল সঠিক ব্রেইন টিউমার সেগমেন্টেশন মাস্ক তৈরি করা যা বর্ধিত টিউমার (ET), টিউমার মূল (TC) এবং সম্পূর্ণ টিউমার (WT) তিনটি শ্রেণিবদ্ধ অঞ্চল চিহ্নিত করে।
মূল ধারণা হল ক্রমবর্ধমান মেমরি একীকরণ প্রতিষ্ঠা করা যা সম্পূর্ণ টিউমার কাঠামোর প্রতি বোঝাপড়া ক্রমান্বয়ে পরিমার্জিত করে। ইনপুট স্লাইস X_{t,m} দেওয়া, মডেল সম্ভাব্য অবস্থা S_{t,m} ∈ R^{C×H×W} বজায় রাখে, আপডেট নিয়ম হল:
প্রতিটি মোডালিটি m এ স্লাইস t এর জন্য, মেমরি-বর্ধিত এম্বেডিং Z_{t,m} এবং সংশ্লিষ্ট টিউমার নির্দেশনা P_{t,m} গ্রহণ করে। উপাদান-স্তরের যোগের মাধ্যমে প্রম্পট এম্বেডিং ফিউজ করুন:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
মোডালিটি-নির্দিষ্ট পূর্বাভাস উৎপন্ন করুন:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
চূড়ান্ত সেগমেন্টেশন মাস্ক অভিযোজিত ওজন কৌশলের মাধ্যমে অর্জিত হয়:
BraTS-METS: ব্রেইন মেটাস্ট্যাটিক টিউমার সেগমেন্টেশন ডেটাসেট, 652টি মাল্টি-কন্ট্রাস্ট MRI পরীক্ষা অন্তর্ভুক্ত করে, T1, T1c, T2, FLAIR চারটি মোডালিটি জুড়ে বিস্তৃত
BraTS-AGPT: প্রাপ্তবয়স্ক চিকিৎসা-পরবর্তী গ্লিওমা সেগমেন্টেশন ডেটাসেট, 1,349টি কেস অন্তর্ভুক্ত করে, চিকিৎসা হস্তক্ষেপের পরে অবশিষ্ট বা পুনরাবৃত্ত গ্লিওমা সেগমেন্টেশনে ফোকাস করে
ঐতিহ্যবাহী পদ্ধতি (TransBTS, EoFormer, 3D-TransUNet, UNETR++, nnUnet-V2, SegMamba-V2) এবং প্রম্পট-ভিত্তিক পদ্ধতি (SAM, MA-SAM, SAM2, MedSAM-2, SAM2-Adapter, SAMed-2) অন্তর্ভুক্ত করে
t-পরীক্ষা বিশ্লেষণ বিভিন্ন মোডালিটি ইনপুট সিকোয়েন্সের মধ্যে কোনো উল্লেখযোগ্য পার্থক্য দেখায় না (P মান > 0.05), MSM-Seg এর মোডালিটি সিকোয়েন্স পরিবর্তনের প্রতি উল্লেখযোগ্য দৃঢ়তা প্রমাণ করে।
প্রাথমিক গবেষণা 3D CNN এর সাথে U-আকৃতির এনকোডার-ডিকোডার ফ্রেমওয়ার্ক গ্রহণ করেছে। সাম্প্রতিক পদ্ধতিগুলি স্থানীয় স্থানিক প্যাটার্ন এবং বৈশ্বিক প্রসঙ্গ তথ্য ক্যাপচার করতে 3D CNN কে ভিশন ট্রান্সফর্মারের সাথে একীভূত করে। বর্তমান গবেষণা ভিশন Mamba এবং RWKV দিয়ে ViT প্রতিস্থাপন অন্বেষণ করে রৈখিক গণনামূলক জটিলতার সাথে দীর্ঘ-দূরত্বের নির্ভরতা মডেল করতে।
মেমরি মেকানিজম ভিডিও অবজেক্ট সেগমেন্টেশন কাজে ব্যাপকভাবে প্রয়োগ করা হয়। SAM2 জটিল মেমরি লাইব্রেরি এবং মেমরি অ্যাটেনশন মেকানিজম প্রবর্তন করে ভলিউম স্ক্যানে ক্রমিক স্লাইসের মধ্যে পূর্বাভাস সামঞ্জস্য উন্নত করতে। পরবর্তী কাজ যেমন ReSurgSAM2, Medical SAM2 ইত্যাদি মেমরি লাইব্রেরি স্টোরেজ এবং সাদৃশ্য পরিমাপ অপ্টিমাইজ করে।
MSM-Seg দ্বৈত-মেমরি সেগমেন্টেশন প্যারাডাইমের মাধ্যমে কার্যকরভাবে ক্রস-মোডালিটি এবং স্লাইস-মধ্যস্থ তথ্য একীভূত করে, ক্যাটাগরি-অজ্ঞেয় প্রম্পট ডিজাইনের সাথে মিলিত হয়ে, বহু-মোডাল ব্রেইন টিউমার সেগমেন্টেশন কাজে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করে, ক্লিনিক্যাল প্রয়োগের জন্য একটি দক্ষ এবং ব্যবহারিক সমাধান প্রদান করে।
এই কাজ বহু-মোডাল চিকিৎসা চিত্র সেগমেন্টেশনের জন্য একটি নতুন প্রযুক্তিগত প্যারাডাইম প্রদান করে, দ্বৈত-মেমরি মেকানিজম এবং ক্যাটাগরি-অজ্ঞেয় প্রম্পট ডিজাইন ব্যাপক প্রয়োগ সম্ভাবনা রাখে, চিকিৎসা চিত্র বিশ্লেষণ ক্ষেত্রে গুরুত্বপূর্ণ প্রভাব ফেলার প্রত্যাশা করা হয়।
পেপারটি বহু-মোডাল সেগমেন্টেশন, ভিশন ট্রান্সফর্মার, SAM সিরিজ পদ্ধতি ইত্যাদি মূল ক্ষেত্রের গুরুত্বপূর্ণ কাজ সহ 45টি সম্পর্কিত তথ্যসূত্র উদ্ধৃত করে, এই গবেষণার জন্য একটি দৃঢ় তাত্ত্বিক ভিত্তি প্রদান করে।