MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic
MSM-Seg: إطار عمل الذاكرة متعددة الأنماط والشرائح مع الإشارات غير المحددة بالفئات لتقسيم أورام الدماغ متعددة الأنماط
يعتبر تقسيم أورام الدماغ متعددة الأنماط ذا أهمية حاسمة للتشخيص السريري، حيث يتطلب تحديداً دقيقاً للمناطق التشريحية الفرعية المختلفة. على الرغم من أن نماذج التقسيم القائمة على الإشارات الحديثة توفر تجربة تفاعلية للأطباء السريريين، فإن الطرق الموجودة تتجاهل الارتباطات عبر الأنماط وتعتمد على إشارات محددة بالفئات تتطلب عملاً مكثفاً، مما يحد من قابليتها للتطبيق في السيناريوهات العملية. لمعالجة هذه المشاكل، نقترح إطار عمل MSM-Seg لتقسيم أورام الدماغ متعددة الأنماط. يقدم MSM-Seg نموذج ذاكرة مزدوجة جديد للتقسيم، يدمج بشكل متعاون معلومات متعددة الأنماط والشرائح مع إشارات فعالة غير محددة بالفئات لفهم أورام الدماغ.
تعقيد تقسيم أورام الدماغ متعددة الأنماط: يتطلب التعرف المتزامن على مكونات الأورام غير المتجانسة، بما في ذلك النواة المحسّنة بالتباين والمناطق الميتة والوذمة حول الورم، حيث يوفر كل منها علامات بيولوجية سريرية مختلفة لتصنيف الأورام وقرارات العلاج.
قيود الطرق الموجودة:
تقتصر أطر العمل الكلاسيكية ثلاثية الأبعاد متعددة الأنماط على عدم الكفاءة الحسابية المتأصلة في معالجة الحجم
تتجاهل العلاقات التسلسلية الطبيعية بين الشرائح المتجاورة
تعتمد طرق مثل SAM2 على التعليقات التوضيحية المحددة بالفئات كإشارات، مما يتطلب تعليقات توضيحية يدوية مكثفة
عادة ما تعالج الطرق الموجودة أنماط التصوير بالرنين المغناطيسي المختلفة بشكل مستقل أو من خلال اتصالات أولية بسيطة، دون الاستفادة الكاملة من المعلومات المتممة الغنية بين الأنماط
تتمتع أنماط التصوير بالرنين المغناطيسي المختلفة بعلاقات متممة قوية: تتفوق تسلسلات FLAIR في عرض الوذمة حول الورم والآفات عالية الإشارة، بينما توفر تسلسلات T1c تصوراً محسّناً بالتباين للمناطق النشطة من الأورام وتكسر الحاجز الدموي الدماغي. يحفز هذا الارتباط المتمم الحاجة إلى تطوير إطار عمل موحد يمكنه التقاط العلاقات عبر الأنماط والاستمرارية المكانية بشكل فعال.
بالنظر إلى المسح متعدد الأنماط بالرنين المغناطيسي {X_{t,m}}، حيث t ∈ {1,...,T} يشير إلى فهرس الشريحة و m ∈ {1,...,M} يشير إلى فهرس النمط، الهدف هو إنشاء قناع تقسيم دقيق لورم الدماغ، مع تحديد ثلاث مناطق هرمية: الورم المحسّن (ET) والنواة الورمية (TC) والورم الكامل (WT).
الفكرة الأساسية هي إنشاء تكامل ذاكرة تدريجي، مع تحسين تدريجي لفهم هيكل الورم بأكمله. بالنظر إلى شريحة الإدخال X_{t,m}، يحتفظ النموذج بحالة كامنة S_{t,m} ∈ R^{C×H×W}، مع قاعدة التحديث:
لكل نمط m في الشريحة t، يستقبل تضمينات معززة بالذاكرة Z_{t,m} والإرشادات الورمية المقابلة P_{t,m}. دمج تضمينات الإشارات من خلال الإضافة على مستوى العنصر:
H_{t,m} = Z_{t,m} ⊕ P_{t,m}
توليد تنبؤات محددة للنمط:
Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})
يتم الحصول على قناع التقسيم النهائي من خلال استراتيجية ترجيح متكيفة:
BraTS-METS: مجموعة بيانات تقسيم أورام الدماغ النقيلية، تحتوي على 652 فحص تصوير بالرنين المغناطيسي متعدد التباين، تغطي أربعة أنماط: T1 و T1c و T2 و FLAIR
BraTS-AGPT: مجموعة بيانات تقسيم الورم الدبقي للبالغين بعد العلاج، تحتوي على 1,349 حالة، مع التركيز على تقسيم الأورام الدبقية المتبقية أو المتكررة بعد التدخلات العلاجية
تشمل الطرق التقليدية (TransBTS و EoFormer و 3D-TransUNet و UNETR++ و nnUnet-V2 و SegMamba-V2) والطرق القائمة على الإشارات (SAM و MA-SAM و SAM2 و MedSAM-2 و SAM2-Adapter و SAMed-2)
يظهر تحليل اختبار t عدم وجود فروقات ذات دلالة إحصائية بين تسلسلات الإدخال المختلفة للأنماط (قيمة P > 0.05)، مما يثبت أن MSM-Seg يتمتع بقوة كبيرة تجاه تغييرات تسلسل الأنماط.
اعتمدت الدراسات المبكرة على أطر عمل U-shaped للمشفر-فك التشفير مع شبكات CNN ثلاثية الأبعاد. تدمج الطرق الحديثة شبكات CNN ثلاثية الأبعاد مع محولات الرؤية لالتقاط أنماط المساحة المحلية والمعلومات السياقية العالمية. تستكشف الأبحاث الحالية استخدام Mamba البصري و RWKV كبدائل لـ ViT لنمذجة التبعيات على مسافات طويلة بتعقيد حسابي خطي.
تُطبق آليات الذاكرة على نطاق واسع في مهام تقسيم الأهداف في الفيديو. يقدم SAM2 مستودع ذاكرة معقد وآليات انتباه الذاكرة لتعزيز اتساق التنبؤات بين الشرائح المتسلسلة في المسح الحجمي. تحسّن الأعمال اللاحقة مثل ReSurgSAM2 و Medical SAM2 تخزين مستودع الذاكرة وقياس التشابه.
يحقق MSM-Seg من خلال نموذج الذاكرة المزدوجة للتقسيم دمجاً فعالاً للمعلومات عبر الأنماط والشرائح، مع تصميم إشارات غير محددة بالفئات، مما يحقق تحسينات أداء كبيرة في مهمة تقسيم أورام الدماغ متعددة الأنماط، مما يوفر حلاً فعالاً وعملياً للتطبيقات السريرية.
يوفر هذا العمل نموذج تقني جديد لتقسيم الصور الطبية متعددة الأنماط، حيث يتمتع نموذج الذاكرة المزدوجة وتصميم الإشارات غير المحددة بالفئات بإمكانية تطبيق واسعة، ومن المتوقع أن يحدث تأثيراً مهماً في مجال تحليل الصور الطبية.
تستشهد الورقة بـ 45 مرجعاً ذا صلة، تغطي التقسيم متعدد الأنماط ومحولات الرؤية وطرق سلسلة SAM والمجالات الرئيسية الأخرى، مما يوفر أساساً نظرياً متيناً لهذا البحث.