2025-11-14T10:40:11.215635

MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation

Luo, Xu, Huang et al.
Multi-modal brain tumor segmentation is critical for clinical diagnosis, and it requires accurate identification of distinct internal anatomical subregions. While the recent prompt-based segmentation paradigms enable interactive experiences for clinicians, existing methods ignore cross-modal correlations and rely on labor-intensive category-specific prompts, limiting their applicability in real-world scenarios. To address these issues, we propose a MSM-Seg framework for multi-modal brain tumor segmentation. The MSM-Seg introduces a novel dual-memory segmentation paradigm that synergistically integrates multi-modal and inter-slice information with the efficient category-agnostic prompt for brain tumor understanding. To this end, we first devise a modality-and-slice memory attention (MSMA) to exploit the cross-modal and inter-slice relationships among the input scans. Then, we propose a multi-scale category-agnostic prompt encoder (MCP-Encoder) to provide tumor region guidance for decoding. Moreover, we devise a modality-adaptive fusion decoder (MF-Decoder) that leverages the complementary decoding information across different modalities to improve segmentation accuracy. Extensive experiments on different MRI datasets demonstrate that our MSM-Seg framework outperforms state-of-the-art methods in multi-modal metastases and glioma tumor segmentation. The code is available at https://github.com/xq141839/MSM-Seg.
academic

MSM-Seg: إطار عمل الذاكرة متعددة الأنماط والشرائح مع الإشارات غير المحددة بالفئات لتقسيم أورام الدماغ متعددة الأنماط

المعلومات الأساسية

  • معرّف الورقة: 2510.10679
  • العنوان: MSM-Seg: A Modality-and-Slice Memory Framework with Category-Agnostic Prompting for Multi-Modal Brain Tumor Segmentation
  • المؤلفون: Yuxiang Luo, Qing Xu, Hai Huang, Yuqi Ouyang, Zhen Chen, Wenting Duan
  • التصنيف: cs.CV (رؤية الحاسوب)
  • المجلة المنشورة: IEEE Transactions on Medical Imaging
  • رابط الورقة: https://arxiv.org/abs/2510.10679
  • رابط الكود: https://github.com/xq141839/MSM-Seg

الملخص

يعتبر تقسيم أورام الدماغ متعددة الأنماط ذا أهمية حاسمة للتشخيص السريري، حيث يتطلب تحديداً دقيقاً للمناطق التشريحية الفرعية المختلفة. على الرغم من أن نماذج التقسيم القائمة على الإشارات الحديثة توفر تجربة تفاعلية للأطباء السريريين، فإن الطرق الموجودة تتجاهل الارتباطات عبر الأنماط وتعتمد على إشارات محددة بالفئات تتطلب عملاً مكثفاً، مما يحد من قابليتها للتطبيق في السيناريوهات العملية. لمعالجة هذه المشاكل، نقترح إطار عمل MSM-Seg لتقسيم أورام الدماغ متعددة الأنماط. يقدم MSM-Seg نموذج ذاكرة مزدوجة جديد للتقسيم، يدمج بشكل متعاون معلومات متعددة الأنماط والشرائح مع إشارات فعالة غير محددة بالفئات لفهم أورام الدماغ.

خلفية البحث والدافع

المشاكل الأساسية

  1. تعقيد تقسيم أورام الدماغ متعددة الأنماط: يتطلب التعرف المتزامن على مكونات الأورام غير المتجانسة، بما في ذلك النواة المحسّنة بالتباين والمناطق الميتة والوذمة حول الورم، حيث يوفر كل منها علامات بيولوجية سريرية مختلفة لتصنيف الأورام وقرارات العلاج.
  2. قيود الطرق الموجودة:
    • تقتصر أطر العمل الكلاسيكية ثلاثية الأبعاد متعددة الأنماط على عدم الكفاءة الحسابية المتأصلة في معالجة الحجم
    • تتجاهل العلاقات التسلسلية الطبيعية بين الشرائح المتجاورة
    • تعتمد طرق مثل SAM2 على التعليقات التوضيحية المحددة بالفئات كإشارات، مما يتطلب تعليقات توضيحية يدوية مكثفة
    • عادة ما تعالج الطرق الموجودة أنماط التصوير بالرنين المغناطيسي المختلفة بشكل مستقل أو من خلال اتصالات أولية بسيطة، دون الاستفادة الكاملة من المعلومات المتممة الغنية بين الأنماط

دافع البحث

تتمتع أنماط التصوير بالرنين المغناطيسي المختلفة بعلاقات متممة قوية: تتفوق تسلسلات FLAIR في عرض الوذمة حول الورم والآفات عالية الإشارة، بينما توفر تسلسلات T1c تصوراً محسّناً بالتباين للمناطق النشطة من الأورام وتكسر الحاجز الدموي الدماغي. يحفز هذا الارتباط المتمم الحاجة إلى تطوير إطار عمل موحد يمكنه التقاط العلاقات عبر الأنماط والاستمرارية المكانية بشكل فعال.

المساهمات الأساسية

  1. اقتراح نموذج ذاكرة مزدوجة للتقسيم: يستفيد من العلاقات عبر الأنماط والشرائح في المسح المدخل، مما يحقق فهماً شاملاً لمناطق الأورام الفرعية
  2. تصميم آلية انتباه الذاكرة متعددة الأنماط والشرائح (MSMA): يستخدم بكفاءة العلاقات عبر الأنماط والشرائح، مما يعزز تمثيل الميزات متعددة الأنماط
  3. تطوير مشفر الإشارات غير المحددة بالفئات متعدد المقاييس (MCP-Encoder): يوفر إرشادات منطقة الورم ويصمم فك تشفير الدمج المتكيف مع الأنماط (MF-Decoder)
  4. تحقيق تحسينات أداء كبيرة على مجموعات بيانات الورم الدبقي والأورام النقيلية: يتفوق على طرق التقسيم الحديثة الموجودة

شرح الطريقة

تعريف المهمة

بالنظر إلى المسح متعدد الأنماط بالرنين المغناطيسي {X_{t,m}}، حيث t ∈ {1,...,T} يشير إلى فهرس الشريحة و m ∈ {1,...,M} يشير إلى فهرس النمط، الهدف هو إنشاء قناع تقسيم دقيق لورم الدماغ، مع تحديد ثلاث مناطق هرمية: الورم المحسّن (ET) والنواة الورمية (TC) والورم الكامل (WT).

بنية النموذج

1. نموذج الذاكرة المزدوجة للتقسيم

الفكرة الأساسية هي إنشاء تكامل ذاكرة تدريجي، مع تحسين تدريجي لفهم هيكل الورم بأكمله. بالنظر إلى شريحة الإدخال X_{t,m}، يحتفظ النموذج بحالة كامنة S_{t,m} ∈ R^{C×H×W}، مع قاعدة التحديث:

{S_{t,m} = R(X_{t,m}, θ_{t,m}, S_{t,≺m}, S_{≺t})
{Ŷ_{t,m} = P(S_{t,m})

حيث:

  • R(·) هي دالة تحديث الحالة
  • P(·) هي رأس التنبؤ بالتقسيم
  • S_{t,≺m} يمثل السياق عبر الأنماط من الأنماط السابقة في الشريحة الحالية t
  • S_{≺t} يمثل السياق بين الشرائح من الشرائح السابقة
  • θ_{t,m} هي إشارة فعالة غير محددة بالفئات

2. انتباه الذاكرة متعددة الأنماط والشرائح (MSMA)

تقسيم تضمين الصورة F بشكل موحد على طول بعد القناة:

[F_slice, F_modal] = Split(F)

تحديث التضمينات من خلال الانتباه الذاتي:

Q_slice = SA(φ(F_slice)), Q_modal = SA(φ(F_modal))

تطبيق الانتباه المتقاطع لدمج معلومات مستودع الذاكرة:

Z = CA(Q=Q_slice, K=V=S_{≺t}) + CA(Q=Q_modal, K=V=S_{≺t,m})

3. مشفر الإشارات غير المحددة بالفئات متعدد المقاييس (MCP-Encoder)

يدعم نمطين:

  • نمط الإشارات غير المحددة بالفئات: يتطلب فقط صندوق حدود واحد يغطي منطقة الورم بأكملها
  • النمط التلقائي: لا يتطلب تعليقات توضيحية يدوية، ويولد إرشادات منطقة الورم بشكل مستقل

عملية الدمج متعدد المقاييس:

F^fusion_i = {
    Concat(F^fusion_{i-1}, F_i, G_i), if prompt available
    Concat(F^fusion_{i-1}, F_i), otherwise
}

إرشادات منطقة الورم النهائية:

P = DS(σ(φ(F^fusion_l)))

4. فك تشفير الدمج المتكيف مع الأنماط (MF-Decoder)

لكل نمط m في الشريحة t، يستقبل تضمينات معززة بالذاكرة Z_{t,m} والإرشادات الورمية المقابلة P_{t,m}. دمج تضمينات الإشارات من خلال الإضافة على مستوى العنصر:

H_{t,m} = Z_{t,m} ⊕ P_{t,m}

توليد تنبؤات محددة للنمط:

Ŷ_{t,m} = P_pd(H_{t,m}) ⊗ P_mlp(E_{t,m})

يتم الحصول على قناع التقسيم النهائي من خلال استراتيجية ترجيح متكيفة:

Ŷ_t = Σ_{m=1}^M w_m · Ŷ_{t,m}

نقاط الابتكار التقني

  1. آلية الذاكرة المزدوجة: أول من يقوم بنمذجة العلاقات عبر الأنماط والشرائح بشكل متزامن، مما يكسر العزلة بين الأنماط والشرائح
  2. الإشارات غير المحددة بالفئات: التخلص من التعليقات التوضيحية المحددة بالفئات المكثفة، مما يحسن القابلية للتطبيق السريري
  3. الدمج المتكيف مع الأنماط: الاختيار الديناميكي لأكثر الأنماط إفادة لكل عنصر
  4. الانتباه المعزز بالذاكرة: التقاط فعال للتبعيات على مسافات طويلة والمعلومات السياقية

إعداد التجارب

مجموعات البيانات

BraTS-METS: مجموعة بيانات تقسيم أورام الدماغ النقيلية، تحتوي على 652 فحص تصوير بالرنين المغناطيسي متعدد التباين، تغطي أربعة أنماط: T1 و T1c و T2 و FLAIR

BraTS-AGPT: مجموعة بيانات تقسيم الورم الدبقي للبالغين بعد العلاج، تحتوي على 1,349 حالة، مع التركيز على تقسيم الأورام الدبقية المتبقية أو المتكررة بعد التدخلات العلاجية

مقاييس التقييم

  • معامل تشابه Dice: يقيس جودة التقسيم، حيث تشير القيمة الأعلى إلى أداء أفضل
  • مسافة Hausdorff بنسبة 95% (HD95): يقيم دقة وصف الحدود، حيث تشير القيمة الأقل إلى حدود أكثر دقة

التقييم لثلاث مناطق ورمية هرمية:

  • الورم المحسّن (ET): منطقة الورم المحسّنة
  • النواة الورمية (TC): اتحاد ET والنواة غير المحسّنة عالية الإشارة في FLAIR
  • الورم الكامل (WT): اتحاد TC والنواة الورمية غير المحسّنة

طرق المقارنة

تشمل الطرق التقليدية (TransBTS و EoFormer و 3D-TransUNet و UNETR++ و nnUnet-V2 و SegMamba-V2) والطرق القائمة على الإشارات (SAM و MA-SAM و SAM2 و MedSAM-2 و SAM2-Adapter و SAMed-2)

تفاصيل التنفيذ

  • الأجهزة: وحدة معالجة الرسومات NVIDIA A6000
  • المحسّن: AdamW (β1=0.9, β2=0.999)
  • معدل التعلم: 1×10^-4، تحلل الوزن 0.01
  • حجم الدفعة: 16، عدد الحقب: 300
  • حجم الصورة: 256×256
  • مستودع ذاكرة الأنماط k=3، مستودع ذاكرة الشرائح n=7

نتائج التجارب

النتائج الرئيسية

مجموعة بيانات BraTS-METS:

  • حقق MSM-Seg درجة Dice متوسطة بنسبة 79.51%، متفوقاً على أفضل طريقة تقليدية SegMamba-V2 (73.92%) بنسبة 5.59%
  • تحسن بنسبة 2.04% مقارنة بأفضل طريقة قائمة على الإشارات SAMed-2 (77.47%)
  • انخفضت قيمة HD95 من 14.27 ملم (SAMed-2) إلى 13.75 ملم

مجموعة بيانات BraTS-AGPT:

  • حقق MSM-Seg درجة Dice متوسطة بنسبة 83.84%، متفوقاً على SegMamba-V2 (76.49%) بنسبة 7.35%
  • تحسن بنسبة 2.40% مقارنة بـ SAMed-2 (81.44%)
  • انخفضت قيمة HD95 من 6.12 ملم (SAMed-2) إلى 5.56 ملم

تجارب الاستئصال

أجريت دراسة استئصال منهجية للتحقق من مساهمة كل مكون:

  1. MSMA: توفر تحسناً في Dice بنسبة 0.65% و 0.81%
  2. MCP-Encoder: يساهم بتحسن إضافي بنسبة 0.87% و 1.07%
  3. MF-Decoder: يعزز بشكل إضافي بنسبة 1.08% و 1.33%
  4. نموذج الذاكرة المزدوجة: أكبر مساهمة، بمتوسط تحسن بنسبة 1.73% و 2.08%

تحليل سعة الذاكرة

سعة ذاكرة الأنماط: يظهر الزيادة من k=0 إلى k=3 تحسناً مستمراً في الأداء، حيث يحقق k=3 أفضل النتائج، بمتوسط تحسن في Dice بنسبة 5.13% و 3.98%

سعة ذاكرة الشرائح: يظهر الزيادة من n=0 إلى n=16 تحسناً كبيراً، حيث يوفر n=8 أفضل توازن بين الدقة والكفاءة

قوة تسلسل الأنماط

يظهر تحليل اختبار t عدم وجود فروقات ذات دلالة إحصائية بين تسلسلات الإدخال المختلفة للأنماط (قيمة P > 0.05)، مما يثبت أن MSM-Seg يتمتع بقوة كبيرة تجاه تغييرات تسلسل الأنماط.

الأعمال ذات الصلة

تقسيم أورام الدماغ متعددة الأنماط

اعتمدت الدراسات المبكرة على أطر عمل U-shaped للمشفر-فك التشفير مع شبكات CNN ثلاثية الأبعاد. تدمج الطرق الحديثة شبكات CNN ثلاثية الأبعاد مع محولات الرؤية لالتقاط أنماط المساحة المحلية والمعلومات السياقية العالمية. تستكشف الأبحاث الحالية استخدام Mamba البصري و RWKV كبدائل لـ ViT لنمذجة التبعيات على مسافات طويلة بتعقيد حسابي خطي.

تقسيم الإشارات القائم على الذاكرة

تُطبق آليات الذاكرة على نطاق واسع في مهام تقسيم الأهداف في الفيديو. يقدم SAM2 مستودع ذاكرة معقد وآليات انتباه الذاكرة لتعزيز اتساق التنبؤات بين الشرائح المتسلسلة في المسح الحجمي. تحسّن الأعمال اللاحقة مثل ReSurgSAM2 و Medical SAM2 تخزين مستودع الذاكرة وقياس التشابه.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

يحقق MSM-Seg من خلال نموذج الذاكرة المزدوجة للتقسيم دمجاً فعالاً للمعلومات عبر الأنماط والشرائح، مع تصميم إشارات غير محددة بالفئات، مما يحقق تحسينات أداء كبيرة في مهمة تقسيم أورام الدماغ متعددة الأنماط، مما يوفر حلاً فعالاً وعملياً للتطبيقات السريرية.

القيود

  1. التكلفة الحسابية: تزيد آلية الذاكرة المزدوجة من تأخير الاستدلال، من 3.86 ثانية إلى 4.17 ثانية
  2. حدود سعة الذاكرة: تناقص العائد الهامشي لسعات الذاكرة الأكبر
  3. حجم مجموعة البيانات: التحقق فقط على مجموعتي بيانات BraTS، يتطلب التحقق على مجموعات بيانات أوسع

الاتجاهات المستقبلية

  1. استكشاف آليات ذاكرة أكثر كفاءة لتقليل التكلفة الحسابية
  2. التوسع إلى مهام تقسيم الصور الطبية الأخرى
  3. دراسة استراتيجيات اختيار سعة الذاكرة المتكيفة

التقييم المتعمق

المزايا

  1. قوة الابتكار التقني: يتمتع نموذج الذاكرة المزدوجة وتصميم الإشارات غير المحددة بالفئات بابتكار كبير
  2. التجارب الشاملة: تجارب استئصال وتجارب مقارنة شاملة تتحقق من فعالية الطريقة
  3. قيمة عملية عالية: تقليل عبء العمل على الأطباء، تحسين القابلية للتطبيق السريري
  4. تحسينات أداء كبيرة: تفوق على الطرق الحديثة الموجودة في مقاييس متعددة

أوجه القصور

  1. تحليل التعقيد الحسابي غير كافٍ: يفتقد تحليل تفصيلي للتعقيد الزمني والمكاني
  2. التحقق من التعميم عبر مجموعات البيانات غير كافٍ: التحقق فقط على مجموعات بيانات سلسلة BraTS
  3. نقص تحليل حالات الفشل: عدم توفير تحليل حالات محددة لفشل الطريقة

التأثير

يوفر هذا العمل نموذج تقني جديد لتقسيم الصور الطبية متعددة الأنماط، حيث يتمتع نموذج الذاكرة المزدوجة وتصميم الإشارات غير المحددة بالفئات بإمكانية تطبيق واسعة، ومن المتوقع أن يحدث تأثيراً مهماً في مجال تحليل الصور الطبية.

السيناريوهات القابلة للتطبيق

  1. التشخيص السريري لأورام الدماغ: تقليل عبء العمل على الأطباء في التعليقات التوضيحية
  2. تقسيم الصور الطبية متعددة الأنماط: قابل للتوسع إلى أعضاء وأمراض أخرى
  3. أنظمة التشخيص بمساعدة الحاسوب: توفير أساس تقسيم عالي الدقة

المراجع

تستشهد الورقة بـ 45 مرجعاً ذا صلة، تغطي التقسيم متعدد الأنماط ومحولات الرؤية وطرق سلسلة SAM والمجالات الرئيسية الأخرى، مما يوفر أساساً نظرياً متيناً لهذا البحث.