2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.

This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.

academic

nnY-Net: Swin-NeXt مع Cross-Attention لتقسيم الصور الطبية ثلاثية الأبعاد

المعلومات الأساسية

معرّف الورقة: 2501.01406
العنوان: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
المؤلفون: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
المؤسسات: ¹جامعة سيدني، ²جامعة هونج كونج الصينية
التصنيف: cs.CV (رؤية الحاسوب)
رابط الورقة: https://arxiv.org/abs/2501.01406

الملخص

تقدم هذه الورقة بنية نموذج جديدة لتقسيم الصور الطبية ثلاثية الأبعاد تسمى nnY-Net. يُشتق الاسم من الهيكل على شكل حرف Y الذي يتشكل بإضافة وحدة الانتباه المتقاطع في أسفل بنية U-Net. يدمج المؤلفون مزايا نموذجين متقدمين حديثين هما MedNeXt و SwinUNETR، باستخدام Swin Transformer كمشفّر و ConvNeXt كمفكّك، مما يؤدي إلى تصميم مبتكر لبنية Swin-NeXt. يستخدم النموذج خرائط الميزات من أقل طبقة في المشفّر كمفاتيح وقيم، بينما يتم استخدام خصائص المريض مثل المعلومات المرضية والعلاجية كاستعلامات لحساب أوزان الانتباه المتقاطع. بالإضافة إلى ذلك، تم تبسيط طرق المعالجة المسبقة واللاحقة لتقسيم الصور ثلاثية الأبعاد بناءً على أطر العمل dynUnet و nnU-Net، وتم بناء DiceFocalCELoss لتحسين كفاءة التدريب لتصنيف الفوكسل غير المتوازن.

خلفية البحث والدافع

تعريف المشكلة

يعتبر تقسيم صور التصوير المقطعي ثلاثية الأبعاد لأورام الكبد مهمة مهمة في تقسيم الصور الطبية. يمكن للتقسيم الدقيق لصور التصوير المقطعي أن يساعد الأطباء على تقدير حجم الورم ووضع خطط علاجية معقولة.

قيود الطرق الموجودة

قيود الطرق التقليدية: قبل عام 2016، كانت الخوارزميات غير الموجهة مثل نمو المناطق هي السائدة، مع دقة محدودة
عيوب البنية الموحدة: تعتمد الطرق الموجودة إما على الالتفاف البحت (مثل nnU-Net) أو على محول بحت (مثل SwinUNETR)، دون الجمع الكامل بين مزايا كليهما
عدم كفاية دمج متعدد الأنماط: تتعامل الطرق الموجودة بشكل أساسي مع معلومات الصور، دون الاستفادة الفعالة من المعلومات المرضية والعلاجية للمريض
مشكلة عدم التوازن بين الفئات: تحتل علامات الخلفية أكثر من 90% من البكسل، مما يؤدي إلى صعوبات في التدريب

دافع البحث

تهدف هذه الورقة إلى دمج مزايا محولات التحويل والشبكات العصبية الالتفافية، وتصميم نموذج تقسيم متعدد الأنماط يمكنه التعامل مع الصور ثلاثية الأبعاد والمعلومات السريرية للمريض في نفس الوقت، لتحسين دقة وعملية تقسيم الصور الطبية.

المساهمات الأساسية

اقتراح بنية Swin-NeXt: يجمع بشكل مبتكر بين مشفّر SwinUNETR ومفكّك MedNeXt، مما يستفيد بالكامل من مزايا محول التحويل في استخراج الميزات والالتفاف في فك التشفير على مستوى البكسل
تصميم آلية دمج الانتباه المتقاطع: يقترح ثلاث طرق لدمج الميزات، ويكتشف أن آلية الانتباه المتقاطع تحقق أفضل أداء في دمج متعدد الأنماط، مما يحسن أداء النموذج بشكل مستقر
بناء دالة الخسارة DiceFocalCELoss: يجمع بين DiceLoss و FocalLoss وخسارة الإنتروبيا المتقاطعة، مما يحل بشكل فعال مشكلة عدم التوازن بين الفئات في تصنيف الفوكسل
تبسيط عملية المعالجة المسبقة: بناءً على أطر العمل dynUnet و nnU-Net، تم تبسيط وتحسين طرق المعالجة المسبقة واللاحقة لتقسيم الصور ثلاثية الأبعاد

شرح الطريقة

تعريف المهمة

الإدخال:

صور التصوير المقطعي ثلاثية الأبعاد χ ∈ R^(H×W×D×C)
المعلومات السريرية للمريض (المعلومات المرضية والعلاجية وما إلى ذلك)

الإخراج: قناع تقسيم متعدد الفئات، يتضمن هياكل مثل الكبد والورم والأوعية الدموية والأبهر

القيود: التعامل مع قيود الذاكرة لصور ثلاثية الأبعاد عالية الدقة، مهام التقسيم ذات عدم التوازن الشديد بين الفئات

بنية النموذج

1. مشفّر Swin Transformer ثلاثي الأبعاد

يستخدم Swin Transformer ثلاثي الأبعاد كمشفّر، مع التنفيذ المحدد:

تقسيم الرقع: تقسيم صورة الإدخال إلى نوافذ ثلاثية الأبعاد بحجم M×M×M

آلية الانتباه في النافذة:

z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
z^l = MLP(LN(z^l)) + z^l
z^(l+1) = SW-MSA(LN(z^l)) + z^l
z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)

حساب الانتباه:

Attention(Q,K,V) = Softmax(QK^T/√d + B)V

2. مفكّك ConvNeXt

يستخدم بنية مفكّك MedNeXt:

الالتفاف المنقول للعينات العليا:

Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}

دالة تفعيل GELU:
```
GELU(x) = x/2[1 + erf(x/√2)]
```

3. وحدة دمج الانتباه المتقاطع

دمج المعلومات متعددة الأنماط في الطبقة السفلى للمشفّر (Bottleneck):

المفاتيح والقيم: خرائط الميزات من أقل طبقة في المشفّر
الاستعلامات: متجه خصائص المريض السريرية
استراتيجية الدمج: من خلال طبقات متصلة بالكامل لتعيين الخصائص السريرية إلى البعد المناسب، ثم حساب الانتباه المتقاطع

نقاط الابتكار التقني

تصميم بنية هجينة: أول دمج لمشفّر Swin Transformer مع مفكّك ConvNeXt، مما يستفيد من مزايا كل منهما
الانتباه المتقاطع متعدد الأنماط: استخدام مبتكر لآلية الانتباه المتقاطع لدمج ميزات الصور والمعلومات السريرية
دالة خسارة مركبة: تصميم DiceFocalCELoss لحل مشكلة عدم التوازن بين الفئات في تقسيم الصور الطبية

إعداد التجارب

مجموعة البيانات

بيانات الصور: 110 صورة تصوير مقطعي للكبد من 98 مريضاً
البيانات السريرية: 56 متغيراً من المعلومات المرضية والعلاجية للمريض
تنظيف البيانات: حذف 4 مجموعات بيانات مشكوك فيها (HCC 017 و 008 و 025 و 009)
معالجة القيم المفقودة: استخدام نماذج التعلم الآلي لملء القيم المفقودة

مؤشرات التقييم

معامل Dice: Dice = 2×|X∩Y|/(|X|+|Y|)
متوسط IoU: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
مسافة Hausdorff (HD95): مسافة Hausdorff للنسبة المئوية 95
الدقة والاستدعاء والدقة: مؤشرات التصنيف القياسية

طرق المقارنة

U-Net
UNETR
SwinUNETR
MedNeXt
Swin-NeXt المقترح ومتغيراته

تفاصيل التنفيذ

الإطار: مطور بناءً على MONAI، متوافق مع Jupyter Notebook
المعالجة المسبقة: قص الصور والتطبيع وإعادة العينات وتعزيز البيانات
استراتيجية التدريب: استراتيجية النافذة المنزلقة، معالجة الكتل لتجنب تجاوز الذاكرة

نتائج التجارب

النتائج الرئيسية

مقارنة الأداء على مهمة تقسيم أورام الكبد:

النموذج	الفئة	Dice	MIoU	HD95	الدقة	الاستدعاء	الدقة
U-Net	الإجمالي	0.709	0.614	16.847	0.991	0.770	0.704
SwinUNETR	الإجمالي	0.656	0.55	37.3	0.983	0.733	0.64
MedNeXt	الإجمالي	0.683	0.583	21.6	0.99	0.752	0.674
Swin-NeXt	الإجمالي	0.662	0.569	14.614	0.992	0.714	0.684

تجارب الاستئصال

مقارنة طرق دمج الميزات:

طريقة الدمج	النموذج	Dice	MIoU	HD95
Add	SwinUNETR	0.662	0.562	26.956
Concat	SwinUNETR	0.641	0.537	39.197
Cross Attention	SwinUNETR	0.666	0.564	32.883
Cross Attention	MedNeXt	0.683	0.589	26.428
Cross Attention	Swin-NeXt	0.657	0.565	11.28

النتائج الرئيسية:

توفر آلية الانتباه المتقاطع تحسناً مستقراً في الأداء على جميع النماذج
لا تتقارب طرق Add و Concat عند استخدام نماذج بالتفاف منقول (MedNeXt و Swin-NeXt)
توافق أفضل بين آلية الانتباه المتقاطع والبنية الالتفافية المنقولة

تحليل الحالات

تُظهر نتائج التصور لشرائح التصوير المقطعي للمريض HCC066 أنه على الرغم من عدم وصول Swin-NeXt إلى الأداء الأمثل في المؤشرات الرقمية، إلا أنه الأقرب إلى العلامة الحقيقية من حيث شكل وحجم التقسيم، مما يوفر قيمة سريرية عملية أفضل.

الأعمال ذات الصلة

تطور تقسيم الصور الطبية ثلاثية الأبعاد

الطرق التقليدية: طرق غير موجهة مثل نمو المناطق
عصر التعلم العميق: يضع 3D U-Net الأساس
أطر العمل الآلية: يدمج nnU-Net المعالجة المسبقة الآلية واختيار المعاملات
تطبيق محول التحويل: يقدم UNETR ViT، و SwinUNETR يستخدم Swin Transformer
الالتفاف الحديث: يعتمد MedNeXt على ConvNeXt

موضع مساهمة هذه الورقة

هذه الورقة هي الأولى التي تجمع بشكل منهجي بين مشفّر محول التحويل ومفكّك الالتفاف الحديث لتقسيم الصور الطبية ثلاثية الأبعاد، مع إدخال آلية انتباه متقاطع متعددة الأنماط.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

دمج البنية فعال: يعتبر الجمع بين مشفّر Swin Transformer ومفكّك ConvNeXt فعالاً
تفوق الانتباه المتقاطع: في دمج متعدد الأنماط، تتفوق آلية الانتباه المتقاطع بشكل كبير على طرق الجمع والربط البسيطة
فعالية دالة الخسارة المركبة: يمكن لـ DiceFocalCELoss تحسين تقارب التدريب لمشكلة عدم التوازن بين الفئات

القيود

إعدادات المعاملات محافظة: تم تقليل عدد المعاملات لضمان المقارنة العادلة، دون استخدام نسبة كتل استخراج الميزات المثلى 1:1:3:1
قيود الموارد الحسابية: بسبب عوامل مثل انتظار الخادم، لم يتم إكمال جميع التجارب المخطط لها
حجم مجموعة البيانات: قد تحد مجموعة البيانات الصغيرة نسبياً من قدرة النموذج على التعميم

الاتجاهات المستقبلية

استكشاف تصاميم نسب البنية الشبكية الأكثر مثالية
التحقق من فعالية الطريقة على مجموعات بيانات أكبر
دراسة قابلية التطبيق على مهام تقسيم صور طبية أخرى

التقييم المتعمق

المزايا

ابتكار قوي: أول دمج منهجي لمزايا Swin Transformer و ConvNeXt
دمج متعدد الأنماط: الاستفادة الفعالة من المعلومات السريرية لمساعدة تقسيم الصور
تجارب شاملة: تتضمن تجارب استئصال مفصلة وتحليل مقارن
قيمة عملية عالية: مصمم وفقاً للاحتياجات العملية لتقسيم الصور الطبية

أوجه القصور

تحسن الأداء محدود: التحسن الرقمي مقارنة بطرق الأساس ليس كبيراً بما يكفي
عدم اتساق شروط التجارب: توجد اختلافات في وقت التدريب والشروط بين النماذج المختلفة
نقص التحليل النظري: يفتقر إلى تحليل نظري متعمق لسبب كون الانتباه المتقاطع أكثر فعالية
القابلية للتعميم غير معروفة: تم التحقق فقط على تقسيم أورام الكبد، والأداء على المهام الأخرى غير معروفة

التأثير

مساهمة منهجية: توفير أفكار تصميم بنية جديدة لتقسيم الصور الطبية ثلاثية الأبعاد
دمج متعدد الأنماط: توفير حل فعال لدمج المعلومات متعددة الأنماط في تحليل الصور الطبية
القيمة العملية: طرق التقسيم التي تأخذ في الاعتبار المعلومات السريرية أكثر توافقاً مع الاحتياجات الطبية الفعلية

السيناريوهات القابلة للتطبيق

تقسيم الصور الطبية ثلاثية الأبعاد: خاصة السيناريوهات التي تتطلب دمج المعلومات السريرية
التحليل الطبي متعدد الأنماط: مهام دمج الصور والبيانات المنظمة
تقسيم عدم التوازن بين الفئات: مهام التقسيم حيث تهيمن الخلفية

المراجع

تستشهد الورقة بالأعمال المهمة في هذا المجال، بما في ذلك:

3D U-Net: عمل تأسيسي في تقسيم الصور الطبية ثلاثية الأبعاد
nnU-Net: إطار عمل آلي لتقسيم الصور الطبية
SwinUNETR: تطبيق Swin Transformer في تقسيم الصور الطبية
MedNeXt: طريقة تقسيم الصور الطبية بناءً على ConvNeXt

التقييم الشامل: هذا عمل يتمتع بدرجة معينة من الابتكار في مجال تقسيم الصور الطبية ثلاثية الأبعاد، خاصة في جوانب الدمج متعدد الأنماط وتصميم البنية. على الرغم من أن تحسن الأداء محدود نسبياً، إلا أن عملية الطريقة وإسهامها في المجال يستحقان الاعتراف.