nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic
nnY-Net: Swin-NeXt مع Cross-Attention لتقسيم الصور الطبية ثلاثية الأبعاد
تقدم هذه الورقة بنية نموذج جديدة لتقسيم الصور الطبية ثلاثية الأبعاد تسمى nnY-Net. يُشتق الاسم من الهيكل على شكل حرف Y الذي يتشكل بإضافة وحدة الانتباه المتقاطع في أسفل بنية U-Net. يدمج المؤلفون مزايا نموذجين متقدمين حديثين هما MedNeXt و SwinUNETR، باستخدام Swin Transformer كمشفّر و ConvNeXt كمفكّك، مما يؤدي إلى تصميم مبتكر لبنية Swin-NeXt. يستخدم النموذج خرائط الميزات من أقل طبقة في المشفّر كمفاتيح وقيم، بينما يتم استخدام خصائص المريض مثل المعلومات المرضية والعلاجية كاستعلامات لحساب أوزان الانتباه المتقاطع. بالإضافة إلى ذلك، تم تبسيط طرق المعالجة المسبقة واللاحقة لتقسيم الصور ثلاثية الأبعاد بناءً على أطر العمل dynUnet و nnU-Net، وتم بناء DiceFocalCELoss لتحسين كفاءة التدريب لتصنيف الفوكسل غير المتوازن.
يعتبر تقسيم صور التصوير المقطعي ثلاثية الأبعاد لأورام الكبد مهمة مهمة في تقسيم الصور الطبية. يمكن للتقسيم الدقيق لصور التصوير المقطعي أن يساعد الأطباء على تقدير حجم الورم ووضع خطط علاجية معقولة.
تهدف هذه الورقة إلى دمج مزايا محولات التحويل والشبكات العصبية الالتفافية، وتصميم نموذج تقسيم متعدد الأنماط يمكنه التعامل مع الصور ثلاثية الأبعاد والمعلومات السريرية للمريض في نفس الوقت، لتحسين دقة وعملية تقسيم الصور الطبية.
اقتراح بنية Swin-NeXt: يجمع بشكل مبتكر بين مشفّر SwinUNETR ومفكّك MedNeXt، مما يستفيد بالكامل من مزايا محول التحويل في استخراج الميزات والالتفاف في فك التشفير على مستوى البكسل
تصميم آلية دمج الانتباه المتقاطع: يقترح ثلاث طرق لدمج الميزات، ويكتشف أن آلية الانتباه المتقاطع تحقق أفضل أداء في دمج متعدد الأنماط، مما يحسن أداء النموذج بشكل مستقر
بناء دالة الخسارة DiceFocalCELoss: يجمع بين DiceLoss و FocalLoss وخسارة الإنتروبيا المتقاطعة، مما يحل بشكل فعال مشكلة عدم التوازن بين الفئات في تصنيف الفوكسل
تبسيط عملية المعالجة المسبقة: بناءً على أطر العمل dynUnet و nnU-Net، تم تبسيط وتحسين طرق المعالجة المسبقة واللاحقة لتقسيم الصور ثلاثية الأبعاد
تُظهر نتائج التصور لشرائح التصوير المقطعي للمريض HCC066 أنه على الرغم من عدم وصول Swin-NeXt إلى الأداء الأمثل في المؤشرات الرقمية، إلا أنه الأقرب إلى العلامة الحقيقية من حيث شكل وحجم التقسيم، مما يوفر قيمة سريرية عملية أفضل.
هذه الورقة هي الأولى التي تجمع بشكل منهجي بين مشفّر محول التحويل ومفكّك الالتفاف الحديث لتقسيم الصور الطبية ثلاثية الأبعاد، مع إدخال آلية انتباه متقاطع متعددة الأنماط.
تستشهد الورقة بالأعمال المهمة في هذا المجال، بما في ذلك:
3D U-Net: عمل تأسيسي في تقسيم الصور الطبية ثلاثية الأبعاد
nnU-Net: إطار عمل آلي لتقسيم الصور الطبية
SwinUNETR: تطبيق Swin Transformer في تقسيم الصور الطبية
MedNeXt: طريقة تقسيم الصور الطبية بناءً على ConvNeXt
التقييم الشامل: هذا عمل يتمتع بدرجة معينة من الابتكار في مجال تقسيم الصور الطبية ثلاثية الأبعاد، خاصة في جوانب الدمج متعدد الأنماط وتصميم البنية. على الرغم من أن تحسن الأداء محدود نسبياً، إلا أن عملية الطريقة وإسهامها في المجال يستحقان الاعتراف.