2025-11-24T09:43:19.398688

nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

Liu, Tao, Dong et al.
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
academic

nnY-Net: 3D चिकित्सा छवि विभाजन के लिए Swin-NeXt क्रॉस-अटेंशन के साथ

मूल जानकारी

  • पेपर ID: 2501.01406
  • शीर्षक: nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation
  • लेखक: Haixu Liu¹, Zerui Tao¹, Wenzhen Dong², Qiuzhuang Sun¹
  • संस्थान: ¹सिडनी विश्वविद्यालय, ²हांगकांग चीनी विश्वविद्यालय
  • वर्गीकरण: cs.CV (कंप्यूटर दृष्टि)
  • पेपर लिंक: https://arxiv.org/abs/2501.01406

सारांश

यह पेपर 3D चिकित्सा छवि विभाजन के लिए nnY-Net नामक एक नई मॉडल संरचना प्रस्तावित करता है। यह मॉडल U-Net संरचना के निचले भाग में क्रॉस-अटेंशन मॉड्यूल जोड़कर Y-आकार की संरचना बनाता है। लेखकों ने दो नवीनतम SOTA मॉडल MedNeXt और SwinUNETR के लाभों को एकीकृत किया है, Swin Transformer को एनकोडर के रूप में और ConvNeXt को डिकोडर के रूप में उपयोग करते हुए, नवीन रूप से Swin-NeXt संरचना को डिज़ाइन किया है। मॉडल एनकोडर के निम्नतम स्तर की विशेषता मानचित्र को Key और Value के रूप में उपयोग करता है, और रोगी की विशेषताओं (जैसे रोगविज्ञान और उपचार जानकारी) को Query के रूप में उपयोग करके क्रॉस-अटेंशन भार की गणना करता है। इसके अलावा, dynUnet और nnU-Net फ्रेमवर्क के आधार पर 3D छवि विभाजन के पूर्व-प्रसंस्करण और बाद-प्रसंस्करण विधियों को सरल बनाया गया है, और असंतुलित वॉक्सेल वर्गीकरण के प्रशिक्षण दक्षता को बढ़ाने के लिए DiceFocalCELoss बनाया गया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यकृत ट्यूमर CT 3D छवि विभाजन चिकित्सा छवि विभाजन में एक महत्वपूर्ण कार्य है। सटीक CT छवि विभाजन डॉक्टरों को ट्यूमर की मात्रा का अनुमान लगाने और उचित उपचार योजना तैयार करने में मदद कर सकता है।

मौजूदा विधियों की सीमाएं

  1. पारंपरिक विधियों की सीमाएं: 2016 से पहले मुख्य रूप से क्षेत्र वृद्धि जैसे अनुपर्यवेक्षित एल्गोरिदम का उपयोग किया जाता था, सटीकता सीमित थी
  2. एकल आर्किटेक्चर की खामियां: मौजूदा विधियां या तो शुद्ध कनवल्शन (जैसे nnU-Net) पर आधारित हैं या शुद्ध Transformer (जैसे SwinUNETR) पर, दोनों के लाभों को पूरी तरह से जोड़ने में विफल रहती हैं
  3. बहु-मोडल संलयन अपर्याप्त: मौजूदा विधियां मुख्य रूप से छवि जानकारी को संभालती हैं, रोगी की रोगविज्ञान और उपचार जानकारी का प्रभावी ढंग से उपयोग नहीं करती हैं
  4. वर्ग असंतुलन समस्या: पृष्ठभूमि लेबल 90% से अधिक पिक्सल पर कब्जा करता है, जिससे प्रशिक्षण कठिन हो जाता है

अनुसंधान प्रेरणा

यह पेपर Transformer और कनवल्शनल न्यूरल नेटवर्क के लाभों को एकीकृत करके एक ऐसा मॉडल डिज़ाइन करने का लक्ष्य रखता है जो 3D छवियों और रोगी की नैदानिक जानकारी दोनों को संभाल सके, चिकित्सा छवि विभाजन की सटीकता और व्यावहारिकता में सुधार करने के लिए।

मुख्य योगदान

  1. Swin-NeXt आर्किटेक्चर प्रस्तावित करना: नवीन रूप से SwinUNETR के एनकोडर को MedNeXt के डिकोडर के साथ जोड़ना, विशेषता निष्कर्षण में Transformer और पिक्सेल-स्तरीय डिकोडिंग में कनवल्शन के लाभों का पूरी तरह से उपयोग करना
  2. क्रॉस-अटेंशन संलयन तंत्र डिज़ाइन करना: तीन विशेषता संलयन विधियां प्रस्तावित करना, पाया गया कि क्रॉस-अटेंशन तंत्र बहु-मोडल संलयन में सर्वश्रेष्ठ प्रदर्शन करता है, मॉडल के प्रदर्शन में स्थिर सुधार कर सकता है
  3. DiceFocalCELoss हानि फ़ंक्शन बनाना: DiceLoss, FocalLoss और क्रॉस-एंट्रॉपी हानि को जोड़ना, वॉक्सेल वर्गीकरण में वर्ग असंतुलन समस्या को प्रभावी ढंग से हल करना
  4. पूर्व-प्रसंस्करण प्रवाह को सरल बनाना: dynUnet और nnU-Net फ्रेमवर्क के आधार पर, 3D छवि विभाजन के पूर्व-प्रसंस्करण और बाद-प्रसंस्करण विधियों को सरल और अनुकूलित करना

विधि विवरण

कार्य परिभाषा

इनपुट:

  • 3D CT स्कैन छवि χ ∈ R^(H×W×D×C)
  • रोगी की नैदानिक जानकारी (रोगविज्ञान, उपचार जानकारी आदि)

आउटपुट: बहु-वर्गीय विभाजन मास्क, जिसमें यकृत, ट्यूमर, रक्त वाहिकाएं, महाधमनी आदि संरचनाएं शामिल हैं

बाधाएं: उच्च-रिज़ॉल्यूशन 3D छवियों की मेमोरी सीमाएं, वर्ग अत्यधिक असंतुलित विभाजन कार्य

मॉडल आर्किटेक्चर

1. Swin Transformer एनकोडर

3D Swin Transformer को एनकोडर के रूप में अपनाया गया है, विशिष्ट कार्यान्वयन:

  • पैच विभाजन: इनपुट छवि को M×M×M आकार की 3D विंडो में विभाजित करना
  • विंडो अटेंशन तंत्र:
    z^l = W-MSA(LN(z^(l-1))) + z^(l-1)
    z^l = MLP(LN(z^l)) + z^l
    z^(l+1) = SW-MSA(LN(z^l)) + z^l
    z^(l+1) = MLP(LN(z^(l+1))) + z^(l+1)
    
  • अटेंशन गणना:
    Attention(Q,K,V) = Softmax(QK^T/√d + B)V
    

2. ConvNeXt डिकोडर

MedNeXt के डिकोडर संरचना का उपयोग:

  • ट्रांसपोज़्ड कनवल्शन अपसैंपलिंग:
    Y_{i,j,k} = ∑∑∑ K_{p,q,r} · X_{(expanded)}_{i+p,j+q,k+r}
    
  • GELU सक्रियण फ़ंक्शन:
    GELU(x) = x/2[1 + erf(x/√2)]
    

3. क्रॉस-अटेंशन संलयन मॉड्यूल

एनकोडर के निचले स्तर (Bottleneck) में बहु-मोडल जानकारी को एकीकृत करना:

  • Key & Value: एनकोडर के निम्नतम स्तर की विशेषता मानचित्र
  • Query: रोगी की नैदानिक विशेषता वेक्टर
  • संलयन रणनीति: पूर्ण कनेक्टेड परत के माध्यम से नैदानिक विशेषताओं को उपयुक्त आयाम में मैप करना, फिर क्रॉस-अटेंशन गणना करना

तकनीकी नवाचार बिंदु

  1. हाइब्रिड आर्किटेक्चर डिज़ाइन: पहली बार Swin Transformer एनकोडर को ConvNeXt डिकोडर के साथ जोड़ना, प्रत्येक के लाभों को बढ़ाना
  2. बहु-मोडल क्रॉस-अटेंशन: नवीन रूप से क्रॉस-अटेंशन तंत्र का उपयोग करके छवि विशेषताओं और नैदानिक जानकारी को संलयित करना
  3. संयुक्त हानि फ़ंक्शन: चिकित्सा छवि विभाजन में वर्ग असंतुलन समस्या को हल करने के लिए DiceFocalCELoss डिज़ाइन करना

प्रयोगात्मक सेटअप

डेटासेट

  • छवि डेटा: 98 रोगियों से 110 यकृत CT स्कैन छवियां
  • नैदानिक डेटा: 56 चर की रोगी रोगविज्ञान और उपचार जानकारी
  • डेटा सफाई: 4 समस्याग्रस्त डेटा सेट हटाए गए (HCC 017, 008, 025, 009)
  • लापता मान प्रसंस्करण: मशीन लर्निंग मॉडल का उपयोग करके लापता मानों को भरना

मूल्यांकन मेट्रिक्स

  1. Dice गुणांक: Dice = 2×|X∩Y|/(|X|+|Y|)
  2. औसत IoU: MIoU = (1/N)∑|X_i∩Y_i|/|X_i∪Y_i|
  3. Hausdorff दूरी (HD95): Hausdorff दूरी का 95वां प्रतिशतक
  4. सटीकता, रिकॉल, परिशुद्धता: मानक वर्गीकरण मेट्रिक्स

तुलनात्मक विधियां

  • U-Net
  • UNETR
  • SwinUNETR
  • MedNeXt
  • प्रस्तावित Swin-NeXt और इसके वेरिएंट

कार्यान्वयन विवरण

  • फ्रेमवर्क: MONAI पर आधारित, Jupyter Notebook के साथ संगत
  • पूर्व-प्रसंस्करण: छवि क्रॉपिंग, सामान्यीकरण, पुनः नमूनाकरण, डेटा वृद्धि
  • प्रशिक्षण रणनीति: स्लाइडिंग विंडो रणनीति, मेमोरी ओवरफ्लो से बचने के लिए खंडों में प्रसंस्करण

प्रयोगात्मक परिणाम

मुख्य परिणाम

यकृत ट्यूमर विभाजन कार्य पर प्रदर्शन तुलना:

मॉडलवर्गDiceMIoUHD95सटीकतारिकॉलपरिशुद्धता
U-Netकुल0.7090.61416.8470.9910.7700.704
SwinUNETRकुल0.6560.5537.30.9830.7330.64
MedNeXtकुल0.6830.58321.60.990.7520.674
Swin-NeXtकुल0.6620.56914.6140.9920.7140.684

विलोपन प्रयोग

विशेषता संलयन विधियों की तुलना:

संलयन विधिमॉडलDiceMIoUHD95
AddSwinUNETR0.6620.56226.956
ConcatSwinUNETR0.6410.53739.197
Cross AttentionSwinUNETR0.6660.56432.883
Cross AttentionMedNeXt0.6830.58926.428
Cross AttentionSwin-NeXt0.6570.56511.28

मुख्य निष्कर्ष:

  1. क्रॉस-अटेंशन तंत्र सभी मॉडलों पर स्थिर प्रदर्शन सुधार प्रदान कर सकता है
  2. Add और Concat विधियां ट्रांसपोज़्ड कनवल्शन का उपयोग करने वाले मॉडल (MedNeXt, Swin-NeXt) पर अभिसरित नहीं हो सकती हैं
  3. क्रॉस-अटेंशन तंत्र ट्रांसपोज़्ड कनवल्शन संरचना के साथ बेहतर संगतता रखता है

केस विश्लेषण

रोगी HCC066 की CT स्लाइस के दृश्य परिणामों के माध्यम से दिखाया गया है कि, हालांकि Swin-NeXt संख्यात्मक मेट्रिक्स पर इष्टतम नहीं है, लेकिन विभाजन आकार और आकार में वास्तविक लेबल के सबसे करीब है, बेहतर नैदानिक व्यावहारिक मूल्य है।

संबंधित कार्य

3D चिकित्सा छवि विभाजन विकास

  1. पारंपरिक विधियां: क्षेत्र वृद्धि जैसी अनुपर्यवेक्षित विधियां
  2. गहन शिक्षा युग: 3D U-Net ने आधार स्थापित किया
  3. स्वचालन फ्रेमवर्क: nnU-Net स्वचालित पूर्व-प्रसंस्करण और पैरामीटर चयन को एकीकृत करता है
  4. Transformer अनुप्रयोग: UNETR ने ViT का परिचय दिया, SwinUNETR Swin Transformer का उपयोग करता है
  5. आधुनिक कनवल्शन: MedNeXt ConvNeXt के आधार पर डिज़ाइन किया गया है

इस पेपर का योगदान स्थिति

यह पेपर 3D चिकित्सा छवि विभाजन में Transformer एनकोडर और आधुनिक कनवल्शन डिकोडर को व्यवस्थित रूप से जोड़ने वाली पहली विधि है, और बहु-मोडल क्रॉस-अटेंशन तंत्र को पेश किया है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. आर्किटेक्चर संलयन प्रभावी है: Swin Transformer एनकोडर और ConvNeXt डिकोडर का संयोजन प्रभावी है
  2. क्रॉस-अटेंशन श्रेष्ठ है: बहु-मोडल संलयन में, क्रॉस-अटेंशन तंत्र सरल जोड़ और संयोजन विधियों से काफी बेहतर है
  3. संयुक्त हानि फ़ंक्शन प्रभावी है: DiceFocalCELoss वर्ग असंतुलन समस्या के प्रशिक्षण अभिसरण में सुधार कर सकता है

सीमाएं

  1. पैरामीटर सेटिंग रूढ़िवादी: निष्पक्ष तुलना के लिए पैरामीटर की संख्या कम की गई, इष्टतम 1:1:3:1 विशेषता निष्कर्षण ब्लॉक अनुपात का उपयोग नहीं किया गया
  2. कंप्यूटिंग संसाधन सीमाएं: सर्वर कतार आदि कारकों के कारण, सभी नियोजित प्रयोग पूरे नहीं हो सके
  3. डेटासेट आकार: अपेक्षाकृत छोटा डेटासेट मॉडल की सामान्यीकरण क्षमता को सीमित कर सकता है

भविष्य की दिशाएं

  1. अधिक इष्टतम नेटवर्क आर्किटेक्चर अनुपात डिज़ाइन की खोज करना
  2. बड़े पैमाने के डेटासेट पर विधि की प्रभावशीलता को सत्यापित करना
  3. अन्य चिकित्सा छवि विभाजन कार्यों की प्रयोज्यता का अनुसंधान करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: पहली बार Swin Transformer और ConvNeXt के लाभों को व्यवस्थित रूप से जोड़ना
  2. बहु-मोडल संलयन: नैदानिक जानकारी का प्रभावी ढंग से उपयोग करके छवि विभाजन में सहायता करना
  3. पर्याप्त प्रयोग: विस्तृत विलोपन प्रयोग और तुलनात्मक विश्लेषण शामिल
  4. उच्च व्यावहारिक मूल्य: चिकित्सा छवि विभाजन की वास्तविक आवश्यकताओं के अनुसार डिज़ाइन किया गया

कमियां

  1. सीमित प्रदर्शन सुधार: आधार विधियों की तुलना में, संख्यात्मक सुधार पर्याप्त नहीं है
  2. असंगत प्रयोगात्मक शर्तें: विभिन्न मॉडलों के प्रशिक्षण समय और शर्तों में अंतर है
  3. अपर्याप्त सैद्धांतिक विश्लेषण: क्रॉस-अटेंशन अधिक प्रभावी क्यों है, इसके गहन सैद्धांतिक विश्लेषण की कमी है
  4. अज्ञात सामान्यीकरण: केवल यकृत ट्यूमर विभाजन पर सत्यापित, अन्य कार्यों का प्रदर्शन अज्ञात है

प्रभाव

  1. पद्धति विज्ञान योगदान: 3D चिकित्सा छवि विभाजन के लिए नई आर्किटेक्चर डिज़ाइन सोच प्रदान करना
  2. बहु-मोडल संलयन: चिकित्सा छवि विश्लेषण में बहु-मोडल जानकारी संलयन के लिए प्रभावी समाधान प्रदान करना
  3. व्यावहारिक मूल्य: नैदानिक जानकारी पर विचार करने वाली विभाजन विधि वास्तविक चिकित्सा आवश्यकताओं के अनुरूप है

प्रयोज्य परिदृश्य

  1. 3D चिकित्सा छवि विभाजन: विशेष रूप से नैदानिक जानकारी को जोड़ने की आवश्यकता वाले परिदृश्य
  2. बहु-मोडल चिकित्सा विश्लेषण: छवि और संरचित डेटा संयोजन कार्य
  3. वर्ग असंतुलन विभाजन: पृष्ठभूमि प्रभावशाली विभाजन कार्य

संदर्भ

पेपर इस क्षेत्र के महत्वपूर्ण कार्यों को उद्धृत करता है, जिनमें शामिल हैं:

  • 3D U-Net: 3D चिकित्सा छवि विभाजन का मौलिक कार्य
  • nnU-Net: स्वचालित चिकित्सा छवि विभाजन फ्रेमवर्क
  • SwinUNETR: चिकित्सा छवि विभाजन में Swin Transformer का अनुप्रयोग
  • MedNeXt: ConvNeXt पर आधारित चिकित्सा छवि विभाजन विधि

समग्र मूल्यांकन: यह 3D चिकित्सा छवि विभाजन क्षेत्र में कुछ नवाचार के साथ एक कार्य है, विशेष रूप से बहु-मोडल संलयन और आर्किटेक्चर डिज़ाइन के पहलुओं में। हालांकि प्रदर्शन सुधार अपेक्षाकृत सीमित है, विधि की व्यावहारिकता और क्षेत्र में योगदान को स्वीकार किया जाना चाहिए।