2025-11-14T11:43:10.270391

Reproducible Evaluation of Data Augmentation and Loss Functions for Brain Tumor Segmentation

B
Brain tumor segmentation is crucial for diagnosis and treatment planning, yet challenges such as class imbalance and limited model generalization continue to hinder progress. This work presents a reproducible evaluation of U-Net segmentation performance on brain tumor MRI using focal loss and basic data augmentation strategies. Experiments were conducted on a publicly available MRI dataset, focusing on focal loss parameter tuning and assessing the impact of three data augmentation techniques: horizontal flip, rotation, and scaling. The U-Net with focal loss achieved a precision of 90%, comparable to state-of-the-art results. By making all code and results publicly available, this study establishes a transparent, reproducible baseline to guide future research on augmentation strategies and loss function design in brain tumor segmentation.
academic

मस्तिष्क ट्यूमर विभाजन के लिए डेटा संवर्धन और हानि कार्यों का पुनरुत्पादनीय मूल्यांकन

मूल जानकारी

  • पेपर ID: 2510.08617
  • शीर्षक: Reproducible Evaluation of Data Augmentation and Loss Functions for Brain Tumor Segmentation
  • लेखक: Saumya B (भारतीय विज्ञान संस्थान)
  • वर्गीकरण: cs.CV cs.LG
  • प्रकाशन तिथि: 8 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.08617

सारांश

मस्तिष्क ट्यूमर विभाजन निदान और उपचार योजना के लिए महत्वपूर्ण है, लेकिन वर्ग असंतुलन और सीमित मॉडल सामान्यीकरण जैसी चुनौतियाँ प्रगति में बाधा डालती हैं। यह अनुसंधान मस्तिष्क ट्यूमर MRI विभाजन पर फोकल हानि और बुनियादी डेटा संवर्धन रणनीतियों का उपयोग करके U-Net के प्रदर्शन का पुनरुत्पादनीय मूल्यांकन प्रस्तुत करता है। प्रयोग सार्वजनिक MRI डेटासेट पर किए गए, फोकल हानि पैरामीटर ट्यूनिंग पर ध्यान केंद्रित करते हुए और तीन डेटा संवर्धन तकनीकों के प्रभाव का मूल्यांकन किया: क्षैतिज फ्लिप, घुमाव और स्केलिंग। फोकल हानि का उपयोग करने वाले U-Net ने 90% सटीकता प्राप्त की, जो अत्याधुनिक परिणामों के अनुरूप है। सभी कोड और परिणामों को सार्वजनिक करके, यह अनुसंधान एक पारदर्शी, पुनरुत्पादनीय बेंचमार्क स्थापित करता है जो मस्तिष्क ट्यूमर विभाजन में संवर्धन रणनीतियों और हानि कार्य डिजाइन के भविष्य के अनुसंधान के लिए मार्गदर्शन प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मस्तिष्क ट्यूमर सबसे चुनौतीपूर्ण चिकित्सा रोगों में से एक है, जिसके लिए प्रभावी उपचार योजना के लिए ट्यूमर सीमाओं की सटीक पहचान की आवश्यकता होती है। चुंबकीय अनुनाद इमेजिंग (MRI) मस्तिष्क ट्यूमर का पता लगाने के लिए व्यापक रूप से उपयोग की जाने वाली इमेजिंग विधि है, लेकिन रेडियोलॉजिस्ट द्वारा ट्यूमर क्षेत्र को मैन्युअल रूप से चिह्नित करने में निम्नलिखित समस्याएं हैं:

  1. समय लेने वाली और त्रुटि-प्रवण
  2. अवलोकनकर्ताओं के बीच उच्च परिवर्तनशीलता
  3. नैदानिक वातावरण में स्केलिंग में कठिनाई

तकनीकी चुनौतियाँ

  1. वर्ग असंतुलन: ट्यूमर पिक्सल पृष्ठभूमि पिक्सल के सापेक्ष दुर्लभ हैं, जिससे पारंपरिक हानि कार्य खराब प्रदर्शन करते हैं
  2. डेटा की कमी: चिकित्सा छवि एनोटेशन की उच्च लागत, सीमित प्रशिक्षण डेटा उपलब्ध
  3. सामान्यीकरण क्षमता: विभिन्न स्कैनर और रोगी समूहों के बीच मॉडल की सामान्यीकरण क्षमता सीमित है

अनुसंधान प्रेरणा

यह अनुसंधान फोकल हानि पैरामीटर और डेटा संवर्धन रणनीतियों का व्यवस्थित मूल्यांकन करके मस्तिष्क ट्यूमर विभाजन के लिए एक पुनरुत्पादनीय बेंचमार्क स्थापित करने का लक्ष्य रखता है, जो पारदर्शिता और पुनरुत्पादनीयता के संदर्भ में मौजूदा अनुसंधान में अंतराल को भरता है।

मुख्य योगदान

  1. पुनरुत्पादनीय बेंचमार्क स्थापित करना: मस्तिष्क ट्यूमर MRI विभाजन पर फोकल हानि का उपयोग करके U-Net का बेंचमार्क कार्यान्वयन प्रदान किया
  2. व्यवस्थित पैरामीटर विश्लेषण: फोकल हानि पैरामीटर (α और γ) के मॉडल प्रदर्शन पर प्रभाव का गहन विश्लेषण
  3. डेटा संवर्धन रणनीति मूल्यांकन: तीन विभिन्न डेटा संवर्धन तकनीकों के मॉडल प्रदर्शन पर प्रभाव का मूल्यांकन
  4. ओपन सोर्स योगदान: सभी कोड और प्रयोगात्मक कॉन्फ़िगरेशन सार्वजनिक करना, अनुसंधान की पारदर्शिता और पुनरुत्पादनीयता सुनिश्चित करना

विधि विवरण

कार्य परिभाषा

इनपुट: 256×256 पिक्सल के T1-भारित विपरीत-वर्धित MRI छवि
आउटपुट: द्विआधारी विभाजन मुखौटा, ट्यूमर क्षेत्र की पहचान करता है
उद्देश्य: मस्तिष्क ट्यूमर सीमाओं को सटीक रूप से विभाजित करना, वर्ग असंतुलन समस्या को संभालना

मॉडल आर्किटेक्चर

U-Net संरचना डिजाइन

  • एनकोडर: चार डाउनसैंपलिंग ब्लॉक, प्रत्येक ब्लॉक में दो कनवल्शन लेयर (3×3 कर्नल, ReLU सक्रियण, He सामान्य आरंभीकरण) शामिल हैं, जिसके बाद 2×2 अधिकतम पूलिंग और 0.3 ड्रॉपआउट है
  • बॉटलनेक लेयर: 1024 फ़िल्टर के साथ दो कनवल्शन लेयर, उच्च-स्तरीय विशेषता प्रतिनिधित्व को कैप्चर करते हैं
  • डिकोडर: चार अपसैंपलिंग ब्लॉक, ट्रांसपोज़्ड कनवल्शन का उपयोग करके अपसैंपलिंग, स्थानिक विवरण बनाए रखने के लिए स्किप कनेक्शन के साथ संयुक्त
  • आउटपुट लेयर: 1×1 कनवल्शन + Sigmoid सक्रियण, द्विआधारी विभाजन मानचित्र उत्पन्न करता है

फोकल हानि कार्य

फोकल हानि प्रत्येक पिक्सल हानि के योगदान को गतिशील रूप से समायोजित करके वर्ग असंतुलन को संबोधित करता है:

FL(pt)=α(1pt)γlog(pt)FL(p_t) = -\alpha(1-p_t)^\gamma \log(p_t)

जहाँ:

  • ptp_t: वास्तविक वर्ग के लिए मॉडल की भविष्यवाणी की संभावना
  • α\alpha: वर्ग संतुलन भार कारक
  • γ\gamma: फोकसिंग पैरामीटर, कठिन नमूनों पर ध्यान नियंत्रित करता है
  • (1pt)(1-p_t): मॉड्यूलेशन कारक, गलत वर्गीकृत नमूनों को उच्च वजन देता है

तकनीकी नवाचार बिंदु

  1. पैरामीटरीकृत अनुसंधान: फोकल हानि पैरामीटर के दो सेटों की व्यवस्थित तुलना:
    • α=0.25, γ=2.0: कठिन नमूनों और ट्यूमर सीमाओं पर जोर देता है
    • α=2.0, γ=0.75: अल्पसंख्यक वर्ग पर अधिक ध्यान केंद्रित करता है लेकिन कठिन नमूनों पर फोकसिंग को कम करता है
  2. संवर्धन रणनीति तुलना: तीन बुनियादी संवर्धन तकनीकों के प्रभाव का स्वतंत्र मूल्यांकन, व्यावहारिक अनुप्रयोग के लिए मार्गदर्शन प्रदान करता है

प्रयोगात्मक सेटअप

डेटासेट

  • स्रोत: दक्षिणी अस्पताल और तियांजिन चिकित्सा विश्वविद्यालय (2005-2010), Jun Cheng द्वारा संग्रहीत
  • आकार: 233 रोगियों से 3064 T1-भारित विपरीत-वर्धित MRI छवियाँ
  • ट्यूमर प्रकार:
    • मेनिनजिओमा: 708 मामले
    • ग्लियोमा: 1426 मामले
    • पिट्यूटरी ट्यूमर: 930 मामले
  • एनोटेशन: तीन अनुभवी रेडियोलॉजिस्ट द्वारा ट्यूमर सीमाओं को मैन्युअल रूप से चिह्नित किया गया
  • डेटा विभाजन: प्रशिक्षण सेट 1838 नमूने, सत्यापन सेट 613 नमूने, परीक्षण सेट 613 नमूने

मूल्यांकन मेट्रिक्स

  • Dice गुणांक: विभाजन ओवरलैप को मापता है
  • IoU (इंटरसेक्शन ओवर यूनियन): भविष्यवाणी और वास्तविक क्षेत्र के ओवरलैप का मूल्यांकन करता है
  • सटीकता (Precision): ट्यूमर के रूप में भविष्यवाणी किए गए पिक्सल में वास्तव में ट्यूमर का अनुपात
  • रिकॉल (Recall): सही ढंग से पहचाने गए वास्तविक ट्यूमर पिक्सल का अनुपात
  • सही वर्गीकरण दर (Accuracy): समग्र पिक्सल वर्गीकरण सटीकता

तुलनात्मक विधियाँ

  • Arafat et al. (2023): गहन शिक्षा-आधारित मस्तिष्क ट्यूमर विभाजन विधि
  • Gupta et al. (2021): MRI मस्तिष्क ट्यूमर विभाजन के लिए गहन शिक्षा का उपयोग

कार्यान्वयन विवरण

  • अनुकूलक: Adam, सीखने की दर 1×10⁻⁴
  • बैच आकार: 8
  • प्रशिक्षण एपोक्स: 200 epochs
  • हार्डवेयर: Google Colab TPUv2-8
  • फ्रेमवर्क: TensorFlow

प्रयोगात्मक परिणाम

मुख्य परिणाम

फोकल हानि पैरामीटर ट्यूनिंग परिणाम

पैरामीटर सेटिंगसही वर्गीकरण दरहानिसटीकतारिकॉलIoUDice गुणांक
α=0.25, γ=2.00.99410.00820.90140.76810.70820.7867
α=2.0, γ=0.750.99390.01540.87780.77890.70040.7839

मुख्य निष्कर्ष: α=0.25, γ=2.0 पैरामीटर संयोजन अधिकांश मेट्रिक्स पर बेहतर प्रदर्शन करता है, विशेष रूप से सटीकता और हानि मान में।

डेटा संवर्धन प्रभाव मूल्यांकन

संवर्धन तकनीकसही वर्गीकरण दरहानिसटीकतारिकॉलIoUDice गुणांक
कोई संवर्धन नहीं0.99410.00820.90140.76810.70820.7867
क्षैतिज फ्लिप0.99420.00530.90010.77790.71520.8041
घुमाव (±15°)0.99400.00290.87740.78920.70900.7955
यादृच्छिक स्केलिंग0.99340.00640.90970.71060.66430.7486

विलोपन प्रयोग

  1. क्षैतिज फ्लिप: सभी मेट्रिक्स में सुधार, Dice गुणांक में सबसे अधिक वृद्धि (+0.0174)
  2. घुमाव: रिकॉल और Dice गुणांक में वृद्धि, अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है
  3. स्केलिंग: सबसे खराब प्रभाव, कुछ मेट्रिक्स पर बेसलाइन मॉडल से भी कम

प्रशिक्षण वक्र विश्लेषण

  • क्षैतिज फ्लिप और घुमाव: अधिक स्थिर सत्यापन वक्र उत्पन्न करते हैं, प्रशिक्षण-सत्यापन प्रदर्शन अंतर छोटा है
  • स्केलिंग: सत्यापन हानि में अधिक उतार-चढ़ाव, कमजोर सामान्यीकरण क्षमता
  • कोई संवर्धन नहीं: चिकना वक्र लेकिन हल्के ओवरफिटिंग के साथ

अत्याधुनिक विधियों के साथ तुलना

मॉडलसटीकतारिकॉलIoUDice गुणांक
यह अनुसंधान0.90010.77790.71520.8041
Arafat et al.0.820.740.680.94
Gupta et al.0.890.91-0.90

नोट: हालांकि यह अनुसंधान सटीकता में उत्कृष्ट प्रदर्शन करता है, लेकिन Dice गुणांक में कुछ तुलनात्मक विधियों से थोड़ा कम है।

संबंधित कार्य

पारंपरिक विधियाँ

  • थ्रेसहोल्डिंग विभाजन: ग्रेस्केल हिस्टोग्राम पर आधारित Otsu विधि
  • सीमा पहचान: सक्रिय समोच्च मॉडल
  • क्षेत्र वृद्धि: बीज बिंदु-आधारित क्षेत्र विस्तार
  • सीमाएं: शोर के प्रति संवेदनशील, कमजोर सामान्यीकरण क्षमता

गहन शिक्षा विधियाँ

  • CNN आर्किटेक्चर: स्वचालित रूप से पदानुक्रमित विशेषताएं सीखते हैं, पारंपरिक हस्तनिर्मित विशेषता विधियों को पार करते हैं
  • U-Net: एनकोडर-डिकोडर संरचना स्किप कनेक्शन के साथ, जैव चिकित्सा विभाजन के लिए सोने का मानक बन गया है
  • हानि कार्य विकास: द्विआधारी क्रॉस-एंट्रॉपी से Dice हानि तक, फिर फोकल हानि तक

डेटा संवर्धन रणनीतियाँ

  • ज्यामितीय रूपांतरण: फ्लिप, घुमाव, स्केलिंग
  • लोचदार विरूपण: ऊतक विरूपण का अनुकरण करता है
  • तीव्रता व्यवधान: विभिन्न स्कैनिंग स्थितियों का अनुकरण करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. फोकल हानि पैरामीटर चयन महत्वपूर्ण है: α=0.25, γ=2.0 संयोजन वर्ग असंतुलन को संभालने में अधिक प्रभावी है
  2. सरल संवर्धन रणनीतियाँ प्रभावी हैं: क्षैतिज फ्लिप सबसे प्रभावी संवर्धन तकनीक है, घुमाव दूसरा है
  3. स्केलिंग संवर्धन प्रभाव सीमित है: इस डेटासेट पर, आकार परिवर्तन प्रदर्शन सुधार में कम योगदान देता है
  4. पुनरुत्पादनीयता का महत्व: एक पारदर्शी प्रयोगात्मक बेंचमार्क स्थापित किया गया है

सीमाएं

  1. एकल डेटासेट: केवल एक डेटासेट पर सत्यापित, सामान्यीकरण क्षमता की पुष्टि की आवश्यकता है
  2. बुनियादी संवर्धन रणनीतियाँ: लोचदार विरूपण जैसी अधिक उन्नत संवर्धन तकनीकों की खोज नहीं की गई है
  3. निश्चित आर्किटेक्चर: केवल मानक U-Net का उपयोग, अन्य उन्नत आर्किटेक्चर की तुलना नहीं की गई है
  4. मूल्यांकन मेट्रिक्स: मुख्य रूप से पिक्सल-स्तरीय मेट्रिक्स पर ध्यान केंद्रित, नैदानिक प्रासंगिकता मूल्यांकन की कमी है

भविष्य की दिशाएं

  1. उन्नत संवर्धन रणनीतियाँ: लोचदार विरूपण, मोडल-विशिष्ट रूपांतरण
  2. जनरेटिव डेटा संवर्धन: प्रशिक्षण डेटा संश्लेषित करने के लिए GANs का उपयोग
  3. बहु-कार्य शिक्षा: विभाजन और ट्यूमर प्रकार वर्गीकरण को संयोजित करना
  4. क्रॉस-डेटासेट सत्यापन: कई डेटासेट पर विधि की सामान्यीकरण क्षमता का सत्यापन

गहन मूल्यांकन

शक्तियाँ

  1. उच्च अनुसंधान पारदर्शिता: पूर्ण कोड और प्रयोगात्मक कॉन्फ़िगरेशन प्रदान करता है, पुनरुत्पादनीयता सुनिश्चित करता है
  2. मजबूत व्यवस्थितता: चरणबद्ध प्रयोगात्मक डिजाइन, पहले हानि कार्य पैरामीटर अनुकूलित करता है, फिर संवर्धन रणनीतियों का मूल्यांकन करता है
  3. व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोग के लिए स्पष्ट पैरामीटर चयन और संवर्धन रणनीति मार्गदर्शन प्रदान करता है
  4. बेंचमार्क स्थापना: इस क्षेत्र के लिए मानकीकृत मूल्यांकन बेंचमार्क प्रदान करता है

कमियाँ

  1. सीमित नवाचार: मुख्य रूप से मौजूदा विधियों का संयोजन और मूल्यांकन, तकनीकी नवाचार की कमी है
  2. अपर्याप्त प्रयोगात्मक गहराई: विभिन्न संवर्धन रणनीतियों के कार्य तंत्र का गहन विश्लेषण नहीं किया गया है
  3. डेटासेट सीमाएं: एकल डेटासेट निष्कर्षों की सीमितता का कारण बन सकता है
  4. अपर्याप्त तुलना: अत्याधुनिक विधियों के साथ तुलना कम है, और सांख्यिकीय महत्व परीक्षण की कमी है

प्रभाव

  1. शैक्षणिक योगदान: मस्तिष्क ट्यूमर विभाजन अनुसंधान के लिए विश्वसनीय बेंचमार्क और संदर्भ बिंदु प्रदान करता है
  2. व्यावहारिक मूल्य: नैदानिक अनुप्रयोग के लिए व्यावहारिक तकनीकी समाधान प्रदान करता है
  3. पुनरुत्पादनीयता: इस क्षेत्र के अनुसंधान की पारदर्शिता और पुनरुत्पादनीयता को बढ़ावा देता है
  4. शैक्षिक मूल्य: चिकित्सा छवि प्रसंस्करण पाठ्यक्रमों के लिए शुरुआती लोगों को पूर्ण कार्यान्वयन संदर्भ प्रदान करता है

लागू परिदृश्य

  1. नैदानिक निदान सहायता: रेडियोलॉजिस्ट के लिए सहायक उपकरण के रूप में कार्य कर सकता है
  2. अनुसंधान बेंचमार्क: नई विधियों के लिए तुलनात्मक बेंचमार्क प्रदान करता है
  3. शिक्षण अनुप्रयोग: चिकित्सा छवि प्रसंस्करण पाठ्यक्रमों का व्यावहारिक मामला
  4. उत्पाद विकास: चिकित्सा AI उत्पादों का तकनीकी आधार

संदर्भ

  1. Ronneberger et al. (2015) - U-Net मूल पेपर
  2. Lin et al. (2017) - फोकल हानि प्रस्ताव पेपर
  3. Cheng et al. (2015) - डेटासेट स्रोत पेपर
  4. Nalepa et al. (2019) - मस्तिष्क ट्यूमर विभाजन डेटा संवर्धन सर्वेक्षण

समग्र मूल्यांकन: यह एक ठोस अनुभवजन्य अनुसंधान पेपर है जो हालांकि तकनीकी नवाचार में सीमित है, लेकिन पुनरुत्पादनीय बेंचमार्क स्थापित करने और व्यवस्थित मूल्यांकन में महत्वपूर्ण मूल्य रखता है। पेपर की पारदर्शिता और पूर्णता सराहनीय है, जो इस क्षेत्र के आगे के विकास के लिए एक अच्छा आधार तैयार करती है।