2025-11-14T11:43:10.270391

Reproducible Evaluation of Data Augmentation and Loss Functions for Brain Tumor Segmentation

Brain tumor segmentation is crucial for diagnosis and treatment planning, yet challenges such as class imbalance and limited model generalization continue to hinder progress. This work presents a reproducible evaluation of U-Net segmentation performance on brain tumor MRI using focal loss and basic data augmentation strategies. Experiments were conducted on a publicly available MRI dataset, focusing on focal loss parameter tuning and assessing the impact of three data augmentation techniques: horizontal flip, rotation, and scaling. The U-Net with focal loss achieved a precision of 90%, comparable to state-of-the-art results. By making all code and results publicly available, this study establishes a transparent, reproducible baseline to guide future research on augmentation strategies and loss function design in brain tumor segmentation.

academic

मस्तिष्क ट्यूमर विभाजन के लिए डेटा संवर्धन और हानि कार्यों का पुनरुत्पादनीय मूल्यांकन

मूल जानकारी

पेपर ID: 2510.08617
शीर्षक: Reproducible Evaluation of Data Augmentation and Loss Functions for Brain Tumor Segmentation
लेखक: Saumya B (भारतीय विज्ञान संस्थान)
वर्गीकरण: cs.CV cs.LG
प्रकाशन तिथि: 8 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08617

सारांश

मस्तिष्क ट्यूमर विभाजन निदान और उपचार योजना के लिए महत्वपूर्ण है, लेकिन वर्ग असंतुलन और सीमित मॉडल सामान्यीकरण जैसी चुनौतियाँ प्रगति में बाधा डालती हैं। यह अनुसंधान मस्तिष्क ट्यूमर MRI विभाजन पर फोकल हानि और बुनियादी डेटा संवर्धन रणनीतियों का उपयोग करके U-Net के प्रदर्शन का पुनरुत्पादनीय मूल्यांकन प्रस्तुत करता है। प्रयोग सार्वजनिक MRI डेटासेट पर किए गए, फोकल हानि पैरामीटर ट्यूनिंग पर ध्यान केंद्रित करते हुए और तीन डेटा संवर्धन तकनीकों के प्रभाव का मूल्यांकन किया: क्षैतिज फ्लिप, घुमाव और स्केलिंग। फोकल हानि का उपयोग करने वाले U-Net ने 90% सटीकता प्राप्त की, जो अत्याधुनिक परिणामों के अनुरूप है। सभी कोड और परिणामों को सार्वजनिक करके, यह अनुसंधान एक पारदर्शी, पुनरुत्पादनीय बेंचमार्क स्थापित करता है जो मस्तिष्क ट्यूमर विभाजन में संवर्धन रणनीतियों और हानि कार्य डिजाइन के भविष्य के अनुसंधान के लिए मार्गदर्शन प्रदान करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मस्तिष्क ट्यूमर सबसे चुनौतीपूर्ण चिकित्सा रोगों में से एक है, जिसके लिए प्रभावी उपचार योजना के लिए ट्यूमर सीमाओं की सटीक पहचान की आवश्यकता होती है। चुंबकीय अनुनाद इमेजिंग (MRI) मस्तिष्क ट्यूमर का पता लगाने के लिए व्यापक रूप से उपयोग की जाने वाली इमेजिंग विधि है, लेकिन रेडियोलॉजिस्ट द्वारा ट्यूमर क्षेत्र को मैन्युअल रूप से चिह्नित करने में निम्नलिखित समस्याएं हैं:

समय लेने वाली और त्रुटि-प्रवण
अवलोकनकर्ताओं के बीच उच्च परिवर्तनशीलता
नैदानिक वातावरण में स्केलिंग में कठिनाई

तकनीकी चुनौतियाँ

वर्ग असंतुलन: ट्यूमर पिक्सल पृष्ठभूमि पिक्सल के सापेक्ष दुर्लभ हैं, जिससे पारंपरिक हानि कार्य खराब प्रदर्शन करते हैं
डेटा की कमी: चिकित्सा छवि एनोटेशन की उच्च लागत, सीमित प्रशिक्षण डेटा उपलब्ध
सामान्यीकरण क्षमता: विभिन्न स्कैनर और रोगी समूहों के बीच मॉडल की सामान्यीकरण क्षमता सीमित है

अनुसंधान प्रेरणा

यह अनुसंधान फोकल हानि पैरामीटर और डेटा संवर्धन रणनीतियों का व्यवस्थित मूल्यांकन करके मस्तिष्क ट्यूमर विभाजन के लिए एक पुनरुत्पादनीय बेंचमार्क स्थापित करने का लक्ष्य रखता है, जो पारदर्शिता और पुनरुत्पादनीयता के संदर्भ में मौजूदा अनुसंधान में अंतराल को भरता है।

मुख्य योगदान

पुनरुत्पादनीय बेंचमार्क स्थापित करना: मस्तिष्क ट्यूमर MRI विभाजन पर फोकल हानि का उपयोग करके U-Net का बेंचमार्क कार्यान्वयन प्रदान किया
व्यवस्थित पैरामीटर विश्लेषण: फोकल हानि पैरामीटर (α और γ) के मॉडल प्रदर्शन पर प्रभाव का गहन विश्लेषण
डेटा संवर्धन रणनीति मूल्यांकन: तीन विभिन्न डेटा संवर्धन तकनीकों के मॉडल प्रदर्शन पर प्रभाव का मूल्यांकन
ओपन सोर्स योगदान: सभी कोड और प्रयोगात्मक कॉन्फ़िगरेशन सार्वजनिक करना, अनुसंधान की पारदर्शिता और पुनरुत्पादनीयता सुनिश्चित करना

विधि विवरण

कार्य परिभाषा

इनपुट: 256×256 पिक्सल के T1-भारित विपरीत-वर्धित MRI छवि
आउटपुट: द्विआधारी विभाजन मुखौटा, ट्यूमर क्षेत्र की पहचान करता है
उद्देश्य: मस्तिष्क ट्यूमर सीमाओं को सटीक रूप से विभाजित करना, वर्ग असंतुलन समस्या को संभालना

मॉडल आर्किटेक्चर

U-Net संरचना डिजाइन

एनकोडर: चार डाउनसैंपलिंग ब्लॉक, प्रत्येक ब्लॉक में दो कनवल्शन लेयर (3×3 कर्नल, ReLU सक्रियण, He सामान्य आरंभीकरण) शामिल हैं, जिसके बाद 2×2 अधिकतम पूलिंग और 0.3 ड्रॉपआउट है
बॉटलनेक लेयर: 1024 फ़िल्टर के साथ दो कनवल्शन लेयर, उच्च-स्तरीय विशेषता प्रतिनिधित्व को कैप्चर करते हैं
डिकोडर: चार अपसैंपलिंग ब्लॉक, ट्रांसपोज़्ड कनवल्शन का उपयोग करके अपसैंपलिंग, स्थानिक विवरण बनाए रखने के लिए स्किप कनेक्शन के साथ संयुक्त
आउटपुट लेयर: 1×1 कनवल्शन + Sigmoid सक्रियण, द्विआधारी विभाजन मानचित्र उत्पन्न करता है

फोकल हानि कार्य

फोकल हानि प्रत्येक पिक्सल हानि के योगदान को गतिशील रूप से समायोजित करके वर्ग असंतुलन को संबोधित करता है:

$FL(p_t) = -\alpha(1-p_t)^\gamma \log(p_t)$

जहाँ:

$p_t$ : वास्तविक वर्ग के लिए मॉडल की भविष्यवाणी की संभावना
$\alpha$ : वर्ग संतुलन भार कारक
$\gamma$ : फोकसिंग पैरामीटर, कठिन नमूनों पर ध्यान नियंत्रित करता है
$(1-p_t)$ : मॉड्यूलेशन कारक, गलत वर्गीकृत नमूनों को उच्च वजन देता है

तकनीकी नवाचार बिंदु

पैरामीटरीकृत अनुसंधान: फोकल हानि पैरामीटर के दो सेटों की व्यवस्थित तुलना:
- α=0.25, γ=2.0: कठिन नमूनों और ट्यूमर सीमाओं पर जोर देता है
- α=2.0, γ=0.75: अल्पसंख्यक वर्ग पर अधिक ध्यान केंद्रित करता है लेकिन कठिन नमूनों पर फोकसिंग को कम करता है
संवर्धन रणनीति तुलना: तीन बुनियादी संवर्धन तकनीकों के प्रभाव का स्वतंत्र मूल्यांकन, व्यावहारिक अनुप्रयोग के लिए मार्गदर्शन प्रदान करता है

प्रयोगात्मक सेटअप

डेटासेट

स्रोत: दक्षिणी अस्पताल और तियांजिन चिकित्सा विश्वविद्यालय (2005-2010), Jun Cheng द्वारा संग्रहीत
आकार: 233 रोगियों से 3064 T1-भारित विपरीत-वर्धित MRI छवियाँ
ट्यूमर प्रकार:
- मेनिनजिओमा: 708 मामले
- ग्लियोमा: 1426 मामले
- पिट्यूटरी ट्यूमर: 930 मामले
एनोटेशन: तीन अनुभवी रेडियोलॉजिस्ट द्वारा ट्यूमर सीमाओं को मैन्युअल रूप से चिह्नित किया गया
डेटा विभाजन: प्रशिक्षण सेट 1838 नमूने, सत्यापन सेट 613 नमूने, परीक्षण सेट 613 नमूने

मूल्यांकन मेट्रिक्स

Dice गुणांक: विभाजन ओवरलैप को मापता है
IoU (इंटरसेक्शन ओवर यूनियन): भविष्यवाणी और वास्तविक क्षेत्र के ओवरलैप का मूल्यांकन करता है
सटीकता (Precision): ट्यूमर के रूप में भविष्यवाणी किए गए पिक्सल में वास्तव में ट्यूमर का अनुपात
रिकॉल (Recall): सही ढंग से पहचाने गए वास्तविक ट्यूमर पिक्सल का अनुपात
सही वर्गीकरण दर (Accuracy): समग्र पिक्सल वर्गीकरण सटीकता

तुलनात्मक विधियाँ

Arafat et al. (2023): गहन शिक्षा-आधारित मस्तिष्क ट्यूमर विभाजन विधि
Gupta et al. (2021): MRI मस्तिष्क ट्यूमर विभाजन के लिए गहन शिक्षा का उपयोग

कार्यान्वयन विवरण

अनुकूलक: Adam, सीखने की दर 1×10⁻⁴
बैच आकार: 8
प्रशिक्षण एपोक्स: 200 epochs
हार्डवेयर: Google Colab TPUv2-8
फ्रेमवर्क: TensorFlow

प्रयोगात्मक परिणाम

मुख्य परिणाम

फोकल हानि पैरामीटर ट्यूनिंग परिणाम

पैरामीटर सेटिंग	सही वर्गीकरण दर	हानि	सटीकता	रिकॉल	IoU	Dice गुणांक
α=0.25, γ=2.0	0.9941	0.0082	0.9014	0.7681	0.7082	0.7867
α=2.0, γ=0.75	0.9939	0.0154	0.8778	0.7789	0.7004	0.7839

मुख्य निष्कर्ष: α=0.25, γ=2.0 पैरामीटर संयोजन अधिकांश मेट्रिक्स पर बेहतर प्रदर्शन करता है, विशेष रूप से सटीकता और हानि मान में।

डेटा संवर्धन प्रभाव मूल्यांकन

संवर्धन तकनीक	सही वर्गीकरण दर	हानि	सटीकता	रिकॉल	IoU	Dice गुणांक
कोई संवर्धन नहीं	0.9941	0.0082	0.9014	0.7681	0.7082	0.7867
क्षैतिज फ्लिप	0.9942	0.0053	0.9001	0.7779	0.7152	0.8041
घुमाव (±15°)	0.9940	0.0029	0.8774	0.7892	0.7090	0.7955
यादृच्छिक स्केलिंग	0.9934	0.0064	0.9097	0.7106	0.6643	0.7486

विलोपन प्रयोग

क्षैतिज फ्लिप: सभी मेट्रिक्स में सुधार, Dice गुणांक में सबसे अधिक वृद्धि (+0.0174)
घुमाव: रिकॉल और Dice गुणांक में वृद्धि, अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है
स्केलिंग: सबसे खराब प्रभाव, कुछ मेट्रिक्स पर बेसलाइन मॉडल से भी कम

प्रशिक्षण वक्र विश्लेषण

क्षैतिज फ्लिप और घुमाव: अधिक स्थिर सत्यापन वक्र उत्पन्न करते हैं, प्रशिक्षण-सत्यापन प्रदर्शन अंतर छोटा है
स्केलिंग: सत्यापन हानि में अधिक उतार-चढ़ाव, कमजोर सामान्यीकरण क्षमता
कोई संवर्धन नहीं: चिकना वक्र लेकिन हल्के ओवरफिटिंग के साथ

अत्याधुनिक विधियों के साथ तुलना

मॉडल	सटीकता	रिकॉल	IoU	Dice गुणांक
यह अनुसंधान	0.9001	0.7779	0.7152	0.8041
Arafat et al.	0.82	0.74	0.68	0.94
Gupta et al.	0.89	0.91	-	0.90

नोट: हालांकि यह अनुसंधान सटीकता में उत्कृष्ट प्रदर्शन करता है, लेकिन Dice गुणांक में कुछ तुलनात्मक विधियों से थोड़ा कम है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

फोकल हानि पैरामीटर चयन महत्वपूर्ण है: α=0.25, γ=2.0 संयोजन वर्ग असंतुलन को संभालने में अधिक प्रभावी है
सरल संवर्धन रणनीतियाँ प्रभावी हैं: क्षैतिज फ्लिप सबसे प्रभावी संवर्धन तकनीक है, घुमाव दूसरा है
स्केलिंग संवर्धन प्रभाव सीमित है: इस डेटासेट पर, आकार परिवर्तन प्रदर्शन सुधार में कम योगदान देता है
पुनरुत्पादनीयता का महत्व: एक पारदर्शी प्रयोगात्मक बेंचमार्क स्थापित किया गया है

सीमाएं

एकल डेटासेट: केवल एक डेटासेट पर सत्यापित, सामान्यीकरण क्षमता की पुष्टि की आवश्यकता है
बुनियादी संवर्धन रणनीतियाँ: लोचदार विरूपण जैसी अधिक उन्नत संवर्धन तकनीकों की खोज नहीं की गई है
निश्चित आर्किटेक्चर: केवल मानक U-Net का उपयोग, अन्य उन्नत आर्किटेक्चर की तुलना नहीं की गई है
मूल्यांकन मेट्रिक्स: मुख्य रूप से पिक्सल-स्तरीय मेट्रिक्स पर ध्यान केंद्रित, नैदानिक प्रासंगिकता मूल्यांकन की कमी है

भविष्य की दिशाएं

उन्नत संवर्धन रणनीतियाँ: लोचदार विरूपण, मोडल-विशिष्ट रूपांतरण
जनरेटिव डेटा संवर्धन: प्रशिक्षण डेटा संश्लेषित करने के लिए GANs का उपयोग
बहु-कार्य शिक्षा: विभाजन और ट्यूमर प्रकार वर्गीकरण को संयोजित करना
क्रॉस-डेटासेट सत्यापन: कई डेटासेट पर विधि की सामान्यीकरण क्षमता का सत्यापन

गहन मूल्यांकन

शक्तियाँ

उच्च अनुसंधान पारदर्शिता: पूर्ण कोड और प्रयोगात्मक कॉन्फ़िगरेशन प्रदान करता है, पुनरुत्पादनीयता सुनिश्चित करता है
मजबूत व्यवस्थितता: चरणबद्ध प्रयोगात्मक डिजाइन, पहले हानि कार्य पैरामीटर अनुकूलित करता है, फिर संवर्धन रणनीतियों का मूल्यांकन करता है
व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोग के लिए स्पष्ट पैरामीटर चयन और संवर्धन रणनीति मार्गदर्शन प्रदान करता है
बेंचमार्क स्थापना: इस क्षेत्र के लिए मानकीकृत मूल्यांकन बेंचमार्क प्रदान करता है

कमियाँ

सीमित नवाचार: मुख्य रूप से मौजूदा विधियों का संयोजन और मूल्यांकन, तकनीकी नवाचार की कमी है
अपर्याप्त प्रयोगात्मक गहराई: विभिन्न संवर्धन रणनीतियों के कार्य तंत्र का गहन विश्लेषण नहीं किया गया है
डेटासेट सीमाएं: एकल डेटासेट निष्कर्षों की सीमितता का कारण बन सकता है
अपर्याप्त तुलना: अत्याधुनिक विधियों के साथ तुलना कम है, और सांख्यिकीय महत्व परीक्षण की कमी है

प्रभाव

शैक्षणिक योगदान: मस्तिष्क ट्यूमर विभाजन अनुसंधान के लिए विश्वसनीय बेंचमार्क और संदर्भ बिंदु प्रदान करता है
व्यावहारिक मूल्य: नैदानिक अनुप्रयोग के लिए व्यावहारिक तकनीकी समाधान प्रदान करता है
पुनरुत्पादनीयता: इस क्षेत्र के अनुसंधान की पारदर्शिता और पुनरुत्पादनीयता को बढ़ावा देता है
शैक्षिक मूल्य: चिकित्सा छवि प्रसंस्करण पाठ्यक्रमों के लिए शुरुआती लोगों को पूर्ण कार्यान्वयन संदर्भ प्रदान करता है

लागू परिदृश्य

नैदानिक निदान सहायता: रेडियोलॉजिस्ट के लिए सहायक उपकरण के रूप में कार्य कर सकता है
अनुसंधान बेंचमार्क: नई विधियों के लिए तुलनात्मक बेंचमार्क प्रदान करता है
शिक्षण अनुप्रयोग: चिकित्सा छवि प्रसंस्करण पाठ्यक्रमों का व्यावहारिक मामला
उत्पाद विकास: चिकित्सा AI उत्पादों का तकनीकी आधार

संदर्भ

Ronneberger et al. (2015) - U-Net मूल पेपर
Lin et al. (2017) - फोकल हानि प्रस्ताव पेपर
Cheng et al. (2015) - डेटासेट स्रोत पेपर
Nalepa et al. (2019) - मस्तिष्क ट्यूमर विभाजन डेटा संवर्धन सर्वेक्षण

समग्र मूल्यांकन: यह एक ठोस अनुभवजन्य अनुसंधान पेपर है जो हालांकि तकनीकी नवाचार में सीमित है, लेकिन पुनरुत्पादनीय बेंचमार्क स्थापित करने और व्यवस्थित मूल्यांकन में महत्वपूर्ण मूल्य रखता है। पेपर की पारदर्शिता और पूर्णता सराहनीय है, जो इस क्षेत्र के आगे के विकास के लिए एक अच्छा आधार तैयार करती है।