Brain tumor segmentation is crucial for diagnosis and treatment planning, yet challenges such as class imbalance and limited model generalization continue to hinder progress. This work presents a reproducible evaluation of U-Net segmentation performance on brain tumor MRI using focal loss and basic data augmentation strategies. Experiments were conducted on a publicly available MRI dataset, focusing on focal loss parameter tuning and assessing the impact of three data augmentation techniques: horizontal flip, rotation, and scaling. The U-Net with focal loss achieved a precision of 90%, comparable to state-of-the-art results. By making all code and results publicly available, this study establishes a transparent, reproducible baseline to guide future research on augmentation strategies and loss function design in brain tumor segmentation.
- पेपर ID: 2510.08617
- शीर्षक: Reproducible Evaluation of Data Augmentation and Loss Functions for Brain Tumor Segmentation
- लेखक: Saumya B (भारतीय विज्ञान संस्थान)
- वर्गीकरण: cs.CV cs.LG
- प्रकाशन तिथि: 8 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.08617
मस्तिष्क ट्यूमर विभाजन निदान और उपचार योजना के लिए महत्वपूर्ण है, लेकिन वर्ग असंतुलन और सीमित मॉडल सामान्यीकरण जैसी चुनौतियाँ प्रगति में बाधा डालती हैं। यह अनुसंधान मस्तिष्क ट्यूमर MRI विभाजन पर फोकल हानि और बुनियादी डेटा संवर्धन रणनीतियों का उपयोग करके U-Net के प्रदर्शन का पुनरुत्पादनीय मूल्यांकन प्रस्तुत करता है। प्रयोग सार्वजनिक MRI डेटासेट पर किए गए, फोकल हानि पैरामीटर ट्यूनिंग पर ध्यान केंद्रित करते हुए और तीन डेटा संवर्धन तकनीकों के प्रभाव का मूल्यांकन किया: क्षैतिज फ्लिप, घुमाव और स्केलिंग। फोकल हानि का उपयोग करने वाले U-Net ने 90% सटीकता प्राप्त की, जो अत्याधुनिक परिणामों के अनुरूप है। सभी कोड और परिणामों को सार्वजनिक करके, यह अनुसंधान एक पारदर्शी, पुनरुत्पादनीय बेंचमार्क स्थापित करता है जो मस्तिष्क ट्यूमर विभाजन में संवर्धन रणनीतियों और हानि कार्य डिजाइन के भविष्य के अनुसंधान के लिए मार्गदर्शन प्रदान करता है।
मस्तिष्क ट्यूमर सबसे चुनौतीपूर्ण चिकित्सा रोगों में से एक है, जिसके लिए प्रभावी उपचार योजना के लिए ट्यूमर सीमाओं की सटीक पहचान की आवश्यकता होती है। चुंबकीय अनुनाद इमेजिंग (MRI) मस्तिष्क ट्यूमर का पता लगाने के लिए व्यापक रूप से उपयोग की जाने वाली इमेजिंग विधि है, लेकिन रेडियोलॉजिस्ट द्वारा ट्यूमर क्षेत्र को मैन्युअल रूप से चिह्नित करने में निम्नलिखित समस्याएं हैं:
- समय लेने वाली और त्रुटि-प्रवण
- अवलोकनकर्ताओं के बीच उच्च परिवर्तनशीलता
- नैदानिक वातावरण में स्केलिंग में कठिनाई
- वर्ग असंतुलन: ट्यूमर पिक्सल पृष्ठभूमि पिक्सल के सापेक्ष दुर्लभ हैं, जिससे पारंपरिक हानि कार्य खराब प्रदर्शन करते हैं
- डेटा की कमी: चिकित्सा छवि एनोटेशन की उच्च लागत, सीमित प्रशिक्षण डेटा उपलब्ध
- सामान्यीकरण क्षमता: विभिन्न स्कैनर और रोगी समूहों के बीच मॉडल की सामान्यीकरण क्षमता सीमित है
यह अनुसंधान फोकल हानि पैरामीटर और डेटा संवर्धन रणनीतियों का व्यवस्थित मूल्यांकन करके मस्तिष्क ट्यूमर विभाजन के लिए एक पुनरुत्पादनीय बेंचमार्क स्थापित करने का लक्ष्य रखता है, जो पारदर्शिता और पुनरुत्पादनीयता के संदर्भ में मौजूदा अनुसंधान में अंतराल को भरता है।
- पुनरुत्पादनीय बेंचमार्क स्थापित करना: मस्तिष्क ट्यूमर MRI विभाजन पर फोकल हानि का उपयोग करके U-Net का बेंचमार्क कार्यान्वयन प्रदान किया
- व्यवस्थित पैरामीटर विश्लेषण: फोकल हानि पैरामीटर (α और γ) के मॉडल प्रदर्शन पर प्रभाव का गहन विश्लेषण
- डेटा संवर्धन रणनीति मूल्यांकन: तीन विभिन्न डेटा संवर्धन तकनीकों के मॉडल प्रदर्शन पर प्रभाव का मूल्यांकन
- ओपन सोर्स योगदान: सभी कोड और प्रयोगात्मक कॉन्फ़िगरेशन सार्वजनिक करना, अनुसंधान की पारदर्शिता और पुनरुत्पादनीयता सुनिश्चित करना
इनपुट: 256×256 पिक्सल के T1-भारित विपरीत-वर्धित MRI छवि
आउटपुट: द्विआधारी विभाजन मुखौटा, ट्यूमर क्षेत्र की पहचान करता है
उद्देश्य: मस्तिष्क ट्यूमर सीमाओं को सटीक रूप से विभाजित करना, वर्ग असंतुलन समस्या को संभालना
- एनकोडर: चार डाउनसैंपलिंग ब्लॉक, प्रत्येक ब्लॉक में दो कनवल्शन लेयर (3×3 कर्नल, ReLU सक्रियण, He सामान्य आरंभीकरण) शामिल हैं, जिसके बाद 2×2 अधिकतम पूलिंग और 0.3 ड्रॉपआउट है
- बॉटलनेक लेयर: 1024 फ़िल्टर के साथ दो कनवल्शन लेयर, उच्च-स्तरीय विशेषता प्रतिनिधित्व को कैप्चर करते हैं
- डिकोडर: चार अपसैंपलिंग ब्लॉक, ट्रांसपोज़्ड कनवल्शन का उपयोग करके अपसैंपलिंग, स्थानिक विवरण बनाए रखने के लिए स्किप कनेक्शन के साथ संयुक्त
- आउटपुट लेयर: 1×1 कनवल्शन + Sigmoid सक्रियण, द्विआधारी विभाजन मानचित्र उत्पन्न करता है
फोकल हानि प्रत्येक पिक्सल हानि के योगदान को गतिशील रूप से समायोजित करके वर्ग असंतुलन को संबोधित करता है:
FL(pt)=−α(1−pt)γlog(pt)
जहाँ:
- pt: वास्तविक वर्ग के लिए मॉडल की भविष्यवाणी की संभावना
- α: वर्ग संतुलन भार कारक
- γ: फोकसिंग पैरामीटर, कठिन नमूनों पर ध्यान नियंत्रित करता है
- (1−pt): मॉड्यूलेशन कारक, गलत वर्गीकृत नमूनों को उच्च वजन देता है
- पैरामीटरीकृत अनुसंधान: फोकल हानि पैरामीटर के दो सेटों की व्यवस्थित तुलना:
- α=0.25, γ=2.0: कठिन नमूनों और ट्यूमर सीमाओं पर जोर देता है
- α=2.0, γ=0.75: अल्पसंख्यक वर्ग पर अधिक ध्यान केंद्रित करता है लेकिन कठिन नमूनों पर फोकसिंग को कम करता है
- संवर्धन रणनीति तुलना: तीन बुनियादी संवर्धन तकनीकों के प्रभाव का स्वतंत्र मूल्यांकन, व्यावहारिक अनुप्रयोग के लिए मार्गदर्शन प्रदान करता है
- स्रोत: दक्षिणी अस्पताल और तियांजिन चिकित्सा विश्वविद्यालय (2005-2010), Jun Cheng द्वारा संग्रहीत
- आकार: 233 रोगियों से 3064 T1-भारित विपरीत-वर्धित MRI छवियाँ
- ट्यूमर प्रकार:
- मेनिनजिओमा: 708 मामले
- ग्लियोमा: 1426 मामले
- पिट्यूटरी ट्यूमर: 930 मामले
- एनोटेशन: तीन अनुभवी रेडियोलॉजिस्ट द्वारा ट्यूमर सीमाओं को मैन्युअल रूप से चिह्नित किया गया
- डेटा विभाजन: प्रशिक्षण सेट 1838 नमूने, सत्यापन सेट 613 नमूने, परीक्षण सेट 613 नमूने
- Dice गुणांक: विभाजन ओवरलैप को मापता है
- IoU (इंटरसेक्शन ओवर यूनियन): भविष्यवाणी और वास्तविक क्षेत्र के ओवरलैप का मूल्यांकन करता है
- सटीकता (Precision): ट्यूमर के रूप में भविष्यवाणी किए गए पिक्सल में वास्तव में ट्यूमर का अनुपात
- रिकॉल (Recall): सही ढंग से पहचाने गए वास्तविक ट्यूमर पिक्सल का अनुपात
- सही वर्गीकरण दर (Accuracy): समग्र पिक्सल वर्गीकरण सटीकता
- Arafat et al. (2023): गहन शिक्षा-आधारित मस्तिष्क ट्यूमर विभाजन विधि
- Gupta et al. (2021): MRI मस्तिष्क ट्यूमर विभाजन के लिए गहन शिक्षा का उपयोग
- अनुकूलक: Adam, सीखने की दर 1×10⁻⁴
- बैच आकार: 8
- प्रशिक्षण एपोक्स: 200 epochs
- हार्डवेयर: Google Colab TPUv2-8
- फ्रेमवर्क: TensorFlow
| पैरामीटर सेटिंग | सही वर्गीकरण दर | हानि | सटीकता | रिकॉल | IoU | Dice गुणांक |
|---|
| α=0.25, γ=2.0 | 0.9941 | 0.0082 | 0.9014 | 0.7681 | 0.7082 | 0.7867 |
| α=2.0, γ=0.75 | 0.9939 | 0.0154 | 0.8778 | 0.7789 | 0.7004 | 0.7839 |
मुख्य निष्कर्ष: α=0.25, γ=2.0 पैरामीटर संयोजन अधिकांश मेट्रिक्स पर बेहतर प्रदर्शन करता है, विशेष रूप से सटीकता और हानि मान में।
| संवर्धन तकनीक | सही वर्गीकरण दर | हानि | सटीकता | रिकॉल | IoU | Dice गुणांक |
|---|
| कोई संवर्धन नहीं | 0.9941 | 0.0082 | 0.9014 | 0.7681 | 0.7082 | 0.7867 |
| क्षैतिज फ्लिप | 0.9942 | 0.0053 | 0.9001 | 0.7779 | 0.7152 | 0.8041 |
| घुमाव (±15°) | 0.9940 | 0.0029 | 0.8774 | 0.7892 | 0.7090 | 0.7955 |
| यादृच्छिक स्केलिंग | 0.9934 | 0.0064 | 0.9097 | 0.7106 | 0.6643 | 0.7486 |
- क्षैतिज फ्लिप: सभी मेट्रिक्स में सुधार, Dice गुणांक में सबसे अधिक वृद्धि (+0.0174)
- घुमाव: रिकॉल और Dice गुणांक में वृद्धि, अच्छी सामान्यीकरण क्षमता प्रदर्शित करता है
- स्केलिंग: सबसे खराब प्रभाव, कुछ मेट्रिक्स पर बेसलाइन मॉडल से भी कम
- क्षैतिज फ्लिप और घुमाव: अधिक स्थिर सत्यापन वक्र उत्पन्न करते हैं, प्रशिक्षण-सत्यापन प्रदर्शन अंतर छोटा है
- स्केलिंग: सत्यापन हानि में अधिक उतार-चढ़ाव, कमजोर सामान्यीकरण क्षमता
- कोई संवर्धन नहीं: चिकना वक्र लेकिन हल्के ओवरफिटिंग के साथ
| मॉडल | सटीकता | रिकॉल | IoU | Dice गुणांक |
|---|
| यह अनुसंधान | 0.9001 | 0.7779 | 0.7152 | 0.8041 |
| Arafat et al. | 0.82 | 0.74 | 0.68 | 0.94 |
| Gupta et al. | 0.89 | 0.91 | - | 0.90 |
नोट: हालांकि यह अनुसंधान सटीकता में उत्कृष्ट प्रदर्शन करता है, लेकिन Dice गुणांक में कुछ तुलनात्मक विधियों से थोड़ा कम है।
- थ्रेसहोल्डिंग विभाजन: ग्रेस्केल हिस्टोग्राम पर आधारित Otsu विधि
- सीमा पहचान: सक्रिय समोच्च मॉडल
- क्षेत्र वृद्धि: बीज बिंदु-आधारित क्षेत्र विस्तार
- सीमाएं: शोर के प्रति संवेदनशील, कमजोर सामान्यीकरण क्षमता
- CNN आर्किटेक्चर: स्वचालित रूप से पदानुक्रमित विशेषताएं सीखते हैं, पारंपरिक हस्तनिर्मित विशेषता विधियों को पार करते हैं
- U-Net: एनकोडर-डिकोडर संरचना स्किप कनेक्शन के साथ, जैव चिकित्सा विभाजन के लिए सोने का मानक बन गया है
- हानि कार्य विकास: द्विआधारी क्रॉस-एंट्रॉपी से Dice हानि तक, फिर फोकल हानि तक
- ज्यामितीय रूपांतरण: फ्लिप, घुमाव, स्केलिंग
- लोचदार विरूपण: ऊतक विरूपण का अनुकरण करता है
- तीव्रता व्यवधान: विभिन्न स्कैनिंग स्थितियों का अनुकरण करता है
- फोकल हानि पैरामीटर चयन महत्वपूर्ण है: α=0.25, γ=2.0 संयोजन वर्ग असंतुलन को संभालने में अधिक प्रभावी है
- सरल संवर्धन रणनीतियाँ प्रभावी हैं: क्षैतिज फ्लिप सबसे प्रभावी संवर्धन तकनीक है, घुमाव दूसरा है
- स्केलिंग संवर्धन प्रभाव सीमित है: इस डेटासेट पर, आकार परिवर्तन प्रदर्शन सुधार में कम योगदान देता है
- पुनरुत्पादनीयता का महत्व: एक पारदर्शी प्रयोगात्मक बेंचमार्क स्थापित किया गया है
- एकल डेटासेट: केवल एक डेटासेट पर सत्यापित, सामान्यीकरण क्षमता की पुष्टि की आवश्यकता है
- बुनियादी संवर्धन रणनीतियाँ: लोचदार विरूपण जैसी अधिक उन्नत संवर्धन तकनीकों की खोज नहीं की गई है
- निश्चित आर्किटेक्चर: केवल मानक U-Net का उपयोग, अन्य उन्नत आर्किटेक्चर की तुलना नहीं की गई है
- मूल्यांकन मेट्रिक्स: मुख्य रूप से पिक्सल-स्तरीय मेट्रिक्स पर ध्यान केंद्रित, नैदानिक प्रासंगिकता मूल्यांकन की कमी है
- उन्नत संवर्धन रणनीतियाँ: लोचदार विरूपण, मोडल-विशिष्ट रूपांतरण
- जनरेटिव डेटा संवर्धन: प्रशिक्षण डेटा संश्लेषित करने के लिए GANs का उपयोग
- बहु-कार्य शिक्षा: विभाजन और ट्यूमर प्रकार वर्गीकरण को संयोजित करना
- क्रॉस-डेटासेट सत्यापन: कई डेटासेट पर विधि की सामान्यीकरण क्षमता का सत्यापन
- उच्च अनुसंधान पारदर्शिता: पूर्ण कोड और प्रयोगात्मक कॉन्फ़िगरेशन प्रदान करता है, पुनरुत्पादनीयता सुनिश्चित करता है
- मजबूत व्यवस्थितता: चरणबद्ध प्रयोगात्मक डिजाइन, पहले हानि कार्य पैरामीटर अनुकूलित करता है, फिर संवर्धन रणनीतियों का मूल्यांकन करता है
- व्यावहारिक मूल्य: व्यावहारिक अनुप्रयोग के लिए स्पष्ट पैरामीटर चयन और संवर्धन रणनीति मार्गदर्शन प्रदान करता है
- बेंचमार्क स्थापना: इस क्षेत्र के लिए मानकीकृत मूल्यांकन बेंचमार्क प्रदान करता है
- सीमित नवाचार: मुख्य रूप से मौजूदा विधियों का संयोजन और मूल्यांकन, तकनीकी नवाचार की कमी है
- अपर्याप्त प्रयोगात्मक गहराई: विभिन्न संवर्धन रणनीतियों के कार्य तंत्र का गहन विश्लेषण नहीं किया गया है
- डेटासेट सीमाएं: एकल डेटासेट निष्कर्षों की सीमितता का कारण बन सकता है
- अपर्याप्त तुलना: अत्याधुनिक विधियों के साथ तुलना कम है, और सांख्यिकीय महत्व परीक्षण की कमी है
- शैक्षणिक योगदान: मस्तिष्क ट्यूमर विभाजन अनुसंधान के लिए विश्वसनीय बेंचमार्क और संदर्भ बिंदु प्रदान करता है
- व्यावहारिक मूल्य: नैदानिक अनुप्रयोग के लिए व्यावहारिक तकनीकी समाधान प्रदान करता है
- पुनरुत्पादनीयता: इस क्षेत्र के अनुसंधान की पारदर्शिता और पुनरुत्पादनीयता को बढ़ावा देता है
- शैक्षिक मूल्य: चिकित्सा छवि प्रसंस्करण पाठ्यक्रमों के लिए शुरुआती लोगों को पूर्ण कार्यान्वयन संदर्भ प्रदान करता है
- नैदानिक निदान सहायता: रेडियोलॉजिस्ट के लिए सहायक उपकरण के रूप में कार्य कर सकता है
- अनुसंधान बेंचमार्क: नई विधियों के लिए तुलनात्मक बेंचमार्क प्रदान करता है
- शिक्षण अनुप्रयोग: चिकित्सा छवि प्रसंस्करण पाठ्यक्रमों का व्यावहारिक मामला
- उत्पाद विकास: चिकित्सा AI उत्पादों का तकनीकी आधार
- Ronneberger et al. (2015) - U-Net मूल पेपर
- Lin et al. (2017) - फोकल हानि प्रस्ताव पेपर
- Cheng et al. (2015) - डेटासेट स्रोत पेपर
- Nalepa et al. (2019) - मस्तिष्क ट्यूमर विभाजन डेटा संवर्धन सर्वेक्षण
समग्र मूल्यांकन: यह एक ठोस अनुभवजन्य अनुसंधान पेपर है जो हालांकि तकनीकी नवाचार में सीमित है, लेकिन पुनरुत्पादनीय बेंचमार्क स्थापित करने और व्यवस्थित मूल्यांकन में महत्वपूर्ण मूल्य रखता है। पेपर की पारदर्शिता और पूर्णता सराहनीय है, जो इस क्षेत्र के आगे के विकास के लिए एक अच्छा आधार तैयार करती है।