The output of image the segmentation process is usually not very clear due to low quality features of Satellite images. The purpose of this study is to find a suitable Conditional Random Field (CRF) to achieve better clarity in a segmented image. We started with different types of CRFs and studied them as to why they are or are not suitable for our purpose. We evaluated our approach on two different datasets - Satellite imagery having low quality features and high quality Aerial photographs. During the study we experimented with various CRFs to find which CRF gives the best results on images and compared our results on these datasets to show the pitfalls and potentials of different approaches.
- पेपर ID: 2510.09833
- शीर्षक: सशर्त यादृच्छिक क्षेत्रों का उपयोग करके छवि विभाजन का पश्च-प्रसंस्करण
- लेखक: आशीष धवन (JMIETI, राढौर), पंकज बोदानी (ISRO, अंतरिक्ष अनुप्रयोग केंद्र), विशाल गर्ग (JMIETI, राढौर)
- वर्गीकरण: cs.CV
- प्रकाशन समय/सम्मेलन: INDIACom 2019 (IEEE सम्मेलन ID 46181)
- पेपर लिंक: https://arxiv.org/abs/2510.09833
उपग्रह छवि विभाजन का आउटपुट आमतौर पर उपग्रह छवियों की निम्न गुणवत्ता विशेषताओं के कारण पर्याप्त स्पष्ट नहीं होता है। इस अनुसंधान का उद्देश्य विभाजित छवियों की स्पष्टता में सुधार के लिए उपयुक्त सशर्त यादृच्छिक क्षेत्र (CRF) खोजना है। अनुसंधान विभिन्न प्रकार के CRF से शुरू होता है, यह विश्लेषण करते हुए कि वे कहाँ लागू होते हैं या नहीं। दो अलग-अलग डेटासेट पर विधि का मूल्यांकन किया गया: निम्न गुणवत्ता विशेषताओं वाली उपग्रह छवियाँ और उच्च गुणवत्ता वाली वायु फोटोग्राफी। प्रयोगों में विभिन्न CRF का परीक्षण किया गया ताकि छवियों पर सर्वश्रेष्ठ प्रदर्शन करने वाले CRF का पता लगाया जा सके, और इन डेटासेट पर परिणामों की तुलना की गई, जिससे विभिन्न विधियों की कमियों और संभावनाओं का प्रदर्शन हुआ।
- मूल समस्या: छवि विभाजन प्रक्रिया का आउटपुट आमतौर पर पर्याप्त स्पष्ट नहीं होता है, विशेष रूप से निम्न-रिज़ॉल्यूशन उपग्रह छवियों के लिए, छवि गुणवत्ता विशेषताएं खराब होने के कारण विभाजन सटीकता बहुत कम होती है।
- समस्या की महत्ता: छवि विभाजन का चिकित्सा इमेजिंग, लक्ष्य पहचान और वस्तु पहचान जैसे क्षेत्रों में व्यापक अनुप्रयोग है। उपग्रह छवि विश्लेषण के लिए, स्पष्ट और सटीक विभाजन शहरी योजना, पर्यावरण निगरानी जैसे अनुप्रयोगों के लिए महत्वपूर्ण है।
- मौजूदा विधियों की सीमाएं:
- पारंपरिक विभाजन तकनीकें (K-means क्लस्टरिंग, क्षेत्र वृद्धि एल्गोरिदम, वाटरशेड रूपांतरण) की सटीकता बहुत कम है
- परिणाम उपयोग किए गए डेटा, एल्गोरिदम पैरामीटर मानों और कार्य निष्पादन की दक्षता के आधार पर भिन्न होते हैं
- तंत्रिका नेटवर्क प्रसंस्करण के बाद आउटपुट छवि की सतह दांतेदार हो जाती है
- अनुसंधान प्रेरणा: CRF एक अप्रत्यक्ष ग्राफ मॉडल के रूप में, "आसन्न" नमूनों के प्रभाव पर विचार कर सकता है, पैटर्न पहचान और अनुक्रम भविष्यवाणी के लिए उपयुक्त है, W-Net जैसे तंत्रिका नेटवर्क पाइपलाइन में पश्च-प्रसंस्करण तकनीक के रूप में उपयोग किया गया है।
- व्यवस्थित तुलना: विभिन्न प्रकार के CRF (रैखिक CRF, ग्रिड CRF, घने CRF) का व्यवस्थित विश्लेषण और तुलना, छवि विभाजन पश्च-प्रसंस्करण में उनकी प्रयोज्यता निर्धारित करना
- इष्टतम CRF चयन: Krähenbühl और Koltun संस्करण के पूर्ण-संयोजित CRF को छवि विभाजन पश्च-प्रसंस्करण के लिए सर्वोत्तम विकल्प के रूप में निर्धारित करना
- बहु-डेटासेट सत्यापन: दो अलग-अलग प्रकार के डेटासेट पर विधि की प्रभावशीलता का सत्यापन: निम्न गुणवत्ता उपग्रह छवियाँ और उच्च गुणवत्ता वाली वायु फोटोग्राफी
- पैरामीटर अनुकूलन विश्लेषण: प्रयोगों के माध्यम से नकारात्मक संभावना जैसे महत्वपूर्ण पैरामीटर के परिणाम गुणवत्ता पर प्रभाव का निर्धारण
इनपुट: विभाजित छवि (एनोटेट की गई छवि)
आउटपुट: CRF पश्च-प्रसंस्करण के बाद स्पष्ट विभाजित छवि
उद्देश्य: छवि विभाजन की स्पष्टता और सटीकता में सुधार, शोर और किनारे की दांतेदारता को कम करना
- संरचना: एक-आयामी श्रृंखला संरचना, प्रत्येक नोड पिछले और अगले नोड से जुड़ा होता है
- प्रयोज्यता: मुख्य रूप से NLP कार्यों के लिए (भाषण टैगिंग, उथली पार्सिंग)
- अप्रयोज्यता का कारण: छवि जानकारी द्वि-आयामी रूप से वितरित होती है, एक-आयामी संरचना छवि पिक्सेल नोड्स के बीच प्रभावी संबंध स्थापित नहीं कर सकती
- संरचना: द्वि-आयामी ग्रिड संरचना, प्रत्येक नोड आसन्न 4 नोड्स से जुड़ा होता है
- प्रयोज्यता: छवि विभाजन कार्यों के लिए उपयोग किया जा सकता है, पैटर्न पहचान में व्यापक रूप से उपयोग किया जाता है
- सीमाएं: नोड कनेक्शन पर्याप्त घने नहीं हैं, जटिल समस्याओं को हल नहीं कर सकते, छवि में जानकारी वितरण की जटिलता के लिए उपयुक्त नहीं
- संरचना: प्रत्येक नोड अन्य सभी n-1 नोड्स से जुड़ा होता है
- लाभ:
- छवि में संभावित दीर्घ-श्रेणी इंटरैक्शन की व्याख्या कर सकता है
- छवि डेटा के वितरण विशेषताओं के लिए उपयुक्त
- छवि विभाजन के लिए सर्वश्रेष्ठ CRF मॉडल है
- चुनौतियाँ: गणनात्मक जटिलता अत्यधिक है, बड़ी छवि प्रसंस्करण में कई दिन लग सकते हैं
कुशल अनुमान एल्गोरिदम: Krähenbühl और Koltun द्वारा प्रस्तावित कुशल पूर्ण-संयोजित CRF अनुमान एल्गोरिदम का उपयोग:
- गणना समय को 36 घंटे से 0.2 सेकंड तक कम करना
- आउटपुट गुणवत्ता मूलतः अपरिवर्तित रखना
- गणनात्मक लागत में भारी कमी
सशर्त संभावना मॉडलिंग:
जहाँ P(A|B) B के घटित होने की स्थिति में घटना A की संभावना को परिभाषित करता है।
- स्रोत: भारतीय अंतरिक्ष अनुप्रयोग केंद्र द्वारा प्रदान किया गया
- सामग्री: भारत के कई शहरों (जोधपुर, रामपुर आदि) की उच्च गुणवत्ता वाली उपग्रह छवियाँ
- सेंसर: भारतीय IRS-2 उपग्रह का LISS-3 सेंसर
- एनोटेशन: क्षेत्र वृद्धि एल्गोरिदम का उपयोग करके दो वर्गों में एनोटेट किया गया (द्विआधारी वर्गीकरण)
- सामग्री: मूल इनपुट छवि और एनोटेट की गई छवि
- स्रोत: अंतर्राष्ट्रीय फोटोग्रामेट्री और रिमोट सेंसिंग सोसायटी (ISPRS)
- सामग्री: पॉट्सडैम शहर की 38 छः हज़ार × छः हज़ार पिक्सेल छवि ब्लॉक
- चैनल: 4-चैनल (लाल, हरा, नीला, अवरक्त)
- वर्गीकरण: 6-वर्गीय एनोटेशन
- अव्यवस्थित/पृष्ठभूमि (लाल)
- कार (पीला)
- निम्न वनस्पति (सियान)
- इमारतें (नीला)
- पेड़ (हरा)
- अभेद्य सतह (सफेद)
- सामग्री: इनपुट छवि, एनोटेट की गई छवि और वास्तविक लेबल
- दृश्य गुणवत्ता मूल्यांकन (शहरी डेटासेट में वास्तविक लेबल की कमी के कारण)
- वास्तविक लेबल के साथ तुलना (पॉट्सडैम डेटासेट)
- मुख्य पैरामीटर: नकारात्मक संभावना (70% से 99% तक समायोजित)
- एल्गोरिदम: Krähenbühl और Koltun का कुशल पूर्ण-संयोजित CRF
- अनुकूलन रणनीति: नकारात्मक संभावना और संभावित कार्य पैरामीटर को समायोजित करके परिणामों में सुधार
- प्रारंभिक परिणाम (70% नकारात्मक संभावना):
- कुछ अनुमानित अपर्याप्त क्षेत्रों को सुधारा गया
- एक निश्चित सीमा तक धब्बेदार क्षेत्रों (अत्यधिक भविष्यवाणी) को सुधारा गया
- लेकिन कुछ क्षेत्रों को पूरी तरह से छोड़ दिया गया
- अनुकूलित परिणाम (95% नकारात्मक संभावना):
- अधिकांश प्रारंभिक विभाजन की भविष्यवाणी त्रुटियों को सुधारा गया
- परिणाम संतोषजनक हैं, अपेक्षित मानदंड तक पहुंचते हैं
- प्रारंभिक परिणाम: आउटपुट गंभीर रूप से विकृत, मॉडल ने कई क्षेत्रों को छोड़ दिया
- पैरामीटर अनुकूलन के बाद: नकारात्मक संभावना बढ़ने के साथ, आउटपुट गुणवत्ता में स्पष्ट सुधार
- सर्वश्रेष्ठ परिणाम: एनोटेट की गई छवि और वास्तविक लेबल का उपयोग करते समय, आउटपुट वास्तविक लेबल के बहुत करीब है
प्रयोगों से पता चलता है कि नकारात्मक संभावना पैरामीटर परिणाम गुणवत्ता पर महत्वपूर्ण प्रभाव डालता है:
- 80% → 90% → 95% → 99%: गुणवत्ता में क्रमिक सुधार
- उच्च नकारात्मक संभावना बेहतर परिणाम देती है
- यह पैटर्न सभी प्रयोगों में सत्यापित किया गया है
- पूर्ण-संयोजित CRF सर्वश्रेष्ठ है: रैखिक CRF और ग्रिड CRF की तुलना में, पूर्ण-संयोजित CRF छवि विभाजन पश्च-प्रसंस्करण के लिए सबसे उपयुक्त है
- पैरामीटर संवेदनशीलता: नकारात्मक संभावना पैरामीटर परिणाम गुणवत्ता पर निर्णायक प्रभाव डालता है
- डेटासेट अनुकूलन: विधि विभिन्न प्रकार के डेटासेट (द्विआधारी और बहु-वर्गीय) पर अच्छा प्रदर्शन करती है
- गणनात्मक दक्षता: कुशल एल्गोरिदम व्यावहारिक अनुप्रयोग को संभव बनाता है
- W-Net: पश्च-प्रसंस्करण तकनीक के रूप में CRF का उपयोग करने वाली अनुपर्यवेक्षित छवि विभाजन पाइपलाइन, एन्कोडिंग और डिकोडिंग के लिए दो कनवोल्यूशनल तंत्रिका नेटवर्क का उपयोग करती है
- SVM-CRF: Plath आदि द्वारा समर्थन वेक्टर मशीन द्वारा कार्यान्वित CRF का उपयोग करके छवि विशेषता विभाजन
- गहरा CRF: Alam आदि द्वारा हाइपरस्पेक्ट्रल छवि विभाजन के लिए गहरे CRF को कनवोल्यूशनल तंत्रिका नेटवर्क के साथ जोड़ना
- मार्कोव यादृच्छिक क्षेत्र: अन्य ग्राफ मॉडल जैसे MRF भी छवि विभाजन पश्च-प्रसंस्करण के लिए उपयोग किए जाते हैं
- विभिन्न प्रकार के CRF की प्रयोज्यता की व्यवस्थित तुलना
- गणनात्मक दक्षता के साथ पूर्ण-संयोजित CRF कार्यान्वयन का उपयोग
- कई डेटासेट पर विधि की सामान्यता का सत्यापन
- इष्टतम CRF निर्धारण: Krähenbühl और Koltun संस्करण का पूर्ण-संयोजित CRF छवि विभाजन पश्च-प्रसंस्करण के लिए सर्वश्रेष्ठ विकल्प है
- पैरामीटर महत्व: नकारात्मक संभावना पैरामीटर का समायोजन परिणाम गुणवत्ता के लिए महत्वपूर्ण है
- सामान्यता सत्यापन: विधि द्विआधारी और बहु-वर्गीय छवि विभाजन कार्यों के लिए उपयुक्त है
- दक्षता वृद्धि: कुशल एल्गोरिदम पूर्ण-संयोजित CRF को व्यावहारिक अनुप्रयोगों में व्यवहार्य बनाता है
- पैरामीटर ट्यूनिंग: विभिन्न डेटासेट के लिए पैरामीटर को मैन्युअल रूप से समायोजित करने की आवश्यकता है
- मात्रात्मक मूल्यांकन अपर्याप्त: शहरी डेटासेट में वास्तविक लेबल की कमी, मात्रात्मक सटीकता मूल्यांकन संभव नहीं है
- गणनात्मक संसाधन: अनुकूलन के बावजूद, अभी भी काफी गणनात्मक संसाधनों की आवश्यकता है
- प्रयोज्यता सीमा: मुख्य रूप से उपग्रह और वायु छवियों के लिए, अन्य प्रकार की छवियों की प्रयोज्यता पर्याप्त रूप से सत्यापित नहीं की गई है
पेपर एक संपूर्ण छवि विभाजन पाइपलाइन विकसित करने का सुझाव देता है:
- पूर्व-प्रसंस्करण
- अनुपर्यवेक्षित विभाजन तकनीकें
- CRF मॉडल पश्च-प्रसंस्करण
लक्ष्य अधिक सटीक और स्पष्ट विभाजित छवियाँ प्राप्त करना है।
- व्यवस्थित अनुसंधान: विभिन्न CRF प्रकारों का व्यापक प्रयोज्यता विश्लेषण
- उच्च व्यावहारिक मूल्य: उपग्रह छवि विभाजन में व्यावहारिक समस्याओं का समाधान
- बहु-डेटासेट सत्यापन: विभिन्न प्रकार के डेटासेट पर विधि की प्रभावशीलता का सत्यापन
- गणनात्मक दक्षता विचार: गणनात्मक जटिलता समस्या को हल करने के लिए कुशल एल्गोरिदम का उपयोग
- विस्तृत पैरामीटर विश्लेषण: प्रयोगों के माध्यम से मुख्य पैरामीटर के प्रभाव का निर्धारण
- सीमित नवाचार: मुख्य रूप से मौजूदा विधियों का अनुप्रयोग और तुलना, तकनीकी नवाचार अपर्याप्त है
- अपर्याप्त मूल्यांकन: मात्रात्मक संकेतकों और सांख्यिकीय महत्व परीक्षणों की कमी
- छोटा प्रयोग पैमाना: डेटासेट पैमाना अपेक्षाकृत छोटा है, सामान्यीकरण क्षमता सत्यापन की आवश्यकता है
- सैद्धांतिक विश्लेषण की कमी: पूर्ण-संयोजित CRF सर्वश्रेष्ठ क्यों है इसके लिए सैद्धांतिक व्याख्या की कमी
- तुलनात्मक विधि एकल: मुख्य रूप से पारंपरिक विधियों के साथ तुलना, आधुनिक गहन शिक्षण विधियों के साथ तुलना की कमी
- क्षेत्र योगदान: उपग्रह छवि विभाजन पश्च-प्रसंस्करण के लिए व्यावहारिक समाधान प्रदान करता है
- व्यावहारिक मूल्य: दूरसंवेदन छवि प्रसंस्करण क्षेत्र के लिए निश्चित संदर्भ मूल्य है
- पुनरुत्पादनीयता: विधि विवरण अपेक्षाकृत स्पष्ट है, लेकिन कोड और विस्तृत पैरामीटर सेटिंग की कमी है
- उपग्रह छवि विश्लेषण: शहरी योजना, भूमि उपयोग विश्लेषण
- दूरसंवेदन अनुप्रयोग: पर्यावरण निगरानी, कृषि विश्लेषण
- छवि विभाजन पश्च-प्रसंस्करण: विभाजन स्पष्टता में सुधार की आवश्यकता वाले किसी भी अनुप्रयोग
- सीमित संसाधन वातावरण: गहन शिक्षण विधियों की तुलना में, गणनात्मक संसाधन आवश्यकता कम है
पेपर 14 संबंधित संदर्भों का हवाला देता है, मुख्य रूप से:
- Krähenbühl & Koltun (2011): कुशल पूर्ण-संयोजित CRF अनुमान एल्गोरिदम
- W-Net संबंधित कार्य: अनुपर्यवेक्षित छवि विभाजन
- चिकित्सा छवि और कंप्यूटर दृष्टि में CRF के अनुप्रयोग
- छवि विभाजन की पारंपरिक विधियाँ और मूल्यांकन
समग्र मूल्यांकन: यह एक अनुप्रयोग-केंद्रित पेपर है जो छवि विभाजन पश्च-प्रसंस्करण में विभिन्न CRF के प्रदर्शन की व्यवस्थित तुलना करता है, व्यावहारिक अनुप्रयोगों के लिए मूल्यवान मार्गदर्शन प्रदान करता है। हालांकि तकनीकी नवाचार सीमित है, लेकिन अनुसंधान विधि मजबूत है, निष्कर्ष व्यावहारिक हैं, और दूरसंवेदन छवि प्रसंस्करण क्षेत्र में निश्चित योगदान है।