2025-11-12T19:28:10.441432

AquaCluster: Using Satellite Images And Self-supervised Machine Learning Networks To Detect Water Hidden Under Vegetation

Iakovidis, Kalantari, Payberah et al.
In recent years, the wide availability of high-resolution radar satellite images has enabled the remote monitoring of wetland surface areas. Machine learning models have achieved state-of-the-art results in segmenting wetlands from satellite images. However, these models require large amounts of manually annotated satellite images, which are slow and expensive to produce. The need for annotated training data makes it difficult to adapt these models to changes such as different climates or sensors. To address this issue, we employed self-supervised training methods to develop a model, AquaCluster, which segments radar satellite images into water and land areas without manual annotations. Our final model outperformed other radar-based water detection techniques that do not require annotated data in our test dataset, having achieved a 0.08 improvement in the Intersection over Union metric. Our results demonstrate that it is possible to train machine learning models to detect vegetated water from radar images without the use of annotated data, which can make the retraining of these models to account for changes much easier.
academic

AquaCluster: उपग्रह छवियों और स्व-निरीक्षित मशीन लर्निंग नेटवर्क का उपयोग करके वनस्पति के तहत छिपे हुए जल का पता लगाना

मूल जानकारी

  • पेपर ID: 2506.08214
  • शीर्षक: AquaCluster: उपग्रह छवियों और स्व-निरीक्षित मशीन लर्निंग नेटवर्क का उपयोग करके वनस्पति के तहत छिपे हुए जल का पता लगाना
  • लेखक: Ioannis Iakovidis, Zahra Kalantari, Amir H. Payberah, Fernando Jaramillo, Francisco J. Peña
  • वर्गीकरण: cs.CV (कंप्यूटर विजन)
  • प्रकाशन समय: 16 अक्टूबर 2025 (प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2506.08214v3

सारांश

हाल के वर्षों में, उच्च-रिज़ॉल्यूशन रडार उपग्रह छवियों की व्यापक उपलब्धता ने आर्द्रभूमि सतह क्षेत्र की दूरस्थ निगरानी को संभव बनाया है। मशीन लर्निंग मॉडल उपग्रह छवि आर्द्रभूमि विभाजन कार्य पर अत्याधुनिक परिणाम प्राप्त कर चुके हैं। हालांकि, इन मॉडलों को बड़ी मात्रा में मैन्युअल रूप से एनोटेट की गई उपग्रह छवियों की आवश्यकता होती है, जिनके निर्माण में उच्च लागत और समय व्यय होता है। एनोटेट किए गए प्रशिक्षण डेटा की आवश्यकता इन मॉडलों को विभिन्न जलवायु या सेंसर जैसे परिवर्तनों के अनुकूल बनाना कठिन बनाती है। इस समस्या को हल करने के लिए, यह अनुसंधान स्व-निरीक्षित प्रशिक्षण विधि का उपयोग करके AquaCluster मॉडल विकसित करता है, जो बिना मैन्युअल एनोटेशन के रडार उपग्रह छवियों को जल और स्थल क्षेत्रों में विभाजित कर सकता है। परीक्षण डेटासेट पर, यह मॉडल बिना एनोटेट किए गए डेटा के रडार जल निकाय पहचान तकनीक में सर्वश्रेष्ठ प्रदर्शन करता है, इंटरसेक्शन ओवर यूनियन (IoU) मेट्रिक पर 0.08 की वृद्धि प्राप्त करता है। अनुसंधान परिणाम दर्शाते हैं कि एनोटेट किए गए डेटा का उपयोग किए बिना मशीन लर्निंग मॉडल को रडार छवियों से वनस्पति-आच्छादित जल निकायों का पता लगाने के लिए प्रशिक्षित किया जा सकता है, जिससे परिवर्तनों के अनुकूल होने के लिए मॉडल को पुनः प्रशिक्षित करना आसान हो जाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या की पृष्ठभूमि

  1. आर्द्रभूमि निगरानी का महत्व: आर्द्रभूमि पृथ्वी की सतह का केवल एक छोटा सा हिस्सा है, लेकिन पर्यावरण संरक्षण और जलवायु प्रभाव सुरक्षा में महत्वपूर्ण भूमिका निभाती है, जिसमें जल शुद्धिकरण, बाढ़ जोखिम में कमी, बड़ी मात्रा में कार्बन भंडारण शामिल है। हालांकि, जलवायु परिवर्तन और मानव गतिविधियों के कारण, आर्द्रभूमि तेजी से गायब हो रही है।
  2. वनस्पति-आच्छादित जल निकाय पहचान की चुनौतियां: पारंपरिक ऑप्टिकल उपग्रह छवियां खुले जल निकायों का पता लगाने में अच्छी तरह काम करती हैं, लेकिन आंशिक या पूरी तरह वनस्पति से ढकी आर्द्रभूमि जल निकायों का पता लगाना कठिन है, क्योंकि ऑप्टिकल सेंसर वनस्पति को भेद नहीं सकते। रडार सेंसर वनस्पति को भेदकर नीचे के जल निकायों का पता लगा सकते हैं, लेकिन रडार छवियों में शोर (जैसे स्पेकल शोर) होता है, जिससे जल और स्थल को अलग करना कठिन हो जाता है।
  3. मौजूदा विधियों की सीमाएं:
    • CNN जैसे गहन शिक्षण मॉडल आर्द्रभूमि विभाजन कार्य पर उत्कृष्ट प्रदर्शन करते हैं, लेकिन बड़ी मात्रा में एनोटेट किए गए डेटा की आवश्यकता होती है
    • एनोटेट किए गए डेटा का निर्माण महंगा, समय लेने वाला है, विशेष रूप से दूरसंवेदन क्षेत्र में जहां विशेषज्ञ ज्ञान की आवश्यकता होती है
    • मॉडल विभिन्न जलवायु परिस्थितियों या सेंसर परिवर्तनों के अनुकूल होना कठिन है
    • वैश्विक या राष्ट्रीय स्तर के डेटासेट पर निर्भरता, कम अपडेट आवृत्ति, मौसमी जल निकाय निगरानी की आवश्यकता को पूरा नहीं कर सकते

अनुसंधान प्रेरणा

इस अनुसंधान की मूल प्रेरणा एक पूरी तरह से स्व-निरीक्षित मशीन लर्निंग ढांचा विकसित करना है जो केवल रडार उपग्रह छवियों का उपयोग करके आर्द्रभूमि जल-स्थल विभाजन को प्राप्त कर सके, एनोटेट किए गए डेटा पर निर्भरता को हल करे, और मॉडल की स्केलेबिलिटी और अनुकूलनशीलता में सुधार करे।

मुख्य योगदान

  1. AquaCluster ढांचा प्रस्तावित किया: एक पूरी तरह से स्व-निरीक्षित मशीन लर्निंग ढांचा जो केवल रडार उपग्रह छवियों का उपयोग करके आर्द्रभूमि शब्दार्थ विभाजन करता है, बिना एनोटेट किए गए डेटा के वनस्पति के तहत जल निकायों का पता लगाने की चुनौती को हल करता है।
  2. एकीकृत मॉडल संस्करण पेश किया: सटीकता और स्थिरता में सुधार के लिए, एकीकृत संस्करण मॉडल प्रस्तावित किया गया है, जो कई स्वतंत्र रूप से प्रशिक्षित नेटवर्क के पूर्वानुमान परिणामों को जोड़ता है।
  3. बिना एनोटेशन प्रशिक्षण की प्रभावशीलता को सत्यापित किया: एकीकृत AquaCluster मॉडल समान डेटासेट पर आधारभूत सांख्यिकीय विधि Otsu और ऑप्टिकल-आधारित Dynamic World मॉडल से बेहतर है, यह साबित करता है।
  4. ओपन सोर्स कार्यान्वयन प्रदान किया: सभी स्रोत कोड, परीक्षण डेटासेट और पूर्व-प्रशिक्षित मॉडल GitHub पर ओपन सोर्स हैं, अनुसंधान पुनरुत्पादन और अनुप्रयोग प्रचार को बढ़ावा देते हैं।

विधि विवरण

कार्य परिभाषा

इनपुट: रडार उपग्रह छवियां (Sentinel-1 C-बैंड) आउटपुट: पिक्सल-स्तरीय जल-स्थल द्विआधारी वर्गीकरण विभाजन मानचित्र बाधा: पूरी तरह से बिना निरीक्षण प्रशिक्षण, किसी भी मैन्युअल एनोटेशन डेटा का उपयोग नहीं

मॉडल आर्किटेक्चर

AquaCluster गहन क्लस्टरिंग और नकारात्मक नमूनाकरण के संयोजन के साथ स्व-निरीक्षित प्रशिक्षण रणनीति अपनाता है, जिसमें मुख्य घटक शामिल हैं:

1. एन्कोडिंग सब-मॉडल (Encoding Sub-model)

  • सुधारे गए U-Net आर्किटेक्चर पर आधारित
  • संकुचन पथ और विस्तार पथ शामिल
  • शतरंज की बिसात कलाकृतियों से बचने के लिए ट्रांसपोज़ कनवल्शन परतों को सरल अपसैंपलिंग परतों से बदलता है
  • प्रत्येक पिक्सल के लिए एन्कोडिंग वेक्टर उत्पन्न करता है

2. पूर्वानुमान सब-मॉडल (Prediction Sub-model)

  • एकल-परत CNN आर्किटेक्चर
  • पिक्सल-स्तरीय एन्कोडिंग को वर्ग संभावनाओं में परिवर्तित करता है
  • वर्ग संख्या (N_class=10) वास्तविक वर्ग संख्या (2) से अधिक आउटपुट करता है

3. तीन प्रशिक्षण पथ

  • मानक प्रशिक्षण पथ: मूल छवि ब्लॉक को संसाधित करता है
  • संवर्धित प्रशिक्षण पथ: गाऊसी ब्लर संवर्धित छवि ब्लॉक को संसाधित करता है
  • संवर्धित शफल प्रशिक्षण पथ: शफल किए गए संवर्धित छवि ब्लॉक को संसाधित करता है

प्रशिक्षण एल्गोरिथ्म

प्रशिक्षण प्रक्रिया में 11 चरण शामिल हैं, मूल विचार गहन क्लस्टरिंग और नकारात्मक नमूनाकरण को जोड़ना है:

गहन क्लस्टरिंग हानि

L_c = Σ weighted_cross_entropy(pseudo_labels, predictions)
L̂_c = Σ weighted_cross_entropy(augmented_pseudo_labels, augmented_predictions)

स्थानिक सामंजस्य हानि

  • सकारात्मक नमूना जोड़ी हानि: L_p = Σ|P_original - P_augmented|
  • नकारात्मक नमूना जोड़ी हानि: L_n = -Σ|P_original - P_shuffled|

कुल हानि फ़ंक्शन

L = α_c × (L_c + L̂_c) + α_p × L_p + α_n × L_n

तकनीकी नवाचार बिंदु

  1. स्थानिक जानकारी का उपयोग: गाऊसी ब्लर के माध्यम से सकारात्मक नमूना जोड़ी बनाता है, उपग्रह छवि की स्थानिक निरंतरता का उपयोग करता है
  2. बहु-वर्ग आउटपुट रणनीति: 2 वास्तविक वर्गों के बजाय 10 मॉडल वर्गों का उपयोग करता है, विभाजन दानेदारपन में सुधार करता है
  3. पोस्ट-प्रोसेसिंग मैपिंग: IoU मेट्रिक के माध्यम से मॉडल वर्गों को वास्तविक जल-स्थल वर्गों में मैप करता है
  4. एकीकृत शिक्षण: एकल मॉडल की अस्थिरता को कम करने के लिए बहु-मॉडल वोटिंग के माध्यम से

प्रायोगिक सेटअप

डेटासेट

प्रशिक्षण डेटासेट

  • Örebro रडार डेटासेट: स्वीडन के Örebro काउंटी की आर्द्रभूमि रडार उपग्रह छवियां
  • संग्रह समय: 4 जुलाई 2018
  • रिज़ॉल्यूशन: 10 मीटर पिक्सल रिज़ॉल्यूशन
  • डेटा विभाजन: 639 512×512 पिक्सल छवि ब्लॉक, 80% प्रशिक्षण, 20% सत्यापन
  • जल पिक्सल अनुपात: 9.42%

परीक्षण डेटासेट

  • Swedish Wetlands रडार डेटासेट: तीन स्वीडिश आर्द्रभूमि की 39 रडार छवियां
  • आर्द्रभूमि नाम: Hjalstaviken, Hornborgarsjon, Svartadalen
  • समय सीमा: 2018-2019 (बर्फ के हस्तक्षेप से बचने के लिए दिसंबर से मार्च को छोड़ा गया)
  • छवि आकार: 266×669 से 1049×1667 पिक्सल
  • जल पिक्सल अनुपात: 22.27%

मूल्यांकन मेट्रिक्स

  1. सटीकता (Accuracy): (TP+TN)/(TP+TN+FP+FN)
  2. परिशुद्धता (Precision): TP/(TP+FP)
  3. रिकॉल (Recall): TP/(TP+FN)
  4. F1 स्कोर: 2×(Precision×Recall)/(Precision+Recall)
  5. इंटरसेक्शन ओवर यूनियन (IoU): (A_pred ∩ A_gt + ε)/(A_pred ∪ A_gt + ε)

तुलना विधियां

  1. Otsu थ्रेसहोल्डिंग: सांख्यिकीय-आधारित बिना निरीक्षण विधि, वर्ग-भीतर विचरण को कम करता है
  2. Dynamic World: ऑप्टिकल छवि-आधारित मशीन लर्निंग भूमि कवर डेटासेट

कार्यान्वयन विवरण

  • 10 स्वतंत्र AquaCluster मॉडल प्रशिक्षित करता है
  • एकीकृत विधि पिक्सल-स्तरीय सरल बहुमत वोटिंग अपनाता है
  • दक्षता सुनिश्चित करने के लिए हल्के वजन मॉडल आर्किटेक्चर का उपयोग करता है
  • हानि वजन: α_c, α_p, α_n को ट्यून करने की आवश्यकता है

प्रायोगिक परिणाम

मुख्य परिणाम

मॉडलAccuracyPrecisionRecallF1-ScoreIoU
Otsu0.960.900.890.890.81
Dynamic World0.940.870.820.840.73
AquaCluster0.970.880.950.910.85
AquaCluster एकीकृत0.980.920.960.940.89

मुख्य निष्कर्ष

  1. एकीकृत मॉडल सर्वश्रेष्ठ: AquaCluster एकीकृत संस्करण सभी मेट्रिक्स पर सर्वश्रेष्ठ प्रदर्शन करता है
  2. रिकॉल में उल्लेखनीय सुधार: Otsu विधि की तुलना में, AquaCluster रिकॉल और IoU में उल्लेखनीय सुधार दिखाता है
  3. ऑप्टिकल विधि से बेहतर: Dynamic World सभी मेट्रिक्स पर सबसे खराब प्रदर्शन करता है, जो वनस्पति-आच्छादित जल निकाय पहचान में रडार डेटा के लाभ को दर्शाता है
  4. मॉडल स्थिरता: एकल AquaCluster मॉडल प्रदर्शन में अधिक उतार-चढ़ाव (IoU 0.7 से 0.9 तक), एकीकृत विधि प्रभावी रूप से स्थिरता में सुधार करती है

केस विश्लेषण

दृश्य परिणामों से देखा जा सकता है:

  • Otsu विधि: अधिक शोर वाली एनोटेशन उत्पन्न करता है, रडार छवि शोर को संभालना कठिन है
  • Dynamic World: जल-स्थल सीमा क्षेत्र में खराब प्रदर्शन करता है
  • एकल AquaCluster: अच्छी विभाजन गुणवत्ता लेकिन कुछ गहरे मिट्टी क्षेत्रों को गलती से जल के रूप में वर्गीकृत करता है
  • एकीकृत AquaCluster: स्थल गलत वर्गीकरण समस्या को महत्वपूर्ण रूप से कम करता है

संबंधित कार्य

आर्द्रभूमि पहचान में मशीन लर्निंग अनुप्रयोग

  1. पारंपरिक विधियां: यादृच्छिक वन, समर्थन वेक्टर मशीन आदि एकल पिक्सल वर्गीकरण पर लागू
  2. CNN विधियां: Mahdianpari आदि ने पहली बार CNN को आर्द्रभूमि मानचित्रण पर लागू किया, पारंपरिक विधियों पर CNN की श्रेष्ठता साबित की
  3. जटिल आर्किटेक्चर: द्वि-पथ CNN, ध्यान तंत्र, सुधारे गए U-Net आदि प्रदर्शन में सुधार करते हैं
  4. बहु-मोडल संलयन: ऑप्टिकल और रडार डेटा को जोड़कर प्रत्येक के लाभ का उपयोग करता है

दूरसंवेदन में स्व-निरीक्षित शिक्षण

  1. विपरीत शिक्षण: SimCLR आदि विधियां उपग्रह छवि बहु-लेबल वर्गीकरण के लिए अनुकूलित
  2. समय-श्रृंखला डेटा उपयोग: समान क्षेत्र की विभिन्न मौसमी छवियों का उपयोग करके सकारात्मक नमूना जोड़ी बनाता है
  3. क्लस्टरिंग विधियां: बिना निरीक्षण छवि विभाजन एल्गोरिथ्म सकारात्मक-नकारात्मक नमूना जोड़ी उत्पन्न करते हैं

इस पेपर की मौजूदा कार्य पर श्रेष्ठता यह है कि: रडार छवियों के लिए विशेष रूप से डिज़ाइन किया गया, ऑप्टिकल डेटा की आवश्यकता नहीं, पूरी तरह से स्व-निरीक्षित प्रशिक्षण।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. तकनीकी व्यवहार्यता: केवल रडार छवियों का उपयोग करके पूरी तरह से स्व-निरीक्षित आर्द्रभूमि विभाजन की व्यवहार्यता साबित की
  2. प्रदर्शन श्रेष्ठता: IoU मेट्रिक पर आधारभूत विधि की तुलना में 0.08 की वृद्धि, 0.89 का उच्च प्रदर्शन प्राप्त किया
  3. व्यावहारिक मूल्य: एनोटेट किए गए डेटा और ऑप्टिकल छवियों पर निर्भरता को समाप्त करता है, मॉडल की अनुकूलनशीलता और स्केलेबिलिटी में सुधार करता है

सीमाएं

  1. भौगोलिक सीमा: केवल स्वीडिश आर्द्रभूमि पर परीक्षण, सामान्यीकरण क्षमता सत्यापन की प्रतीक्षा में है
  2. मौसमी प्रतिबंध: सर्दियों के डेटा को छोड़ा गया, बर्फ-आच्छादित क्षेत्रों के लिए प्रबंधन क्षमता अज्ञात है
  3. मॉडल अस्थिरता: एकल मॉडल प्रदर्शन में बड़ा उतार-चढ़ाव, स्थिरता में सुधार के लिए एकीकृत विधि की आवश्यकता है
  4. पोस्ट-प्रोसेसिंग निर्भरता: मॉडल वर्गों को वास्तविक वर्गों में मैप करने के लिए पोस्ट-प्रोसेसिंग चरण की आवश्यकता है

भविष्य की दिशा

  1. क्रॉस-क्षेत्र सत्यापन: विभिन्न जलवायु और भौगोलिक परिस्थितियों में मॉडल सामान्यीकरण क्षमता का परीक्षण करता है
  2. बहु-सेंसर संलयन: अन्य सेंसर डेटा के साथ संयोजन की खोज करता है
  3. समय-श्रृंखला मॉडलिंग: बहु-समय डेटा का उपयोग करके पहचान सटीकता में सुधार करता है
  4. अंत-से-अंत अनुकूलन: पोस्ट-प्रोसेसिंग चरणों को कम करता है, अधिक सीधे प्रशिक्षण को प्राप्त करता है

गहन मूल्यांकन

लाभ

  1. समस्या लक्ष्यीकरण मजबूत: वनस्पति-आच्छादित जल निकाय पहचान की इस विशिष्ट और महत्वपूर्ण समस्या पर लक्षित
  2. विधि नवाचार: गहन क्लस्टरिंग को नकारात्मक नमूनाकरण के साथ जोड़ता है, रडार छवि विशेषताओं का पूरी तरह से उपयोग करता है
  3. प्रायोगिक डिज़ाइन तर्कसंगत: तुलना विधि चयन उपयुक्त, मूल्यांकन मेट्रिक्स व्यापक
  4. ओपन सोर्स योगदान: पूर्ण कोड और डेटा प्रदान करता है, अनुसंधान पुनरुत्पादन को बढ़ावा देता है
  5. व्यावहारिक मूल्य उच्च: वास्तविक अनुप्रयोग में एनोटेट किए गए डेटा की कमी की समस्या को हल करता है

कमियां

  1. डेटासेट आकार सीमा: परीक्षण डेटासेट अपेक्षाकृत छोटा (39 छवियां), निष्कर्षों की सार्वभौमिकता को प्रभावित कर सकता है
  2. विधि जटिलता: कई मॉडलों को प्रशिक्षित करने और एकीकृत करने की आवश्यकता, उच्च कम्प्यूटेशनल लागत
  3. हाइपरपैरामीटर संवेदनशीलता: हानि फ़ंक्शन वजन आदि के चयन में विस्तृत विश्लेषण की कमी
  4. सैद्धांतिक विश्लेषण अपर्याप्त: विधि अभिसरण और सैद्धांतिक गारंटी के विश्लेषण की कमी

प्रभाव

  1. शैक्षणिक योगदान: स्व-निरीक्षित दूरसंवेदन छवि विश्लेषण के लिए नई सोच प्रदान करता है
  2. व्यावहारिक मूल्य: आर्द्रभूमि निगरानी, पर्यावरण संरक्षण के लिए महत्वपूर्ण अनुप्रयोग मूल्य
  3. तकनीकी प्रचार: ओपन सोर्स कार्यान्वयन विधि के व्यापक अनुप्रयोग और सुधार में सहायता करता है
  4. अंतःविषय प्रभाव: कंप्यूटर विजन, दूरसंवेदन और पर्यावरण विज्ञान क्षेत्रों को जोड़ता है

लागू परिदृश्य

  1. आर्द्रभूमि निगरानी: मौसमी आर्द्रभूमि गतिशील निगरानी
  2. पर्यावरण मूल्यांकन: पारिस्थितिकी तंत्र स्वास्थ्य मूल्यांकन
  3. जलवायु अनुसंधान: कार्बन भंडारण मूल्यांकन और जलवायु परिवर्तन प्रभाव विश्लेषण
  4. संसाधन प्रबंधन: जल संसाधन प्रबंधन और संरक्षण योजना
  5. आपदा निगरानी: बाढ़ निगरानी और जोखिम मूल्यांकन

संदर्भ

पेपर ने 60 संबंधित संदर्भों का हवाला दिया है, जिसमें आर्द्रभूमि पारिस्थितिकी, दूरसंवेदन तकनीक, गहन शिक्षण और स्व-निरीक्षित शिक्षण आदि कई क्षेत्रों के महत्वपूर्ण कार्य शामिल हैं, जो अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अनुप्रयोग-केंद्रित अनुसंधान पेपर है, जो व्यावहारिक समस्याओं के लिए नवीन समाधान प्रस्तावित करता है, तकनीकी रूप से कुछ योगदान है, व्यावहारिक मूल्य अधिक है। हालांकि सैद्धांतिक विश्लेषण और डेटासेट आकार के पहलुओं में कुछ कमी है, लेकिन इसका ओपन सोर्स योगदान और व्यावहारिक अनुप्रयोग मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण कार्य बनाता है।