2025-11-15T03:10:19.291336

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic

गहन शिक्षा पर पुनर्विचार: स्थलीय जल भंडारण की भविष्यवाणी में रैखिक प्रतिगमन एक महत्वपूर्ण बेंचमार्क बना हुआ है

मूल जानकारी

  • पेपर ID: 2510.10799
  • शीर्षक: गहन शिक्षा पर पुनर्विचार: स्थलीय जल भंडारण की भविष्यवाणी में रैखिक प्रतिगमन एक महत्वपूर्ण बेंचमार्क बना हुआ है
  • लेखक: वानशु नी, सुजय वी. कुमार, जुन्यु चेन, लॉन्ग झाओ, ओल्या स्कुलोविच, जिनवूंग यू, जस्टिन प्फ्लग, शाहरियार खलीक अहमद, गौतम कोनापाला
  • वर्गीकरण: cs.LG physics.ao-ph physics.geo-ph
  • संस्थान: नासा गोडार्ड स्पेस फ्लाइट सेंटर, जॉन्स हॉपकिंस विश्वविद्यालय आदि
  • पेपर लिंक: https://arxiv.org/abs/2510.10799

सारांश

हाल के वर्षों में, दीर्घ अल्पकालिक स्मृति नेटवर्क (LSTM) और ट्रांसफॉर्मर जैसी मशीन लर्निंग तकनीकें जलविज्ञान अनुप्रयोगों में व्यापक रूप से अपनाई गई हैं, गहन शिक्षा मॉडल में उत्कृष्ट प्रदर्शन किया है, और विभिन्न कार्यों में भौतिक मॉडल को पार किया है। हालांकि, प्राकृतिक परिवर्तनशीलता और मानव-संचालित परिवर्तन जैसे कई कारकों द्वारा प्रभावित स्थलीय सतह की स्थिति (जैसे स्थलीय जल भंडारण TWS) की भविष्यवाणी में इन विधियों की श्रेष्ठता अभी भी स्पष्ट नहीं है। यह अध्ययन खुली पहुंच वाले वैश्विक प्रतिनिधि HydroGlobe डेटासेट का उपयोग करता है - जिसमें केवल भूमि सतह मॉडल सिमुलेशन पर आधारित बेंचमार्क संस्करण और बहु-स्रोत दूरसंवेदन डेटा आत्मसात करने वाला उन्नत संस्करण शामिल है - यह दर्शाता है कि रैखिक प्रतिगमन एक मजबूत बेंचमार्क है, जो TWS भविष्यवाणी कार्य में अधिक जटिल LSTM और समय-संलयन ट्रांसफॉर्मर से बेहतर प्रदर्शन करता है। अनुसंधान परिणाम गहन शिक्षा मॉडल विकास और मूल्यांकन में पारंपरिक सांख्यिकीय मॉडल को बेंचमार्क के रूप में उपयोग करने के महत्व पर जोर देते हैं, और प्राकृतिक परिवर्तनशीलता और मानव हस्तक्षेप के समन्वित प्रभाव को पकड़ने में सक्षम वैश्विक प्रतिनिधि बेंचमार्क डेटासेट स्थापित करने की महत्वपूर्ण आवश्यकता पर जोर देते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

स्थलीय जल भंडारण (TWS) वैश्विक मीठे पानी की उपलब्धता का एक महत्वपूर्ण संकेतक है, जिसमें मिट्टी की नमी, भूजल, सतही जल और बर्फ के सभी रूप शामिल हैं। सटीक TWS अनुमान पारिस्थितिकी तंत्र संरक्षण, कृषि समर्थन और जल तथा खाद्य सुरक्षा के लिए महत्वपूर्ण है।

अनुसंधान प्रेरणा

  1. जलविज्ञान में गहन शिक्षा की लोकप्रियता: LSTM और ट्रांसफॉर्मर जैसे गहन शिक्षा मॉडल जलविज्ञान अनुप्रयोगों में तेजी से लोकप्रिय हो रहे हैं, विशेष रूप से वर्षा-प्रवाह मॉडलिंग जैसे कार्यों में उत्कृष्ट प्रदर्शन कर रहे हैं
  2. गैर-स्थिरता चुनौती: TWS जलवायु परिवर्तनशीलता और मानव गतिविधि (जैसे भूजल निष्कर्षण, भूमि उपयोग परिवर्तन, जलाशय संचालन) के जटिल अंतःक्रिया से प्रभावित है, जो मजबूत गैर-स्थिरता प्रदर्शित करता है
  3. बेंचमार्क चयन समस्या: मौजूदा अनुसंधान अक्सर केवल गहन शिक्षा मॉडल के बीच तुलना करता है, सरल सांख्यिकीय विधियों के साथ तुलना की कमी है
  4. डेटासेट सीमाएं: प्राकृतिक और मानव प्रभाव को व्यापक रूप से प्रतिबिंबित करने वाले वैश्विक बेंचमार्क डेटासेट की कमी है

मौजूदा विधियों की सीमाएं

  1. LSTM सीमाएं: लंबे इनपुट अनुक्रमों पर कम्प्यूटेशनल रूप से महंगा, छोटे अनुक्रम प्रशिक्षण पर दीर्घकालिक निर्भरता को पकड़ने की क्षमता सीमित है
  2. ट्रांसफॉर्मर चुनौतियां: स्व-ध्यान तंत्र आंतरिक रूप से क्रमपरिवर्तन अपरिवर्तनीय है, जो समय की जानकारी के नुकसान का कारण बन सकता है
  3. मूल्यांकन पूर्वाग्रह: पारंपरिक सांख्यिकीय विधियों के साथ व्यवस्थित तुलना की कमी है

मुख्य योगदान

  1. व्यवस्थित बेंचमार्क तुलना: वैश्विक पैमाने पर TWS भविष्यवाणी कार्य में रैखिक प्रतिगमन, LSTM और समय-संलयन ट्रांसफॉर्मर (TFT) के प्रदर्शन की पहली व्यवस्थित तुलना
  2. HydroGlobe डेटासेट अनुप्रयोग: प्राकृतिक परिवर्तनशीलता (OL) और मानव प्रभाव (DA) दोनों संस्करणों वाले वैश्विक जलविज्ञान डेटासेट का उपयोग
  3. रैखिक प्रतिगमन श्रेष्ठता का प्रमाण: सरल रैखिक प्रतिगमन मॉडल TWS भविष्यवाणी कार्य में जटिल गहन शिक्षा मॉडल से लगातार बेहतर हैं
  4. गैर-स्थिरता विश्लेषण: विभिन्न मॉडल के गैर-स्थिर वातावरण में प्रदर्शन अंतर का गहन विश्लेषण
  5. बेंचमार्क महत्व पर जोर: गहन शिक्षा मॉडल मूल्यांकन में पारंपरिक सांख्यिकीय बेंचमार्क शामिल करने के महत्व पर जोर

विधि विवरण

कार्य परिभाषा

इनपुट: पिछले 12 महीने के मासिक विशेषताएं (वर्षा, तापमान, पत्ती क्षेत्र सूचकांक LAI, सतही मिट्टी की नमी SSMC) साथ ही स्थिर विशेषताएं (ऊंचाई, ढलान, मिट्टी की बनावट, भूमि कवर आदि) आउटपुट: वर्तमान महीने का स्थलीय जल भंडारण (TWS) बाधा: इनपुट विशेषताओं के रूप में TWS के ऐतिहासिक मानों का उपयोग न करें, वास्तविक भविष्यवाणी परिदृश्य का अनुकरण करें

मॉडल आर्किटेक्चर

1. रैखिक प्रतिगमन मॉडल

  • Linear_single (बेंचमार्क मॉडल): प्रत्येक बेसिन के लिए अलग से प्रशिक्षित रैखिक प्रतिगमन मॉडल
  • Linear_glob: सभी बेसिन डेटा का उपयोग करके प्रशिक्षित वैश्विक रैखिक मॉडल

विशेषता संरचना:

  • विलंबित समय-परिवर्तनशील विशेषताएं: 48 (वर्षा, तापमान, LAI, SSMC के ऐतिहासिक मान)
  • मासिक श्रेणीबद्ध चर: 11 (मौसमी प्रभाव प्रॉक्सी)
  • प्रवृत्ति विशेषताएं: 1 (समय सूचकांक)

2. गहन शिक्षा मॉडल

  • LSTM: समय-परिवर्तनशील और स्थिर इनपुट को संभालने वाला एकल-परत LSTM नेटवर्क
  • समय-संलयन ट्रांसफॉर्मर (TFT): LSTM इकाइयों और बहु-सिर ध्यान तंत्र को जोड़ने वाली हाइब्रिड आर्किटेक्चर

तकनीकी नवाचार बिंदु

  1. डेटासेट तुलना डिजाइन: OL और DA दोनों संस्करणों के माध्यम से, विभिन्न गैर-स्थिरता स्तरों के तहत मॉडल प्रदर्शन का मूल्यांकन
  2. व्यापक मूल्यांकन ढांचा: विभिन्न अनुक्रम लंबाई, भविष्यवाणी चरण और समय संकल्प के साथ प्रयोग शामिल
  3. व्याख्यात्मकता विश्लेषण: SHAP मान और ध्यान भार का उपयोग करके मॉडल व्यवहार का विश्लेषण
  4. निष्पक्ष तुलना रणनीति: समान हानि फ़ंक्शन (क्वांटाइल हानि) और मूल्यांकन मेट्रिक्स का उपयोग

प्रयोगात्मक सेटअप

डेटासेट

HydroGlobe डेटासेट:

  • स्पेस-टाइम रेंज: 2003-2020, 10km स्थानिक संकल्प, वैश्विक 515 बेसिन
  • OL संस्करण: केवल Noah-MP भूमि सतह मॉडल पर आधारित बेंचमार्क सिमुलेशन
  • DA संस्करण: GRACE TWS, ESA CCI मिट्टी की नमी, MODIS LAI को एकीकृत करने वाला डेटा आत्मसात उत्पाद

डेटा विभाजन:

  • प्रशिक्षण अवधि: 2003-2015 (रैखिक मॉडल); 2003-2012 (गहन शिक्षा मॉडल)
  • सत्यापन अवधि: 2013-2015 (केवल गहन शिक्षा मॉडल)
  • परीक्षण अवधि: 2016-2020

मूल्यांकन मेट्रिक्स

  • पूर्वाग्रह (Bias): व्यवस्थित त्रुटि
  • मूल माध्य वर्ग त्रुटि (RMSE): समग्र भविष्यवाणी सटीकता
  • सहसंबंध गुणांक (Correlation): रैखिक संबंध की शक्ति
  • नैश-सटक्लिफ दक्षता (NSE): मॉडल व्याख्या विचरण क्षमता
  • क्लिंग-गुप्ता दक्षता (KGE): व्यापक मूल्यांकन मेट्रिक

NSE गणना सूत्र: NSE=1t=1T(ypredyobs)2t=1T(yobsyobs)2NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2}

KGE गणना सूत्र: KGE=1(r1)2+(σpredσobs1)2+(μpredμobs1)2KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2}

तुलना विधियां

  • पारंपरिक विधियां: रैंडम फॉरेस्ट, LightGBM
  • गहन शिक्षा: LSTM, समय-संलयन ट्रांसफॉर्मर
  • बेंचमार्क: बेसिन-विशिष्ट और वैश्विक रैखिक प्रतिगमन

प्रयोगात्मक परिणाम

मुख्य परिणाम

OL डेटासेट प्रदर्शन

Linear_single सभी मूल्यांकन मेट्रिक्स पर अन्य तीन मॉडल से महत्वपूर्ण रूप से बेहतर है (पूर्वाग्रह को छोड़कर):

  • सर्वश्रेष्ठ प्रदर्शन क्रमबद्धता: Linear_single > TFT > LSTM > Linear_glob
  • TFT पूर्वाग्रह मेट्रिक पर सर्वश्रेष्ठ प्रदर्शन करता है, यहां तक कि Linear_single से भी बेहतर
  • Linear_glob सबसे खराब प्रदर्शन करता है, विशेष रूप से सहसंबंध और NSE मेट्रिक्स पर

DA डेटासेट प्रदर्शन

Linear_single फिर से अन्य मॉडल से बेहतर है, लेकिन समग्र प्रदर्शन में गिरावट:

  • सभी मॉडल DA डेटासेट पर OL डेटासेट की तुलना में खराब प्रदर्शन करते हैं
  • मजबूत गैर-स्थिरता (अधिक नकारात्मक TWS प्रवृत्ति) सभी मॉडल के लिए चुनौती है
  • LSTM मजबूत गैर-स्थिरता को संभालने में सबसे खराब प्रदर्शन करता है

स्थानिक वितरण विश्लेषण

  • मजबूत नकारात्मक TWS प्रवृत्ति वाले बेसिन में, सर्वश्रेष्ठ मॉडल मुख्य रूप से Linear_single या TFT हैं
  • LSTM मजबूत गैर-स्थिरता प्रदर्शित करने वाले बेसिन की प्रवृत्ति की भविष्यवाणी करने में कठिनाई होती है

विलोपन प्रयोग

अनुक्रम लंबाई प्रभाव

6-18 महीने की विभिन्न इनपुट अनुक्रम लंबाई का परीक्षण:

  • LSTM और TFT: अनुक्रम लंबाई में वृद्धि से प्रदर्शन में महत्वपूर्ण सुधार नहीं हुआ
  • SHAP विश्लेषण: LSTM मुख्य रूप से सबसे हाल के समय चरण पर निर्भर है, ऐतिहासिक जानकारी का कम उपयोग करता है
  • ध्यान विश्लेषण: TFT का ध्यान पैटर्न विभिन्न अनुक्रम लंबाई में असंगत है

भविष्यवाणी कार्य प्रदर्शन

1-6 महीने की भविष्यवाणी प्रयोग:

  • अल्पकालिक भविष्यवाणी (≤3 महीने): Linear_single सर्वश्रेष्ठ प्रदर्शन करता है
  • दीर्घकालिक भविष्यवाणी (>3 महीने): TFT प्रदर्शन अधिक स्थिर है, Linear_single को पार करता है
  • LSTM: सभी भविष्यवाणी चरणों पर सबसे खराब प्रदर्शन करता है

समय संकल्प प्रभाव

दैनिक डेटा का उपयोग करके प्रशिक्षण:

  • प्रशिक्षण डेटा 55,620 से 375,435 बिंदुओं तक बढ़ता है
  • सभी मॉडल प्रदर्शन में महत्वपूर्ण सुधार नहीं हुआ
  • यह दर्शाता है कि प्रशिक्षण डेटा आकार सीमित कारक नहीं है

गैर-स्थिरता हैंडलिंग तंत्र

TFT के समय सूचकांक एम्बेडिंग को हटाने से पता चलता है:

  • समय एम्बेडिंग TFT के गैर-स्थिरता को संभालने का मुख्य तंत्र है
  • हटाने के बाद महत्वपूर्ण क्षय प्रवृत्ति बेसिन में प्रदर्शन में भारी गिरावट
  • स्व-ध्यान तंत्र अपने आप में गैर-स्थिरता को संभालने के लिए अपर्याप्त है

वृक्ष मॉडल तुलना

Random Forest और LightGBM की Linear_single के साथ तुलना:

  • Linear_single अधिकांश मेट्रिक्स पर वृक्ष मॉडल से बेहतर है
  • वृक्ष मॉडल गंभीर वितरण बदलाव वाले बेसिन में खराब प्रदर्शन करते हैं
  • यह साबित करता है कि मॉडल जटिलता में वृद्धि आवश्यक रूप से प्रदर्शन में सुधार नहीं करती है

संबंधित कार्य

जलविज्ञान में गहन शिक्षा का अनुप्रयोग

  1. LSTM लाभ: वर्षा-प्रवाह मॉडलिंग में लगातार भौतिक मॉडल से बेहतर, अनुक्रम डेटा को संभालने, बेसिन-भर में सामान्यीकरण की क्षमता
  2. ट्रांसफॉर्मर विकास: प्राकृतिक भाषा प्रसंस्करण में सफलता के बाद जलविज्ञान में पेश किए गए, लेकिन समय श्रृंखला कार्यों में प्रभावशीलता विवादास्पद है
  3. बेंचमार्क समस्या: मौजूदा अनुसंधान अक्सर केवल गहन शिक्षा मॉडल के बीच तुलना करता है, सरल विधियों के साथ तुलना की कमी है

समय श्रृंखला भविष्यवाणी विवाद

हाल के अनुसंधान समय श्रृंखला कार्यों में ट्रांसफॉर्मर की आवश्यकता पर सवाल उठाते हैं:

  • स्व-ध्यान की क्रमपरिवर्तन अपरिवर्तनीयता समय की जानकारी के नुकसान का कारण बन सकती है
  • सरल मॉडल कुछ कार्यों में तुलनीय प्रदर्शन प्राप्त कर सकते हैं
  • उपयुक्त बेंचमार्क चयन के महत्व पर जोर

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. रैखिक प्रतिगमन की मजबूती: TWS भविष्यवाणी कार्य में, सरल रैखिक प्रतिगमन जटिल गहन शिक्षा मॉडल से लगातार बेहतर है
  2. बेंचमार्क का महत्व: पारंपरिक सांख्यिकीय विधियों को गहन शिक्षा मॉडल मूल्यांकन के महत्वपूर्ण बेंचमार्क के रूप में कार्य करना चाहिए
  3. डेटासेट की महत्वपूर्णता: प्राकृतिक और मानव प्रभाव को प्रतिबिंबित करने वाले वैश्विक प्रतिनिधि डेटासेट की आवश्यकता है
  4. गैर-स्थिरता चुनौती: सभी मॉडल मानव प्रभाव द्वारा संचालित गैर-स्थिरता को संभालने में कठिनाई का सामना करते हैं

सीमाएं

  1. कार्य विशिष्टता: निष्कर्ष TWS भविष्यवाणी कार्य के लिए विशिष्ट हो सकते हैं, अन्य जलविज्ञान अनुप्रयोगों पर लागू नहीं हो सकते
  2. विशेषता सीमाएं: स्पष्ट मानव हस्तक्षेप विशेषताओं की कमी (जैसे सिंचाई निष्कर्षण) गहन शिक्षा मॉडल के लाभों को सीमित कर सकती है
  3. समय सीमा: 18 वर्ष का डेटा दीर्घकालिक निर्भरता का पूर्ण मूल्यांकन करने के लिए अपर्याप्त हो सकता है
  4. स्थानिक पैमाना: बेसिन-स्तर एकत्रीकरण उप-ग्रिड-स्तर जटिलता को छिपा सकता है

भविष्य की दिशाएं

  1. विशेषता इंजीनियरिंग: मानव गतिविधि के बेहतर प्रॉक्सी चर विकसित करें
  2. आर्किटेक्चर नवाचार: गैर-स्थिरता को संभालने के लिए विशेष गहन शिक्षा आर्किटेक्चर डिजाइन करें
  3. पूर्व-प्रशिक्षण रणनीतियां: जलविज्ञान में आधार मॉडल के अनुप्रयोग की खोज करें
  4. बहु-पैमाने मॉडलिंग: विभिन्न स्पेस-टाइम पैमानों की जानकारी को एकीकृत करें

गहन मूल्यांकन

शक्तियां

  1. कठोर अनुसंधान डिजाइन: व्यवस्थित तुलनात्मक प्रयोग, कई आयामों में विश्लेषण
  2. उच्च गुणवत्ता डेटासेट: HydroGlobe डेटासेट वैश्विक प्रतिनिधि है, प्राकृतिक और मानव प्रभाव शामिल है
  3. गहन विश्लेषण: SHAP मान, ध्यान भार आदि व्याख्यात्मकता विधियों के माध्यम से मॉडल व्यवहार का गहन विश्लेषण
  4. उच्च व्यावहारिक मूल्य: जलविज्ञान गहन शिक्षा अनुप्रयोग के लिए महत्वपूर्ण पद्धति मार्गदर्शन प्रदान करता है
  5. स्पष्ट लेखन: तार्किक स्पष्टता, समृद्ध चार्ट, समझने में आसान

कमियां

  1. सामान्यीकरण सीमाएं: निष्कर्ष मुख्य रूप से TWS भविष्यवाणी कार्य पर आधारित हैं, अन्य जलविज्ञान अनुप्रयोगों पर लागू होने की आवश्यकता है
  2. मॉडल चयन: प्रतिनिधि मॉडल चुने गए हैं, लेकिन सभी नवीनतम गहन शिक्षा आर्किटेक्चर को कवर नहीं करते
  3. हाइपरपैरामीटर अनुकूलन: विभिन्न प्रयोगों में समान हाइपरपैरामीटर का उपयोग पूरी तरह निष्पक्ष नहीं हो सकता है
  4. भौतिक बाधाएं अनुपस्थित: मॉडल में भौतिक बाधाओं की भूमिका पर विचार नहीं किया गया

प्रभाव

  1. शैक्षणिक योगदान: गहन शिक्षा के जलविज्ञान में "आवश्यक रूप से श्रेष्ठ" दृष्टिकोण को चुनौती देता है
  2. पद्धति मूल्य: बेंचमार्क चयन और निष्पक्ष तुलना के महत्व पर जोर
  3. व्यावहारिक मार्गदर्शन: जलविज्ञान पेशेवारों को मॉडल चयन के लिए महत्वपूर्ण संदर्भ प्रदान करता है
  4. डेटासेट योगदान: HydroGlobe डेटासेट बाद के अनुसंधान के लिए मूल्यवान संसाधन प्रदान करता है

लागू परिदृश्य

  1. जल संसाधन प्रबंधन: जल संसाधन प्रबंधन विभागों को TWS भविष्यवाणी उपकरण चयन मार्गदर्शन प्रदान करता है
  2. जलवायु प्रभाव मूल्यांकन: जलवायु परिवर्तन और मानव गतिविधि के जल चक्र पर प्रभाव का मूल्यांकन
  3. चरम घटना चेतावनी: बाढ़ और सूखे जैसी जलविज्ञान चरम घटनाओं की प्रारंभिक चेतावनी
  4. शैक्षणिक अनुसंधान: जलविज्ञान मशीन लर्निंग अनुसंधान के लिए बेंचमार्क और डेटासेट प्रदान करता है

संदर्भ

पेपर में गहन संदर्भ हैं, जो गहन शिक्षा, जलविज्ञान, दूरसंवेदन आदि कई क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, संबंधित अनुसंधान के लिए व्यापक साहित्य आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला अंतःविषय अनुसंधान पेपर है जो कठोर प्रयोगात्मक डिजाइन और गहन विश्लेषण के माध्यम से जलविज्ञान में गहन शिक्षा के सार्वभौमिक श्रेष्ठता की धारणा को चुनौती देता है, पारंपरिक सांख्यिकीय विधियों के मूल्य और उपयुक्त बेंचमार्क चयन के महत्व पर जोर देता है। अनुसंधान परिणाम जलविज्ञान और मशीन लर्निंग समुदायों दोनों के लिए महत्वपूर्ण पद्धति महत्व रखते हैं।