Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic
Ripensare l'apprendimento profondo: la regressione lineare rimane un benchmark chiave nella previsione dell'immagazzinamento idrico terrestre
Negli ultimi anni, tecniche di apprendimento automatico come le reti LSTM (Long Short-Term Memory) e i Transformer sono state ampiamente adottate nelle applicazioni idrologiche, mostrando eccellenti prestazioni nei modelli di apprendimento profondo e superando i modelli fisici in vari compiti. Tuttavia, la superiorità di questi metodi rimane poco chiara nella previsione dello stato della superficie terrestre (come l'immagazzinamento idrico terrestre TWS) dominato da molteplici fattori quali la variabilità naturale e i cambiamenti antropogenici. Questo studio utilizza il dataset HydroGlobe globale ad accesso aperto e rappresentativo a livello mondiale—includendo una versione di base basata esclusivamente su simulazioni di modelli terrestri e una versione avanzata che fonde l'assimilazione di dati da telerilevamento multisorgente—per dimostrare che la regressione lineare è un benchmark robusto, superiore ai più complessi modelli LSTM e Transformer a fusione temporale nei compiti di previsione TWS. I risultati della ricerca sottolineano l'importanza di utilizzare modelli statistici tradizionali come benchmark nello sviluppo e nella valutazione dei modelli di apprendimento profondo, e enfatizzano la necessità critica di stabilire dataset benchmark globalmente rappresentativi in grado di catturare gli effetti combinati della variabilità naturale e dell'intervento antropogenico.
L'immagazzinamento idrico terrestre (TWS) è un indicatore critico della disponibilità di acqua dolce globale, includendo tutte le forme di corpi idrici terrestri come umidità del suolo, acque sotterranee, acque superficiali e neve. Le stime accurate di TWS sono essenziali per la protezione degli ecosistemi, il supporto agricolo e la sicurezza idrica e alimentare.
Popolarità dell'apprendimento profondo in idrologia: I modelli di apprendimento profondo come LSTM e Transformer stanno diventando sempre più popolari nelle applicazioni idrologiche, in particolare mostrando eccellenti prestazioni in compiti come la modellazione afflussi-deflussi
Sfida della non-stazionarietà: TWS è influenzato dall'interazione complessa della variabilità climatica e delle attività umane (come l'estrazione di acque sotterranee, i cambiamenti di uso del suolo, l'operazione di serbatoi), mostrando forte non-stazionarietà
Problema della selezione del benchmark: La ricerca esistente spesso effettua confronti solo tra modelli di apprendimento profondo, mancando di confronti con metodi statistici semplici
Limitazioni del dataset: Mancanza di dataset benchmark globali che riflettano in modo completo gli impatti naturali e antropogenici
Limitazioni LSTM: Computazionalmente costosi su sequenze di input lunghe, capacità limitata di catturare dipendenze a lungo termine quando addestrati su sequenze più brevi
Sfide Transformer: Il meccanismo di auto-attenzione è intrinsecamente invariante alle permutazioni, potendo causare perdita di informazioni temporali
Bias di valutazione: Mancanza di confronti sistematici con metodi statistici tradizionali
Confronto sistematico dei benchmark: Primo confronto sistematico della regressione lineare, LSTM e Transformer a fusione temporale (TFT) nelle prestazioni di previsione TWS su scala globale
Applicazione del dataset HydroGlobe: Utilizzo di un dataset idrologico globale contenente due versioni—variabilità naturale (OL) e impatti antropogenici (DA)
Dimostrazione della superiorità della regressione lineare: Dimostrazione che semplici modelli di regressione lineare sono consistentemente superiori ai complessi modelli di apprendimento profondo nei compiti di previsione TWS
Analisi della non-stazionarietà: Analisi approfondita delle differenze di prestazione di diversi modelli nel trattamento di ambienti non-stazionari
Enfasi sull'importanza del benchmark: Sottolineatura dell'importanza di includere benchmark statistici tradizionali nella valutazione dei modelli di apprendimento profondo
Input: Caratteristiche mensili dei 12 mesi precedenti (precipitazioni, temperatura, indice di area fogliare LAI, umidità del suolo superficiale SSMC) e caratteristiche statiche (elevazione, pendenza, tessitura del suolo, copertura del suolo, ecc.)
Output: Immagazzinamento idrico terrestre (TWS) del mese corrente
Vincoli: Non utilizzo di valori storici di TWS come caratteristiche di input, simulando scenari di previsione reali
Design di confronto dataset: Valutazione delle prestazioni del modello a diversi livelli di non-stazionarietà attraverso il confronto tra versioni OL e DA
Framework di valutazione completo: Include esperimenti con diverse lunghezze di sequenza, passi di previsione e risoluzioni temporali
Analisi di interpretabilità: Utilizzo di valori SHAP e pesi di attenzione per analizzare il comportamento del modello
Strategia di confronto equo: Utilizzo della stessa funzione di perdita (perdita quantile) e metriche di valutazione
Vantaggi LSTM: Consistentemente superiori ai modelli fisici nella modellazione afflussi-deflussi, con capacità di elaborare dati sequenziali e generalizzazione tra bacini
Sviluppo Transformer: Introdotti in idrologia dopo il successo nell'elaborazione del linguaggio naturale, ma l'efficacia nei compiti di serie temporali rimane controversa
Problema del benchmark: La ricerca esistente spesso effettua confronti solo tra modelli di apprendimento profondo, mancando di confronti con metodi semplici
Robustezza della regressione lineare: Nei compiti di previsione TWS, la semplice regressione lineare è consistentemente superiore ai complessi modelli di apprendimento profondo
Importanza del benchmark: I metodi statistici tradizionali dovrebbero servire come benchmark importante nella valutazione dei modelli di apprendimento profondo
Criticità del dataset: È necessario un dataset benchmark globalmente rappresentativo che rifletta gli impatti naturali e antropogenici
Sfida della non-stazionarietà: Tutti i modelli affrontano difficoltà nel trattare la non-stazionarietà causata dagli impatti antropogenici
Specificità del compito: Le conclusioni potrebbero essere specifiche per il compito di previsione TWS e non necessariamente applicabili ad altre applicazioni idrologiche
Limitazioni delle caratteristiche: La mancanza di caratteristiche esplicite di intervento antropogenico (come volumi di prelievo per irrigazione) potrebbe limitare i vantaggi dei modelli di apprendimento profondo
Intervallo temporale: 18 anni di dati potrebbero essere insufficienti per valutare pienamente le dipendenze a lungo termine
Scala spaziale: L'aggregazione a scala di bacino potrebbe mascherare la complessità a scala sub-griglia
Limitazioni di generalizzazione: Le conclusioni si basano principalmente sul compito di previsione TWS, la cui applicabilità ad altre applicazioni idrologiche necessita di verifica
Selezione del modello: Sebbene siano stati selezionati modelli rappresentativi, non sono coperte tutte le architetture di apprendimento profondo più recenti
Ottimizzazione degli iperparametri: L'utilizzo degli stessi iperparametri in diversi esperimenti potrebbe non essere completamente equo
Assenza di vincoli fisici: Non è stato considerato il ruolo dei vincoli fisici nei modelli
L'articolo contiene una ricca bibliografia che copre importanti lavori in più campi inclusi apprendimento profondo, idrologia e telerilevamento, fornendo una base bibliografica completa per la ricerca correlata.
Valutazione Complessiva: Questo è un articolo di ricerca di alta qualità interdisciplinare che, attraverso una progettazione sperimentale rigorosa e un'analisi approfondita, sfida le ipotesi universali sull'apprendimento profondo nelle applicazioni idrologiche, sottolineando il valore dei metodi statistici tradizionali e l'importanza della selezione appropriata del benchmark. I risultati della ricerca hanno un significato metodologico importante sia per la comunità dell'idrologia che per quella dell'apprendimento automatico.