Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic
Repenser l'apprentissage profond : la régression linéaire reste un repère clé pour prédire le stockage terrestre de l'eau
Ces dernières années, les techniques d'apprentissage automatique telles que les réseaux de mémoire à long et court terme (LSTM) et les Transformers ont été largement adoptées dans les applications hydrologiques, démontrant des performances exceptionnelles dans les modèles d'apprentissage profond et surpassant les modèles physiques dans diverses tâches. Cependant, la supériorité de ces méthodes reste peu claire pour prédire l'état de la surface terrestre (comme le stockage terrestre de l'eau, TWS) dominé par de multiples facteurs tels que la variabilité naturelle et les changements anthropogéniques. Cette étude utilise l'ensemble de données HydroGlobe mondialement représentatif en accès libre — incluant une version de référence basée uniquement sur les simulations du modèle de surface terrestre et une version avancée intégrant l'assimilation de données de télédétection multisources — pour démontrer que la régression linéaire est un repère robuste, surpassant les modèles LSTM et Transformer de fusion temporelle plus complexes dans les tâches de prédiction du TWS. Les résultats soulignent l'importance d'utiliser les modèles statistiques traditionnels comme repères lors du développement et de l'évaluation des modèles d'apprentissage profond, et mettent en évidence le besoin critique d'établir des ensembles de données de référence mondialement représentatifs capables de capturer les effets combinés de la variabilité naturelle et des interventions anthropogéniques.
Le stockage terrestre de l'eau (TWS) est un indicateur clé de la disponibilité mondiale d'eau douce, englobant toutes les formes d'eau terrestre, notamment l'humidité du sol, les eaux souterraines, les eaux de surface et la neige accumulée. L'estimation précise du TWS est essentielle pour la protection des écosystèmes, le soutien agricole et la sécurité de l'eau et de l'alimentation.
Popularité de l'apprentissage profond en hydrologie : Les modèles d'apprentissage profond tels que les LSTM et les Transformers gagnent en popularité dans les applications hydrologiques, en particulier pour les tâches telles que la modélisation pluie-débit
Défi de la non-stationnarité : Le TWS est influencé par l'interaction complexe entre la variabilité climatique et les activités humaines (extraction d'eaux souterraines, changement d'utilisation des terres, exploitation des réservoirs), présentant une forte non-stationnarité
Problème de sélection des repères : Les études existantes comparent souvent uniquement les modèles d'apprentissage profond entre eux, manquant de comparaisons avec les méthodes statistiques simples
Limitations des ensembles de données : Absence d'ensembles de données de référence mondiaux qui reflètent de manière exhaustive les impacts naturels et anthropogéniques
Limitations des LSTM : Coûteux en calcul sur les longues séquences d'entrée, capacité limitée à capturer les dépendances à long terme lors de l'entraînement sur des séquences plus courtes
Défis des Transformers : Le mécanisme d'auto-attention est intrinsèquement invariant aux permutations, ce qui peut entraîner une perte d'informations temporelles
Biais d'évaluation : Absence de comparaison systématique avec les méthodes statistiques traditionnelles
Comparaison systématique des repères : Première comparaison systématique de la régression linéaire, des LSTM et du Transformer de fusion temporelle (TFT) pour les tâches de prédiction du TWS à l'échelle mondiale
Application de l'ensemble de données HydroGlobe : Utilisation d'un ensemble de données hydrologiques mondiaux contenant deux versions : variabilité naturelle (OL) et impacts anthropogéniques (DA)
Preuve de la supériorité de la régression linéaire : Démonstration que les modèles simples de régression linéaire surpassent systématiquement les modèles d'apprentissage profond complexes dans les tâches de prédiction du TWS
Analyse de la non-stationnarité : Analyse approfondie des différences de performance des modèles dans les environnements non-stationnaires
Accent sur l'importance des repères : Soulignement de l'importance d'inclure les repères statistiques traditionnels dans l'évaluation des modèles d'apprentissage profond
Entrées : Caractéristiques mensuelles des 12 mois précédents (précipitations, température, indice de surface foliaire LAI, humidité du sol de surface SSMC) ainsi que des caractéristiques statiques (élévation, pente, texture du sol, couverture terrestre, etc.)
Sorties : Stockage terrestre de l'eau (TWS) du mois courant
Contraintes : Pas d'utilisation des valeurs historiques du TWS comme caractéristiques d'entrée, simulant un scénario de prédiction réaliste
Avantages des LSTM : Surpassent systématiquement les modèles physiques dans la modélisation pluie-débit, avec capacité à traiter les données séquentielles et la généralisation entre bassins versants
Développement des Transformers : Introduits en hydrologie après leur succès en traitement du langage naturel, mais leur efficacité dans les tâches de séries temporelles reste controversée
Problème des repères : Les études existantes comparent souvent uniquement les modèles d'apprentissage profond, manquant de comparaisons avec les méthodes simples
Robustesse de la régression linéaire : Dans les tâches de prédiction du TWS, la régression linéaire simple surpasse systématiquement les modèles d'apprentissage profond complexes
Importance des repères : Les méthodes statistiques traditionnelles doivent servir de repères importants dans l'évaluation des modèles d'apprentissage profond
Criticité de l'ensemble de données : Nécessité d'ensembles de données de référence mondialement représentatifs reflétant les impacts naturels et anthropogéniques
Défi de la non-stationnarité : Tous les modèles font face à des difficultés dans le traitement de la non-stationnarité causée par les impacts anthropogéniques
Spécificité de la tâche : Les conclusions peuvent être spécifiques à la tâche de prédiction du TWS et ne pas s'appliquer nécessairement à d'autres applications hydrologiques
Limitation des caractéristiques : L'absence de caractéristiques explicites des interventions anthropogéniques (comme les volumes d'eau d'irrigation) peut limiter les avantages des modèles d'apprentissage profond
Étendue temporelle : 18 ans de données peuvent être insuffisants pour évaluer complètement les dépendances à long terme
Échelle spatiale : L'agrégation à l'échelle du bassin versant peut masquer la complexité à l'échelle sous-maille
Conception de recherche rigoureuse : Expériences de comparaison systématiques incluant des analyses multidimensionnelles
Qualité élevée de l'ensemble de données : L'ensemble de données HydroGlobe possède une représentativité mondiale et inclut les impacts naturels et anthropogéniques
Analyse approfondie : Analyse détaillée du comportement des modèles via des méthodes d'interprétabilité telles que les valeurs SHAP et les poids d'attention
Valeur pratique élevée : Fournit des orientations méthodologiques importantes pour les applications d'apprentissage profond en hydrologie
Rédaction claire : Logique claire, figures riches, facilitant la compréhension
Limitations de généralisation : Les conclusions sont principalement basées sur la tâche de prédiction du TWS, la validité pour d'autres applications hydrologiques nécessite vérification
Sélection des modèles : Bien que les modèles représentatifs aient été sélectionnés, tous les derniers architectures d'apprentissage profond ne sont pas couverts
Optimisation des hyperparamètres : L'utilisation des mêmes hyperparamètres dans différentes expériences peut ne pas être entièrement équitable
Absence de contraintes physiques : N'a pas considéré le rôle des contraintes physiques dans les modèles
L'article contient une riche bibliographie couvrant les travaux importants dans plusieurs domaines, notamment l'apprentissage profond, l'hydrologie et la télédétection, fournissant une base de littérature complète pour les recherches connexes.
Évaluation générale : Cet article est une recherche interdisciplinaire de haute qualité qui, par une conception expérimentale rigoureuse et une analyse approfondie, remet en question les hypothèses générales concernant l'application de l'apprentissage profond en hydrologie, soulignant la valeur des méthodes statistiques traditionnelles et l'importance de la sélection appropriée des repères. Les résultats de la recherche ont une importance méthodologique significative pour les communautés de l'hydrologie et de l'apprentissage automatique.