2025-11-15T03:10:19.291336

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic

Repenser l'apprentissage profond : la régression linéaire reste un repère clé pour prédire le stockage terrestre de l'eau

Informations de base

  • ID de l'article : 2510.10799
  • Titre : Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
  • Auteurs : Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala
  • Classification : cs.LG physics.ao-ph physics.geo-ph
  • Institutions : Centre de vol spatial Goddard de la NASA, Université Johns Hopkins, etc.
  • Lien de l'article : https://arxiv.org/abs/2510.10799

Résumé

Ces dernières années, les techniques d'apprentissage automatique telles que les réseaux de mémoire à long et court terme (LSTM) et les Transformers ont été largement adoptées dans les applications hydrologiques, démontrant des performances exceptionnelles dans les modèles d'apprentissage profond et surpassant les modèles physiques dans diverses tâches. Cependant, la supériorité de ces méthodes reste peu claire pour prédire l'état de la surface terrestre (comme le stockage terrestre de l'eau, TWS) dominé par de multiples facteurs tels que la variabilité naturelle et les changements anthropogéniques. Cette étude utilise l'ensemble de données HydroGlobe mondialement représentatif en accès libre — incluant une version de référence basée uniquement sur les simulations du modèle de surface terrestre et une version avancée intégrant l'assimilation de données de télédétection multisources — pour démontrer que la régression linéaire est un repère robuste, surpassant les modèles LSTM et Transformer de fusion temporelle plus complexes dans les tâches de prédiction du TWS. Les résultats soulignent l'importance d'utiliser les modèles statistiques traditionnels comme repères lors du développement et de l'évaluation des modèles d'apprentissage profond, et mettent en évidence le besoin critique d'établir des ensembles de données de référence mondialement représentatifs capables de capturer les effets combinés de la variabilité naturelle et des interventions anthropogéniques.

Contexte et motivation de la recherche

Définition du problème

Le stockage terrestre de l'eau (TWS) est un indicateur clé de la disponibilité mondiale d'eau douce, englobant toutes les formes d'eau terrestre, notamment l'humidité du sol, les eaux souterraines, les eaux de surface et la neige accumulée. L'estimation précise du TWS est essentielle pour la protection des écosystèmes, le soutien agricole et la sécurité de l'eau et de l'alimentation.

Motivation de la recherche

  1. Popularité de l'apprentissage profond en hydrologie : Les modèles d'apprentissage profond tels que les LSTM et les Transformers gagnent en popularité dans les applications hydrologiques, en particulier pour les tâches telles que la modélisation pluie-débit
  2. Défi de la non-stationnarité : Le TWS est influencé par l'interaction complexe entre la variabilité climatique et les activités humaines (extraction d'eaux souterraines, changement d'utilisation des terres, exploitation des réservoirs), présentant une forte non-stationnarité
  3. Problème de sélection des repères : Les études existantes comparent souvent uniquement les modèles d'apprentissage profond entre eux, manquant de comparaisons avec les méthodes statistiques simples
  4. Limitations des ensembles de données : Absence d'ensembles de données de référence mondiaux qui reflètent de manière exhaustive les impacts naturels et anthropogéniques

Limitations des approches existantes

  1. Limitations des LSTM : Coûteux en calcul sur les longues séquences d'entrée, capacité limitée à capturer les dépendances à long terme lors de l'entraînement sur des séquences plus courtes
  2. Défis des Transformers : Le mécanisme d'auto-attention est intrinsèquement invariant aux permutations, ce qui peut entraîner une perte d'informations temporelles
  3. Biais d'évaluation : Absence de comparaison systématique avec les méthodes statistiques traditionnelles

Contributions principales

  1. Comparaison systématique des repères : Première comparaison systématique de la régression linéaire, des LSTM et du Transformer de fusion temporelle (TFT) pour les tâches de prédiction du TWS à l'échelle mondiale
  2. Application de l'ensemble de données HydroGlobe : Utilisation d'un ensemble de données hydrologiques mondiaux contenant deux versions : variabilité naturelle (OL) et impacts anthropogéniques (DA)
  3. Preuve de la supériorité de la régression linéaire : Démonstration que les modèles simples de régression linéaire surpassent systématiquement les modèles d'apprentissage profond complexes dans les tâches de prédiction du TWS
  4. Analyse de la non-stationnarité : Analyse approfondie des différences de performance des modèles dans les environnements non-stationnaires
  5. Accent sur l'importance des repères : Soulignement de l'importance d'inclure les repères statistiques traditionnels dans l'évaluation des modèles d'apprentissage profond

Détails méthodologiques

Définition de la tâche

Entrées : Caractéristiques mensuelles des 12 mois précédents (précipitations, température, indice de surface foliaire LAI, humidité du sol de surface SSMC) ainsi que des caractéristiques statiques (élévation, pente, texture du sol, couverture terrestre, etc.) Sorties : Stockage terrestre de l'eau (TWS) du mois courant Contraintes : Pas d'utilisation des valeurs historiques du TWS comme caractéristiques d'entrée, simulant un scénario de prédiction réaliste

Architectures des modèles

1. Modèle de régression linéaire

  • Linear_single (modèle de référence) : Modèle de régression linéaire entraîné séparément pour chaque bassin versant
  • Linear_glob : Modèle linéaire global entraîné sur les données de tous les bassins versants

Composition des caractéristiques :

  • Caractéristiques temporelles décalées : 48 (valeurs historiques des précipitations, température, LAI, SSMC)
  • Variables catégoriques mensuelles : 11 (proxy des effets saisonniers)
  • Caractéristiques de tendance : 1 (indice temporel)

2. Modèles d'apprentissage profond

  • LSTM : Réseau LSTM monocouche traitant les entrées temporelles et statiques
  • Transformer de fusion temporelle (TFT) : Architecture hybride combinant des unités LSTM et des mécanismes d'attention multi-têtes

Points d'innovation technique

  1. Conception comparative des ensembles de données : Évaluation des modèles à différents niveaux de non-stationnarité via les versions OL et DA
  2. Cadre d'évaluation complet : Expériences incluant différentes longueurs de séquence, horizons de prédiction et résolutions temporelles
  3. Analyse d'interprétabilité : Utilisation des valeurs SHAP et des poids d'attention pour analyser le comportement des modèles
  4. Stratégie de comparaison équitable : Utilisation de la même fonction de perte (perte quantile) et des mêmes métriques d'évaluation

Configuration expérimentale

Ensemble de données

Ensemble de données HydroGlobe :

  • Étendue spatio-temporelle : 2003-2020, résolution spatiale de 10 km, 515 bassins versants mondiaux
  • Version OL : Simulations de référence basées uniquement sur le modèle de surface terrestre Noah-MP
  • Version DA : Produits d'assimilation de données fusionnant TWS GRACE, humidité du sol ESA CCI, LAI MODIS

Division des données :

  • Période d'entraînement : 2003-2015 (modèles linéaires) ; 2003-2012 (modèles d'apprentissage profond)
  • Période de validation : 2013-2015 (modèles d'apprentissage profond uniquement)
  • Période de test : 2016-2020

Métriques d'évaluation

  • Biais (Bias) : Erreur systématique
  • Erreur quadratique moyenne (RMSE) : Précision globale de la prédiction
  • Coefficient de corrélation (Correlation) : Force de la relation linéaire
  • Efficacité Nash-Sutcliffe (NSE) : Capacité du modèle à expliquer la variance
  • Efficacité Kling-Gupta (KGE) : Métrique d'évaluation synthétique

Formule de calcul du NSE : NSE=1t=1T(ypredyobs)2t=1T(yobsyobs)2NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2}

Formule de calcul du KGE : KGE=1(r1)2+(σpredσobs1)2+(μpredμobs1)2KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2}

Méthodes de comparaison

  • Méthodes traditionnelles : Random Forest, LightGBM
  • Apprentissage profond : LSTM, Transformer de fusion temporelle
  • Repères : Régression linéaire spécifique au bassin versant et globale

Résultats expérimentaux

Résultats principaux

Performance sur l'ensemble de données OL

Linear_single surpasse significativement les trois autres modèles sur tous les indicateurs d'évaluation (sauf le biais) :

  • Classement des meilleures performances : Linear_single > TFT > LSTM > Linear_glob
  • TFT affiche les meilleures performances sur l'indicateur de biais, surpassant même Linear_single
  • Linear_glob affiche les pires performances, particulièrement sur les indicateurs de corrélation et NSE

Performance sur l'ensemble de données DA

Linear_single surpasse à nouveau les autres modèles, mais la performance globale diminue :

  • Les performances de tous les modèles sur l'ensemble de données DA sont inférieures à celles de l'ensemble OL
  • La forte non-stationnarité (tendances TWS plus négatives) pose un défi à tous les modèles
  • Les LSTM affichent les pires performances dans le traitement de la forte non-stationnarité

Analyse de la distribution spatiale

  • Dans les bassins versants présentant des tendances TWS fortement négatives, les meilleurs modèles sont principalement Linear_single ou TFT
  • Les LSTM ont du mal à prédire les tendances des bassins versants présentant une forte non-stationnarité

Expériences d'ablation

Impact de la longueur de la séquence

Tests avec différentes longueurs de séquence d'entrée de 6 à 18 mois :

  • LSTM et TFT : L'augmentation de la longueur de la séquence n'améliore pas significativement les performances
  • Analyse SHAP : Les LSTM dépendent principalement des pas de temps récents, utilisant peu les informations historiques
  • Analyse d'attention : Les motifs d'attention du TFT sont incohérents selon les différentes longueurs de séquence

Performance des tâches de prédiction

Expériences de prédiction de 1 à 6 mois :

  • Prédiction à court terme (≤3 mois) : Linear_single affiche les meilleures performances
  • Prédiction à long terme (>3 mois) : Les performances du TFT sont plus stables, surpassant Linear_single
  • LSTM : Affiche les pires performances sur tous les horizons de prédiction

Impact de la résolution temporelle

Entraînement avec des données quotidiennes :

  • Les données d'entraînement augmentent de 55 620 à 375 435 points
  • Les performances de tous les modèles n'ont pas significativement amélioré
  • Indique que la taille des données d'entraînement n'est pas un facteur limitant

Mécanismes de traitement de la non-stationnarité

Découverte en supprimant l'intégration d'indice temporel du TFT :

  • L'intégration temporelle est le mécanisme principal du TFT pour traiter la non-stationnarité
  • Après suppression, les performances diminuent considérablement dans les bassins versants présentant une tendance d'atténuation significative
  • Le mécanisme d'auto-attention seul est insuffisant pour traiter la non-stationnarité

Comparaison avec les modèles arborescents

Comparaison de Random Forest et LightGBM avec Linear_single :

  • Linear_single surpasse les modèles arborescents sur la plupart des indicateurs
  • Les modèles arborescents affichent des performances plus mauvaises dans les bassins versants présentant un décalage de distribution sévère
  • Démontre que l'augmentation de la complexité du modèle n'améliore pas nécessairement les performances

Travaux connexes

Applications de l'apprentissage profond en hydrologie

  1. Avantages des LSTM : Surpassent systématiquement les modèles physiques dans la modélisation pluie-débit, avec capacité à traiter les données séquentielles et la généralisation entre bassins versants
  2. Développement des Transformers : Introduits en hydrologie après leur succès en traitement du langage naturel, mais leur efficacité dans les tâches de séries temporelles reste controversée
  3. Problème des repères : Les études existantes comparent souvent uniquement les modèles d'apprentissage profond, manquant de comparaisons avec les méthodes simples

Controverse sur la prédiction de séries temporelles

Les recherches récentes remettent en question la nécessité des Transformers pour les tâches de séries temporelles :

  • L'invariance aux permutations de l'auto-attention peut entraîner une perte d'informations temporelles
  • Les modèles simples peuvent atteindre des performances comparables dans certaines tâches
  • Souligne l'importance de choisir des repères appropriés

Conclusions et discussion

Conclusions principales

  1. Robustesse de la régression linéaire : Dans les tâches de prédiction du TWS, la régression linéaire simple surpasse systématiquement les modèles d'apprentissage profond complexes
  2. Importance des repères : Les méthodes statistiques traditionnelles doivent servir de repères importants dans l'évaluation des modèles d'apprentissage profond
  3. Criticité de l'ensemble de données : Nécessité d'ensembles de données de référence mondialement représentatifs reflétant les impacts naturels et anthropogéniques
  4. Défi de la non-stationnarité : Tous les modèles font face à des difficultés dans le traitement de la non-stationnarité causée par les impacts anthropogéniques

Limitations

  1. Spécificité de la tâche : Les conclusions peuvent être spécifiques à la tâche de prédiction du TWS et ne pas s'appliquer nécessairement à d'autres applications hydrologiques
  2. Limitation des caractéristiques : L'absence de caractéristiques explicites des interventions anthropogéniques (comme les volumes d'eau d'irrigation) peut limiter les avantages des modèles d'apprentissage profond
  3. Étendue temporelle : 18 ans de données peuvent être insuffisants pour évaluer complètement les dépendances à long terme
  4. Échelle spatiale : L'agrégation à l'échelle du bassin versant peut masquer la complexité à l'échelle sous-maille

Directions futures

  1. Ingénierie des caractéristiques : Développement de meilleures variables proxy pour les activités anthropogéniques
  2. Innovation architecturale : Conception d'architectures d'apprentissage profond spécialisées pour traiter la non-stationnarité
  3. Stratégies de pré-entraînement : Exploration de l'application des modèles de base en hydrologie
  4. Modélisation multi-échelle : Intégration d'informations à différentes échelles spatio-temporelles

Évaluation approfondie

Points forts

  1. Conception de recherche rigoureuse : Expériences de comparaison systématiques incluant des analyses multidimensionnelles
  2. Qualité élevée de l'ensemble de données : L'ensemble de données HydroGlobe possède une représentativité mondiale et inclut les impacts naturels et anthropogéniques
  3. Analyse approfondie : Analyse détaillée du comportement des modèles via des méthodes d'interprétabilité telles que les valeurs SHAP et les poids d'attention
  4. Valeur pratique élevée : Fournit des orientations méthodologiques importantes pour les applications d'apprentissage profond en hydrologie
  5. Rédaction claire : Logique claire, figures riches, facilitant la compréhension

Insuffisances

  1. Limitations de généralisation : Les conclusions sont principalement basées sur la tâche de prédiction du TWS, la validité pour d'autres applications hydrologiques nécessite vérification
  2. Sélection des modèles : Bien que les modèles représentatifs aient été sélectionnés, tous les derniers architectures d'apprentissage profond ne sont pas couverts
  3. Optimisation des hyperparamètres : L'utilisation des mêmes hyperparamètres dans différentes expériences peut ne pas être entièrement équitable
  4. Absence de contraintes physiques : N'a pas considéré le rôle des contraintes physiques dans les modèles

Impact

  1. Contribution académique : Remet en question le point de vue que l'apprentissage profond est "nécessairement supérieur" en hydrologie
  2. Valeur méthodologique : Souligne l'importance de la sélection des repères et de la comparaison équitable
  3. Orientation pratique : Fournit une référence importante aux praticiens hydrologiques pour la sélection des modèles
  4. Contribution d'ensemble de données : L'ensemble de données HydroGlobe fournit une ressource précieuse pour les recherches ultérieures

Scénarios d'application

  1. Gestion des ressources en eau : Fournit des orientations aux services de gestion des ressources en eau pour le choix des outils de prédiction du TWS
  2. Évaluation des impacts climatiques : Évaluation des impacts du changement climatique et des activités humaines sur le cycle hydrologique
  3. Alerte aux événements extrêmes : Alerte précoce aux événements hydrologiques extrêmes tels que les inondations et les sécheresses
  4. Recherche académique : Fournit des repères et des ensembles de données pour la recherche en apprentissage automatique en hydrologie

Références

L'article contient une riche bibliographie couvrant les travaux importants dans plusieurs domaines, notamment l'apprentissage profond, l'hydrologie et la télédétection, fournissant une base de littérature complète pour les recherches connexes.


Évaluation générale : Cet article est une recherche interdisciplinaire de haute qualité qui, par une conception expérimentale rigoureuse et une analyse approfondie, remet en question les hypothèses générales concernant l'application de l'apprentissage profond en hydrologie, soulignant la valeur des méthodes statistiques traditionnelles et l'importance de la sélection appropriée des repères. Les résultats de la recherche ont une importance méthodologique significative pour les communautés de l'hydrologie et de l'apprentissage automatique.