2025-11-15T03:10:19.291336

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

Nie, Kumar, Chen et al.

Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.

academic

Repenser l'apprentissage profond : la régression linéaire reste un repère clé pour prédire le stockage terrestre de l'eau

Informations de base

ID de l'article : 2510.10799
Titre : Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
Auteurs : Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala
Classification : cs.LG physics.ao-ph physics.geo-ph
Institutions : Centre de vol spatial Goddard de la NASA, Université Johns Hopkins, etc.
Lien de l'article : https://arxiv.org/abs/2510.10799

Résumé

Ces dernières années, les techniques d'apprentissage automatique telles que les réseaux de mémoire à long et court terme (LSTM) et les Transformers ont été largement adoptées dans les applications hydrologiques, démontrant des performances exceptionnelles dans les modèles d'apprentissage profond et surpassant les modèles physiques dans diverses tâches. Cependant, la supériorité de ces méthodes reste peu claire pour prédire l'état de la surface terrestre (comme le stockage terrestre de l'eau, TWS) dominé par de multiples facteurs tels que la variabilité naturelle et les changements anthropogéniques. Cette étude utilise l'ensemble de données HydroGlobe mondialement représentatif en accès libre — incluant une version de référence basée uniquement sur les simulations du modèle de surface terrestre et une version avancée intégrant l'assimilation de données de télédétection multisources — pour démontrer que la régression linéaire est un repère robuste, surpassant les modèles LSTM et Transformer de fusion temporelle plus complexes dans les tâches de prédiction du TWS. Les résultats soulignent l'importance d'utiliser les modèles statistiques traditionnels comme repères lors du développement et de l'évaluation des modèles d'apprentissage profond, et mettent en évidence le besoin critique d'établir des ensembles de données de référence mondialement représentatifs capables de capturer les effets combinés de la variabilité naturelle et des interventions anthropogéniques.

Contexte et motivation de la recherche

Définition du problème

Le stockage terrestre de l'eau (TWS) est un indicateur clé de la disponibilité mondiale d'eau douce, englobant toutes les formes d'eau terrestre, notamment l'humidité du sol, les eaux souterraines, les eaux de surface et la neige accumulée. L'estimation précise du TWS est essentielle pour la protection des écosystèmes, le soutien agricole et la sécurité de l'eau et de l'alimentation.

Motivation de la recherche

Popularité de l'apprentissage profond en hydrologie : Les modèles d'apprentissage profond tels que les LSTM et les Transformers gagnent en popularité dans les applications hydrologiques, en particulier pour les tâches telles que la modélisation pluie-débit
Défi de la non-stationnarité : Le TWS est influencé par l'interaction complexe entre la variabilité climatique et les activités humaines (extraction d'eaux souterraines, changement d'utilisation des terres, exploitation des réservoirs), présentant une forte non-stationnarité
Problème de sélection des repères : Les études existantes comparent souvent uniquement les modèles d'apprentissage profond entre eux, manquant de comparaisons avec les méthodes statistiques simples
Limitations des ensembles de données : Absence d'ensembles de données de référence mondiaux qui reflètent de manière exhaustive les impacts naturels et anthropogéniques

Limitations des approches existantes

Limitations des LSTM : Coûteux en calcul sur les longues séquences d'entrée, capacité limitée à capturer les dépendances à long terme lors de l'entraînement sur des séquences plus courtes
Défis des Transformers : Le mécanisme d'auto-attention est intrinsèquement invariant aux permutations, ce qui peut entraîner une perte d'informations temporelles
Biais d'évaluation : Absence de comparaison systématique avec les méthodes statistiques traditionnelles

Contributions principales

Comparaison systématique des repères : Première comparaison systématique de la régression linéaire, des LSTM et du Transformer de fusion temporelle (TFT) pour les tâches de prédiction du TWS à l'échelle mondiale
Application de l'ensemble de données HydroGlobe : Utilisation d'un ensemble de données hydrologiques mondiaux contenant deux versions : variabilité naturelle (OL) et impacts anthropogéniques (DA)
Preuve de la supériorité de la régression linéaire : Démonstration que les modèles simples de régression linéaire surpassent systématiquement les modèles d'apprentissage profond complexes dans les tâches de prédiction du TWS
Analyse de la non-stationnarité : Analyse approfondie des différences de performance des modèles dans les environnements non-stationnaires
Accent sur l'importance des repères : Soulignement de l'importance d'inclure les repères statistiques traditionnels dans l'évaluation des modèles d'apprentissage profond

Détails méthodologiques

Définition de la tâche

Entrées : Caractéristiques mensuelles des 12 mois précédents (précipitations, température, indice de surface foliaire LAI, humidité du sol de surface SSMC) ainsi que des caractéristiques statiques (élévation, pente, texture du sol, couverture terrestre, etc.) Sorties : Stockage terrestre de l'eau (TWS) du mois courant Contraintes : Pas d'utilisation des valeurs historiques du TWS comme caractéristiques d'entrée, simulant un scénario de prédiction réaliste

Architectures des modèles

1. Modèle de régression linéaire

Linear_single (modèle de référence) : Modèle de régression linéaire entraîné séparément pour chaque bassin versant
Linear_glob : Modèle linéaire global entraîné sur les données de tous les bassins versants

Composition des caractéristiques :

Caractéristiques temporelles décalées : 48 (valeurs historiques des précipitations, température, LAI, SSMC)
Variables catégoriques mensuelles : 11 (proxy des effets saisonniers)
Caractéristiques de tendance : 1 (indice temporel)

2. Modèles d'apprentissage profond

LSTM : Réseau LSTM monocouche traitant les entrées temporelles et statiques
Transformer de fusion temporelle (TFT) : Architecture hybride combinant des unités LSTM et des mécanismes d'attention multi-têtes

Points d'innovation technique

Conception comparative des ensembles de données : Évaluation des modèles à différents niveaux de non-stationnarité via les versions OL et DA
Cadre d'évaluation complet : Expériences incluant différentes longueurs de séquence, horizons de prédiction et résolutions temporelles
Analyse d'interprétabilité : Utilisation des valeurs SHAP et des poids d'attention pour analyser le comportement des modèles
Stratégie de comparaison équitable : Utilisation de la même fonction de perte (perte quantile) et des mêmes métriques d'évaluation

Configuration expérimentale

Ensemble de données

Ensemble de données HydroGlobe :

Étendue spatio-temporelle : 2003-2020, résolution spatiale de 10 km, 515 bassins versants mondiaux
Version OL : Simulations de référence basées uniquement sur le modèle de surface terrestre Noah-MP
Version DA : Produits d'assimilation de données fusionnant TWS GRACE, humidité du sol ESA CCI, LAI MODIS

Division des données :

Période d'entraînement : 2003-2015 (modèles linéaires) ; 2003-2012 (modèles d'apprentissage profond)
Période de validation : 2013-2015 (modèles d'apprentissage profond uniquement)
Période de test : 2016-2020

Métriques d'évaluation

Biais (Bias) : Erreur systématique
Erreur quadratique moyenne (RMSE) : Précision globale de la prédiction
Coefficient de corrélation (Correlation) : Force de la relation linéaire
Efficacité Nash-Sutcliffe (NSE) : Capacité du modèle à expliquer la variance
Efficacité Kling-Gupta (KGE) : Métrique d'évaluation synthétique

Formule de calcul du NSE : $NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2}$

Formule de calcul du KGE : $KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2}$

Méthodes de comparaison

Méthodes traditionnelles : Random Forest, LightGBM
Apprentissage profond : LSTM, Transformer de fusion temporelle
Repères : Régression linéaire spécifique au bassin versant et globale

Résultats expérimentaux

Résultats principaux

Performance sur l'ensemble de données OL

Linear_single surpasse significativement les trois autres modèles sur tous les indicateurs d'évaluation (sauf le biais) :

Classement des meilleures performances : Linear_single > TFT > LSTM > Linear_glob
TFT affiche les meilleures performances sur l'indicateur de biais, surpassant même Linear_single
Linear_glob affiche les pires performances, particulièrement sur les indicateurs de corrélation et NSE

Performance sur l'ensemble de données DA

Linear_single surpasse à nouveau les autres modèles, mais la performance globale diminue :

Les performances de tous les modèles sur l'ensemble de données DA sont inférieures à celles de l'ensemble OL
La forte non-stationnarité (tendances TWS plus négatives) pose un défi à tous les modèles
Les LSTM affichent les pires performances dans le traitement de la forte non-stationnarité

Analyse de la distribution spatiale

Dans les bassins versants présentant des tendances TWS fortement négatives, les meilleurs modèles sont principalement Linear_single ou TFT
Les LSTM ont du mal à prédire les tendances des bassins versants présentant une forte non-stationnarité

Expériences d'ablation

Impact de la longueur de la séquence

Tests avec différentes longueurs de séquence d'entrée de 6 à 18 mois :

LSTM et TFT : L'augmentation de la longueur de la séquence n'améliore pas significativement les performances
Analyse SHAP : Les LSTM dépendent principalement des pas de temps récents, utilisant peu les informations historiques
Analyse d'attention : Les motifs d'attention du TFT sont incohérents selon les différentes longueurs de séquence

Performance des tâches de prédiction

Expériences de prédiction de 1 à 6 mois :

Prédiction à court terme (≤3 mois) : Linear_single affiche les meilleures performances
Prédiction à long terme (>3 mois) : Les performances du TFT sont plus stables, surpassant Linear_single
LSTM : Affiche les pires performances sur tous les horizons de prédiction

Impact de la résolution temporelle

Entraînement avec des données quotidiennes :

Les données d'entraînement augmentent de 55 620 à 375 435 points
Les performances de tous les modèles n'ont pas significativement amélioré
Indique que la taille des données d'entraînement n'est pas un facteur limitant

Mécanismes de traitement de la non-stationnarité

Découverte en supprimant l'intégration d'indice temporel du TFT :

L'intégration temporelle est le mécanisme principal du TFT pour traiter la non-stationnarité
Après suppression, les performances diminuent considérablement dans les bassins versants présentant une tendance d'atténuation significative
Le mécanisme d'auto-attention seul est insuffisant pour traiter la non-stationnarité

Comparaison avec les modèles arborescents

Comparaison de Random Forest et LightGBM avec Linear_single :

Linear_single surpasse les modèles arborescents sur la plupart des indicateurs
Les modèles arborescents affichent des performances plus mauvaises dans les bassins versants présentant un décalage de distribution sévère
Démontre que l'augmentation de la complexité du modèle n'améliore pas nécessairement les performances

Travaux connexes

Applications de l'apprentissage profond en hydrologie

Avantages des LSTM : Surpassent systématiquement les modèles physiques dans la modélisation pluie-débit, avec capacité à traiter les données séquentielles et la généralisation entre bassins versants
Développement des Transformers : Introduits en hydrologie après leur succès en traitement du langage naturel, mais leur efficacité dans les tâches de séries temporelles reste controversée
Problème des repères : Les études existantes comparent souvent uniquement les modèles d'apprentissage profond, manquant de comparaisons avec les méthodes simples

Controverse sur la prédiction de séries temporelles

Les recherches récentes remettent en question la nécessité des Transformers pour les tâches de séries temporelles :

L'invariance aux permutations de l'auto-attention peut entraîner une perte d'informations temporelles
Les modèles simples peuvent atteindre des performances comparables dans certaines tâches
Souligne l'importance de choisir des repères appropriés

Conclusions et discussion

Conclusions principales

Robustesse de la régression linéaire : Dans les tâches de prédiction du TWS, la régression linéaire simple surpasse systématiquement les modèles d'apprentissage profond complexes
Importance des repères : Les méthodes statistiques traditionnelles doivent servir de repères importants dans l'évaluation des modèles d'apprentissage profond
Criticité de l'ensemble de données : Nécessité d'ensembles de données de référence mondialement représentatifs reflétant les impacts naturels et anthropogéniques
Défi de la non-stationnarité : Tous les modèles font face à des difficultés dans le traitement de la non-stationnarité causée par les impacts anthropogéniques

Limitations

Spécificité de la tâche : Les conclusions peuvent être spécifiques à la tâche de prédiction du TWS et ne pas s'appliquer nécessairement à d'autres applications hydrologiques
Limitation des caractéristiques : L'absence de caractéristiques explicites des interventions anthropogéniques (comme les volumes d'eau d'irrigation) peut limiter les avantages des modèles d'apprentissage profond
Étendue temporelle : 18 ans de données peuvent être insuffisants pour évaluer complètement les dépendances à long terme
Échelle spatiale : L'agrégation à l'échelle du bassin versant peut masquer la complexité à l'échelle sous-maille

Directions futures

Ingénierie des caractéristiques : Développement de meilleures variables proxy pour les activités anthropogéniques
Innovation architecturale : Conception d'architectures d'apprentissage profond spécialisées pour traiter la non-stationnarité
Stratégies de pré-entraînement : Exploration de l'application des modèles de base en hydrologie
Modélisation multi-échelle : Intégration d'informations à différentes échelles spatio-temporelles

Évaluation approfondie

Points forts

Conception de recherche rigoureuse : Expériences de comparaison systématiques incluant des analyses multidimensionnelles
Qualité élevée de l'ensemble de données : L'ensemble de données HydroGlobe possède une représentativité mondiale et inclut les impacts naturels et anthropogéniques
Analyse approfondie : Analyse détaillée du comportement des modèles via des méthodes d'interprétabilité telles que les valeurs SHAP et les poids d'attention
Valeur pratique élevée : Fournit des orientations méthodologiques importantes pour les applications d'apprentissage profond en hydrologie
Rédaction claire : Logique claire, figures riches, facilitant la compréhension

Insuffisances

Limitations de généralisation : Les conclusions sont principalement basées sur la tâche de prédiction du TWS, la validité pour d'autres applications hydrologiques nécessite vérification
Sélection des modèles : Bien que les modèles représentatifs aient été sélectionnés, tous les derniers architectures d'apprentissage profond ne sont pas couverts
Optimisation des hyperparamètres : L'utilisation des mêmes hyperparamètres dans différentes expériences peut ne pas être entièrement équitable
Absence de contraintes physiques : N'a pas considéré le rôle des contraintes physiques dans les modèles

Impact

Contribution académique : Remet en question le point de vue que l'apprentissage profond est "nécessairement supérieur" en hydrologie
Valeur méthodologique : Souligne l'importance de la sélection des repères et de la comparaison équitable
Orientation pratique : Fournit une référence importante aux praticiens hydrologiques pour la sélection des modèles
Contribution d'ensemble de données : L'ensemble de données HydroGlobe fournit une ressource précieuse pour les recherches ultérieures

Scénarios d'application

Gestion des ressources en eau : Fournit des orientations aux services de gestion des ressources en eau pour le choix des outils de prédiction du TWS
Évaluation des impacts climatiques : Évaluation des impacts du changement climatique et des activités humaines sur le cycle hydrologique
Alerte aux événements extrêmes : Alerte précoce aux événements hydrologiques extrêmes tels que les inondations et les sécheresses
Recherche académique : Fournit des repères et des ensembles de données pour la recherche en apprentissage automatique en hydrologie

Références

L'article contient une riche bibliographie couvrant les travaux importants dans plusieurs domaines, notamment l'apprentissage profond, l'hydrologie et la télédétection, fournissant une base de littérature complète pour les recherches connexes.

Évaluation générale : Cet article est une recherche interdisciplinaire de haute qualité qui, par une conception expérimentale rigoureuse et une analyse approfondie, remet en question les hypothèses générales concernant l'application de l'apprentissage profond en hydrologie, soulignant la valeur des méthodes statistiques traditionnelles et l'importance de la sélection appropriée des repères. Les résultats de la recherche ont une importance méthodologique significative pour les communautés de l'hydrologie et de l'apprentissage automatique.