2025-11-15T03:10:19.291336

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

Nie, Kumar, Chen et al.

Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.

academic

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

基本信息

论文ID: 2510.10799
标题: Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
作者: Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala
分类: cs.LG physics.ao-ph physics.geo-ph
机构: NASA戈达德空间飞行中心、约翰霍普金斯大学等
论文链接: https://arxiv.org/abs/2510.10799

摘要

近年来，长短期记忆网络(LSTM)和Transformer等机器学习技术在水文应用中被广泛采用，在深度学习模型中表现出色，并在各种任务中超越了物理模型。然而，在预测受自然变异性和人为驱动变化等多种因素主导的陆地表面状态（如陆地水储量TWS）方面，这些方法的优越性仍不明确。本研究使用开放获取的全球代表性HydroGlobe数据集——包括仅基于陆面模型模拟的基准版本和融合多源遥感数据同化的高级版本——表明线性回归是一个稳健的基准，在TWS预测任务中优于更复杂的LSTM和时间融合Transformer。研究结果强调了在开发和评估深度学习模型时将传统统计模型作为基准的重要性，并强调了建立能够捕捉自然变异性和人为干预综合影响的全球代表性基准数据集的关键需求。

研究背景与动机

问题定义

陆地水储量(TWS)是全球淡水可用性的关键指标，包括土壤水分、地下水、地表水和积雪等所有形式的陆地水体。准确的TWS估计对生态系统保护、农业支持以及水和粮食安全至关重要。

研究动机

深度学习在水文学中的流行：LSTM和Transformer等深度学习模型在水文应用中越来越受欢迎，特别是在降雨径流建模等任务中表现出色
非平稳性挑战：TWS受到气候变异性和人类活动（如地下水开采、土地利用变化、水库运营）的复杂相互作用影响，表现出强烈的非平稳性
基准选择问题：现有研究往往只在深度学习模型之间进行比较，缺乏与简单统计方法的对比
数据集局限性：缺乏能够综合反映自然和人为影响的全球基准数据集

现有方法局限性

LSTM局限性：在长输入序列上计算昂贵，在较短序列训练时捕获长期依赖性的能力有限
Transformer挑战：自注意力机制本质上是排列不变的，可能导致时间信息丢失
评估偏见：缺乏与传统统计方法的系统性比较

核心贡献

系统性基准比较：首次系统比较了线性回归、LSTM和时间融合Transformer(TFT)在全球尺度TWS预测任务中的性能
HydroGlobe数据集应用：使用包含自然变异性(OL)和人为影响(DA)两个版本的全球水文数据集
线性回归优越性证明：证明简单的线性回归模型在TWS预测任务中一致优于复杂的深度学习模型
非平稳性分析：深入分析了不同模型在处理非平稳环境下的表现差异
基准重要性强调：强调了在深度学习模型评估中包含传统统计基准的重要性

方法详解

任务定义

输入：过去12个月的月度特征（降水、温度、叶面积指数LAI、表层土壤湿度SSMC）以及静态特征（高程、坡度、土壤质地、土地覆盖等）输出：当前月份的陆地水储量(TWS) 约束：不使用TWS的历史值作为输入特征，模拟实际预测场景

模型架构

1. 线性回归模型

Linear_single（基准模型）：为每个流域单独训练的线性回归模型
Linear_glob：使用所有流域数据训练的全局线性模型

特征构成：

滞后时变特征：48个（降水、温度、LAI、SSMC的历史值）
月度分类变量：11个（季节性效应代理）
趋势特征：1个（时间索引）

2. 深度学习模型

LSTM：单层LSTM网络，处理时变和静态输入
时间融合Transformer(TFT)：结合LSTM单元和多头注意力机制的混合架构

技术创新点

数据集对比设计：通过OL和DA两个版本对比，评估模型在不同非平稳性程度下的表现
全面评估框架：包括不同序列长度、预测步长和时间分辨率的实验
可解释性分析：使用SHAP值和注意力权重分析模型行为
公平比较策略：使用相同的损失函数（分位数损失）和评估指标

实验设置

数据集

HydroGlobe数据集：

时空范围：2003-2020年，10km空间分辨率，全球515个流域
OL版本：仅基于Noah-MP陆面模型的基准模拟
DA版本：融合GRACE TWS、ESA CCI土壤湿度、MODIS LAI的数据同化产品

数据划分：

训练期：2003-2015年（线性模型）；2003-2012年（深度学习模型）
验证期：2013-2015年（仅深度学习模型）
测试期：2016-2020年

评价指标

偏差(Bias)：系统性误差
均方根误差(RMSE)：整体预测精度
相关系数(Correlation)：线性关系强度
Nash-Sutcliffe效率(NSE)：模型解释方差能力
Kling-Gupta效率(KGE)：综合评估指标

NSE计算公式： $NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2}$

KGE计算公式： $KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2}$

对比方法

传统方法：Random Forest、LightGBM
深度学习：LSTM、时间融合Transformer
基准：流域特定和全局线性回归

实验结果

主要结果

OL数据集表现

Linear_single在所有评估指标上显著优于其他三个模型（除偏差外）：

最佳性能排序：Linear_single > TFT > LSTM > Linear_glob
TFT在偏差指标上表现最佳，甚至优于Linear_single
Linear_glob表现最差，特别是在相关性和NSE指标上

DA数据集表现

Linear_single再次优于其他模型，但整体性能下降：

所有模型在DA数据集上的性能都比OL数据集差
强非平稳性（更负的TWS趋势）对所有模型都构成挑战
LSTM在处理强非平稳性方面表现最差

空间分布分析

在具有强负TWS趋势的流域中，最佳模型主要是Linear_single或TFT
LSTM难以预测表现出强非平稳性的流域趋势

消融实验

序列长度影响

测试了6-18个月的不同输入序列长度：

LSTM和TFT：序列长度增加并未显著提升性能
SHAP分析：LSTM主要依赖最近时间步，较少利用历史信息
注意力分析：TFT的注意力模式在不同序列长度下不一致

预测任务表现

1-6个月的预测实验：

短期预测（≤3个月）：Linear_single表现最佳
长期预测（>3个月）：TFT性能更稳定，超越Linear_single
LSTM：在所有预测步长上表现最差

时间分辨率影响

使用日数据进行训练：

训练数据从55,620增加到375,435个点
所有模型性能都未显著提升
表明训练数据规模不是限制因素

非平稳性处理机制

通过移除TFT的时间索引嵌入发现：

时间嵌入是TFT处理非平稳性的主要机制
移除后在显著衰减趋势流域中性能大幅下降
自注意力机制本身不足以处理非平稳性

树模型对比

Random Forest和LightGBM与Linear_single比较：

Linear_single在大多数指标上优于树模型
树模型在分布偏移严重的流域表现更差
证明增加模型复杂度并不一定提升性能

相关工作

深度学习在水文学中的应用

LSTM优势：在降雨径流建模中一致优于物理模型，具有处理序列数据、跨流域泛化的能力
Transformer发展：在自然语言处理成功后被引入水文学，但在时间序列任务中的有效性存在争议
基准问题：现有研究往往只在深度学习模型间比较，缺乏与简单方法的对比

时间序列预测争议

近期研究质疑Transformer在时间序列任务中的必要性：

自注意力的排列不变性可能导致时间信息丢失
简单模型在某些任务中可达到comparable性能
强调了选择适当基准的重要性

结论与讨论

主要结论

线性回归的稳健性：在TWS预测任务中，简单的线性回归一致优于复杂的深度学习模型
基准的重要性：传统统计方法应作为深度学习模型评估的重要基准
数据集的关键性：需要反映自然和人为影响的全球代表性数据集
非平稳性挑战：所有模型在处理人为影响导致的非平稳性时都面临困难

局限性

任务特异性：结论可能特定于TWS预测任务，不一定适用于其他水文应用
特征限制：缺乏显式的人为干预特征（如灌溉取水量）可能限制了深度学习模型的优势
时间范围：18年的数据可能不足以充分评估长期依赖性
空间尺度：流域尺度聚合可能掩盖了亚网格尺度的复杂性

未来方向

特征工程：开发更好的人为活动代理变量
架构创新：设计专门处理非平稳性的深度学习架构
预训练策略：探索基础模型在水文学中的应用
多尺度建模：结合不同时空尺度的信息

深度评价

优点

研究设计严谨：系统性的对比实验，包含多个维度的分析
数据集质量高：HydroGlobe数据集具有全球代表性，包含自然和人为影响
分析深入：通过SHAP值、注意力权重等可解释性方法深入分析模型行为
实用价值高：为水文学深度学习应用提供了重要的方法论指导
写作清晰：逻辑清楚，图表丰富，便于理解

不足

泛化性限制：结论主要基于TWS预测任务，对其他水文应用的适用性需要验证
模型选择：虽然选择了代表性模型，但未涵盖所有最新的深度学习架构
超参数优化：不同实验使用相同超参数可能不够公平
物理约束缺失：未考虑物理约束在模型中的作用

影响力

学术贡献：挑战了深度学习在水文学中"必然优越"的观点
方法论价值：强调了基准选择和公平比较的重要性
实践指导：为水文学从业者提供了模型选择的重要参考
数据集贡献：HydroGlobe数据集为后续研究提供了宝贵资源

适用场景

水资源管理：为水资源管理部门提供TWS预测工具选择指导
气候影响评估：评估气候变化和人类活动对水循环的影响
极端事件预警：洪水和干旱等水文极端事件的早期预警
学术研究：为水文学机器学习研究提供基准和数据集

参考文献

论文包含了丰富的参考文献，涵盖了深度学习、水文学、遥感等多个领域的重要工作，为相关研究提供了全面的文献基础。

总体评价：这是一篇高质量的跨学科研究论文，通过严谨的实验设计和深入的分析，挑战了深度学习在水文学应用中的普遍假设，强调了传统统计方法的价值和适当基准选择的重要性。研究结果对水文学和机器学习社区都具有重要的方法论意义。