Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
論文ID : 2510.10799タイトル : Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage著者 : Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala分類 : cs.LG physics.ao-ph physics.geo-ph所属機関 : NASA ゴダード宇宙飛行センター、ジョンズ・ホプキンス大学など論文リンク : https://arxiv.org/abs/2510.10799 近年、長短期記憶ネットワーク(LSTM)およびTransformerなどの機械学習技術が水文学的応用で広く採用され、深層学習モデルで優れた性能を示し、様々なタスクで物理モデルを上回っています。しかし、自然変動性と人為的駆動変化など複数の要因に支配される陸地表面状態(陸地水貯蔵量TWS)の予測において、これらの手法の優位性は依然として不明確です。本研究は、オープンアクセスの全球代表的なHydroGlobeデータセット(陸面モデルシミュレーションのみに基づくベースラインバージョンと、複数の遠隔センシングデータ同化を融合した高度なバージョンを含む)を使用して、線形回帰がTWS予測タスクにおいてより複雑なLSTMおよび時間融合Transformerを上回る堅牢なベンチマークであることを示しています。研究結果は、深層学習モデルの開発と評価において従来の統計モデルをベンチマークとして使用することの重要性を強調し、自然変動性と人為的介入の複合的影響を捉えることができる全球代表的なベンチマークデータセット構築の重要な必要性を強調しています。
陸地水貯蔵量(TWS)は全球淡水利用可能性の重要な指標であり、土壌水分、地下水、地表水、積雪など、すべての形態の陸地水体を含みます。正確なTWS推定は、生態系保全、農業支援、および水と食糧安全保障に不可欠です。
水文学における深層学習の普及 :LSTMおよびTransformerなどの深層学習モデルが水文学的応用でますます人気が高まっており、特に降雨流出モデリングなどのタスクで優れた性能を示しています非定常性の課題 :TWSは気候変動性と人間活動(地下水採取、土地利用変化、貯水池運用など)の複雑な相互作用の影響を受け、強い非定常性を示していますベンチマーク選択の問題 :既存研究は深層学習モデル間の比較に焦点を当てることが多く、単純な統計手法との比較が不足していますデータセットの制限 :自然および人為的影響を総合的に反映する全球ベンチマークデータセットが不足していますLSTMの限界 :長い入力シーケンスでの計算が高コストであり、短いシーケンスでの訓練時に長期依存性を捉える能力が限定されていますTransformerの課題 :自己注意メカニズムは本質的に順列不変であり、時間情報の喪失につながる可能性があります評価バイアス :従来の統計手法との体系的な比較が不足しています体系的なベンチマーク比較 :線形回帰、LSTM、および時間融合Transformer(TFT)の全球規模のTWS予測タスクにおける性能を初めて体系的に比較しましたHydroGlobeデータセットの応用 :自然変動性(OL)と人為的影響(DA)の両バージョンを含む全球水文データセットを使用しました線形回帰の優位性の実証 :単純な線形回帰モデルがTWS予測タスクにおいて複雑な深層学習モデルを一貫して上回ることを実証しました非定常性分析 :非定常環境における異なるモデルの性能差を詳細に分析しましたベンチマークの重要性の強調 :深層学習モデル評価における従来の統計ベンチマークの包含の重要性を強調しました入力 :過去12ヶ月の月次特徴(降水、気温、葉面積指数LAI、表層土壌水分SSMC)および静的特徴(標高、勾配、土壌質感、土地被覆など)
出力 :当月の陸地水貯蔵量(TWS)
制約 :TWSの履歴値を入力特徴として使用しない、実際の予測シナリオをシミュレート
Linear_single(ベースラインモデル) :各流域に対して個別に訓練された線形回帰モデルLinear_glob :すべての流域データを使用して訓練された全球線形モデル特徴構成:
ラグ付き時変特徴:48個(降水、気温、LAI、SSMCの履歴値) 月次カテゴリ変数:11個(季節性効果プロキシ) トレンド特徴:1個(時間インデックス) LSTM :単層LSTMネットワーク、時変および静的入力を処理時間融合Transformer(TFT) :LSTMユニットとマルチヘッド注意メカニズムを組み合わせたハイブリッドアーキテクチャデータセット対比設計 :OLおよびDA両バージョンを通じて、異なる非定常性レベルでのモデル性能を評価包括的評価フレームワーク :異なるシーケンス長、予測ステップ、時間分解能の実験を含む解釈可能性分析 :SHAP値および注意重みを使用したモデル動作分析公平な比較戦略 :同じ損失関数(分位数損失)および評価指標を使用HydroGlobeデータセット :
時空間範囲 :2003-2020年、10km空間分解能、全球515流域OLバージョン :Noah-MP陸面モデルのみに基づくベースラインシミュレーションDAバージョン :GRACE TWS、ESA CCI土壌水分、MODIS LAIを融合したデータ同化製品データ分割 :
訓練期間:2003-2015年(線形モデル);2003-2012年(深層学習モデル) 検証期間:2013-2015年(深層学習モデルのみ) テスト期間:2016-2020年 バイアス(Bias) :系統的誤差二乗平均平方根誤差(RMSE) :全体的予測精度相関係数(Correlation) :線形関係の強度Nash-Sutcliffe効率(NSE) :モデルの分散説明能力Kling-Gupta効率(KGE) :総合評価指標NSE計算式:
N S E = 1 − ∑ t = 1 T ( y p r e d − y o b s ) 2 ∑ t = 1 T ( y o b s − y o b s ‾ ) 2 NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2} NSE = 1 − ∑ t = 1 T ( y o b s − y o b s ) 2 ∑ t = 1 T ( y p re d − y o b s ) 2
KGE計算式:
K G E = 1 − ( r − 1 ) 2 + ( σ p r e d σ o b s − 1 ) 2 + ( μ p r e d μ o b s − 1 ) 2 KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2} K GE = 1 − ( r − 1 ) 2 + ( σ o b s σ p re d − 1 ) 2 + ( μ o b s μ p re d − 1 ) 2
従来の手法 :Random Forest、LightGBM深層学習 :LSTM、時間融合Transformerベースライン :流域特有および全球線形回帰Linear_singleは他の3つのモデルを全評価指標で大幅に上回りました(バイアスを除く):
最良性能順序 :Linear_single > TFT > LSTM > Linear_globTFTはバイアス指標で最良の性能を示し、Linear_singleさえ上回りました Linear_globは最悪の性能を示し、特に相関性とNSE指標で劣ります Linear_singleは再び他のモデルを上回りましたが、全体的性能は低下しました:
すべてのモデルのDA データセット性能はOLデータセットより劣ります 強い非定常性(より負のTWSトレンド)はすべてのモデルに課題をもたらします LSTMは強い非定常性の処理で最悪の性能を示しました 強い負のTWSトレンドを持つ流域では、最良のモデルは主にLinear_singleまたはTFTです LSTMは強い非定常性を示す流域のトレンド予測に困難を抱えています 6~18ヶ月の異なる入力シーケンス長をテスト:
LSTMおよびTFT :シーケンス長の増加は性能を大幅に向上させませんでしたSHAP分析 :LSTMは主に最近のタイムステップに依存し、履歴情報の利用が少なくなります注意分析 :TFTの注意パターンは異なるシーケンス長で一貫性がありません1~6ヶ月の予測実験:
短期予測(≤3ヶ月) :Linear_singleが最良の性能を示します長期予測(>3ヶ月) :TFT性能がより安定し、Linear_singleを上回りますLSTM :すべての予測ステップで最悪の性能を示します日次データを使用した訓練:
訓練データが55,620から375,435ポイントに増加 すべてのモデル性能は大幅に向上しませんでした 訓練データサイズが制限要因ではないことを示唆しています TFTの時間インデックス埋め込みを削除することで発見:
時間埋め込みはTFTが非定常性を処理する主要メカニズムです 削除後、顕著な減衰トレンド流域での性能が大幅に低下しました 自己注意メカニズム自体は非定常性処理に不十分です Random ForestおよびLightGBMとLinear_singleの比較:
Linear_singleはほとんどの指標でツリーモデルを上回ります ツリーモデルは分布シフトが深刻な流域でより悪い性能を示します モデルの複雑さの増加が必ずしも性能向上につながらないことを証明しています LSTMの利点 :降雨流出モデリングで物理モデルを一貫して上回り、シーケンスデータ処理、流域間の一般化能力を有しますTransformerの発展 :自然言語処理での成功後、水文学に導入されましたが、時系列タスクでの有効性については議論がありますベンチマークの問題 :既存研究は深層学習モデル間の比較に焦点を当てることが多く、単純な手法との比較が不足しています最近の研究はTransformerが時系列タスクで必要かどうかを疑問視しています:
自己注意の順列不変性は時間情報の喪失につながる可能性があります 単純なモデルが特定のタスクで同等の性能を達成できます 適切なベンチマーク選択の重要性を強調しています 線形回帰の堅牢性 :TWS予測タスクにおいて、単純な線形回帰は複雑な深層学習モデルを一貫して上回りますベンチマークの重要性 :従来の統計手法は深層学習モデル評価の重要なベンチマークとして機能すべきですデータセットの重要性 :自然および人為的影響を反映する全球代表的なデータセットが必要です非定常性の課題 :すべてのモデルは人為的影響による非定常性の処理に困難を抱えていますタスク特異性 :結論はTWS予測タスクに特有である可能性があり、他の水文学的応用には必ずしも適用できません特徴の制限 :明示的な人為的介入特徴(灌漑取水量など)の欠如は、深層学習モデルの利点を制限する可能性があります時間範囲 :18年のデータは長期依存性を十分に評価するには不十分である可能性があります空間スケール :流域スケール集計は亜グリッドスケールの複雑性を隠す可能性があります特徴エンジニアリング :人為的活動のより良いプロキシ変数の開発アーキテクチャ革新 :非定常性を特に処理する深層学習アーキテクチャの設計事前訓練戦略 :水文学における基礎モデルの応用の探索マルチスケールモデリング :異なる時空間スケールの情報の統合研究設計の厳密性 :複数の次元を含む体系的な比較実験データセット品質の高さ :HydroGlobeデータセットは全球代表性を有し、自然および人為的影響を含みます深い分析 :SHAP値、注意重みなどの解釈可能性手法による詳細なモデル動作分析実用的価値の高さ :水文学の深層学習応用に重要な方法論的ガイダンスを提供します明確な記述 :論理が明確で、図表が豊富で、理解しやすい一般化性の制限 :結論は主にTWS予測タスクに基づいており、他の水文学的応用への適用可能性は検証が必要ですモデル選択 :代表的なモデルを選択しましたが、最新のすべての深層学習アーキテクチャをカバーしていませんハイパーパラメータ最適化 :異なる実験で同じハイパーパラメータを使用することは十分に公平でない可能性があります物理的制約の欠如 :モデルにおける物理的制約の役割を考慮していません学術的貢献 :深層学習が水文学で「必然的に優れている」という観点に異議を唱えます方法論的価値 :ベンチマーク選択と公平な比較の重要性を強調します実践的ガイダンス :水文学の実務者にモデル選択の重要な参考を提供しますデータセット貢献 :HydroGlobeデータセットは後続研究に貴重なリソースを提供します水資源管理 :水資源管理部門にTWS予測ツール選択のガイダンスを提供します気候影響評価 :気候変動と人間活動が水循環に与える影響を評価します極端事象警報 :洪水と干ばつなどの水文極端事象の早期警報学術研究 :水文学の機械学習研究にベンチマークとデータセットを提供します論文は深層学習、水文学、遠隔センシングなど複数の分野の重要な研究を網羅した豊富な参考文献を含み、関連研究に包括的な文献基盤を提供しています。
総合評価 :これは厳密な実験設計と深い分析を通じて、水文学的応用における深層学習の一般的な仮定に異議を唱え、従来の統計手法の価値と適切なベンチマーク選択の重要性を強調する、高品質の学際的研究論文です。研究結果は水文学および機械学習コミュニティの両方に重要な方法論的意義を持ちます。