2025-11-15T03:10:19.291336

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic

Umdenken beim Deep Learning: Lineare Regression bleibt ein Schlüssel-Benchmark bei der Vorhersage des terrestrischen Wasserspeichers

Grundinformationen

  • Paper-ID: 2510.10799
  • Titel: Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
  • Autoren: Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala
  • Klassifizierung: cs.LG physics.ao-ph physics.geo-ph
  • Institutionen: NASA Goddard Space Flight Center, Johns Hopkins University u.a.
  • Paper-Link: https://arxiv.org/abs/2510.10799

Zusammenfassung

In den letzten Jahren wurden Maschinenlernverfahren wie Long Short-Term Memory (LSTM) und Transformer in hydrologischen Anwendungen weit verbreitet eingesetzt, zeigen hervorragende Leistungen in Deep-Learning-Modellen und übertreffen physikalische Modelle in verschiedenen Aufgaben. Jedoch bleibt die Überlegenheit dieser Methoden bei der Vorhersage von terrestrischen Oberflächenzuständen (wie terrestrischer Wasserspeicher TWS), die von natürlicher Variabilität und anthropogenen Veränderungen dominiert werden, unklar. Diese Studie nutzt den frei zugänglichen, global repräsentativen HydroGlobe-Datensatz – einschließlich einer auf Landoberflächen-Modellsimulationen basierenden Basis-Version und einer erweiterten Version mit Datenassimilation aus mehreren Fernerkundungsquellen – und zeigt, dass lineare Regression ein robuster Benchmark ist, der komplexere LSTM- und Temporal Fusion Transformer-Modelle bei TWS-Vorhersageaufgaben übertrifft. Die Ergebnisse unterstreichen die Bedeutung traditioneller statistischer Modelle als Benchmarks bei der Entwicklung und Bewertung von Deep-Learning-Modellen und betonen die kritische Notwendigkeit, global repräsentative Benchmark-Datensätze zu etablieren, die die kombinierten Auswirkungen natürlicher Variabilität und anthropogener Eingriffe erfassen können.

Forschungshintergrund und Motivation

Problemdefinition

Terrestrischer Wasserspeicher (TWS) ist ein Schlüsselindicator für die globale Verfügbarkeit von Süßwasser und umfasst alle Formen von Landwasserkörpern wie Bodenfeuchte, Grundwasser, Oberflächenwasser und Schneebedeckung. Genaue TWS-Schätzungen sind entscheidend für den Ökosystemschutz, die landwirtschaftliche Unterstützung sowie Wasser- und Ernährungssicherheit.

Forschungsmotivation

  1. Popularität des Deep Learning in der Hydrologie: Deep-Learning-Modelle wie LSTM und Transformer werden zunehmend in hydrologischen Anwendungen bevorzugt, besonders bei Aufgaben wie Niederschlags-Abfluss-Modellierung
  2. Herausforderung der Nichtstationarität: TWS wird durch komplexe Wechselwirkungen zwischen Klimavariabilität und menschlichen Aktivitäten (wie Grundwasserentnahme, Landnutzungsänderung, Staudammoperation) beeinflusst und zeigt starke Nichtstationarität
  3. Benchmark-Auswahlproblem: Bestehende Forschungen vergleichen oft nur zwischen Deep-Learning-Modellen, ohne Vergleiche mit einfachen statistischen Methoden
  4. Datensatz-Limitierungen: Mangel an globalen Benchmark-Datensätzen, die natürliche und anthropogene Einflüsse umfassend widerspiegeln

Limitierungen bestehender Methoden

  1. LSTM-Limitierungen: Rechnerisch teuer bei langen Eingabesequenzen, begrenzte Fähigkeit zur Erfassung von Langzeitabhängigkeiten bei kürzeren Trainingssequenzen
  2. Transformer-Herausforderungen: Der Self-Attention-Mechanismus ist von Natur aus permutationsinvariant, was zu Zeitinformationsverlust führen kann
  3. Bewertungsverzerrung: Mangel an systematischen Vergleichen mit traditionellen statistischen Methoden

Kernbeiträge

  1. Systematischer Benchmark-Vergleich: Erstmaliger systematischer Vergleich der Leistung von linearer Regression, LSTM und Temporal Fusion Transformer (TFT) bei globalen TWS-Vorhersageaufgaben
  2. HydroGlobe-Datensatz-Anwendung: Verwendung eines globalen hydrologischen Datensatzes mit zwei Versionen – natürliche Variabilität (OL) und anthropogene Einflüsse (DA)
  3. Nachweis der Überlegenheit linearer Regression: Beweis, dass einfache lineare Regressionsmodelle komplexe Deep-Learning-Modelle bei TWS-Vorhersageaufgaben konsistent übertreffen
  4. Nichtstationaritätsanalyse: Tiefgehende Analyse der Leistungsunterschiede verschiedener Modelle in nichtstationären Umgebungen
  5. Betonung der Benchmark-Bedeutung: Hervorhebung der Wichtigkeit, traditionelle statistische Benchmarks in die Bewertung von Deep-Learning-Modellen einzubeziehen

Methodische Details

Aufgabendefinition

Eingabe: Monatliche Merkmale der letzten 12 Monate (Niederschlag, Temperatur, Blattflächenindex LAI, Oberflächenbodenfeuchte SSMC) sowie statische Merkmale (Höhe, Neigung, Bodentextur, Landbedeckung usw.) Ausgabe: Terrestrischer Wasserspeicher (TWS) des aktuellen Monats Einschränkung: Keine Verwendung historischer TWS-Werte als Eingabemerkmal, um reale Vorhersageszenarien zu simulieren

Modellarchitekturen

1. Lineare Regressionsmodelle

  • Linear_single (Basis-Modell): Für jedes Einzugsgebiet separat trainiertes lineares Regressionsmodell
  • Linear_glob: Globales lineares Modell, trainiert mit Daten aller Einzugsgebiete

Merkmalszusammensetzung:

  • Verzögerte zeitvariable Merkmale: 48 (historische Werte von Niederschlag, Temperatur, LAI, SSMC)
  • Monatliche kategorische Variablen: 11 (Proxy für Saisonalitätseffekte)
  • Trend-Merkmale: 1 (Zeitindex)

2. Deep-Learning-Modelle

  • LSTM: Einschichtiges LSTM-Netzwerk zur Verarbeitung zeitvarianter und statischer Eingaben
  • Temporal Fusion Transformer (TFT): Hybride Architektur, die LSTM-Einheiten und Multi-Head-Attention-Mechanismen kombiniert

Technische Innovationen

  1. Datensatz-Vergleichsdesign: Vergleich durch OL- und DA-Versionen zur Bewertung der Modellleistung unter verschiedenen Nichtstationaritätsgraden
  2. Umfassendes Bewertungsrahmenwerk: Experimente mit verschiedenen Sequenzlängen, Vorhersagehorizonten und zeitlichen Auflösungen
  3. Interpretabilitätsanalyse: Verwendung von SHAP-Werten und Attention-Gewichten zur Analyse des Modellverhaltens
  4. Faire Vergleichsstrategie: Verwendung derselben Verlustfunktion (Quantilverlust) und Bewertungsmetriken

Experimentelle Einrichtung

Datensatz

HydroGlobe-Datensatz:

  • Raum-Zeit-Bereich: 2003-2020, 10 km räumliche Auflösung, 515 globale Einzugsgebiete
  • OL-Version: Basis-Simulation basierend nur auf Noah-MP Landoberflächen-Modell
  • DA-Version: Datenassimilationsprodukt, das GRACE TWS, ESA CCI Bodenfeuchte und MODIS LAI integriert

Datenteilung:

  • Trainingsperiode: 2003-2015 (lineare Modelle); 2003-2012 (Deep-Learning-Modelle)
  • Validierungsperiode: 2013-2015 (nur Deep-Learning-Modelle)
  • Testperiode: 2016-2020

Bewertungsmetriken

  • Bias (Verzerrung): Systematischer Fehler
  • Root Mean Square Error (RMSE): Gesamtvorhersagegenauigkeit
  • Korrelationskoeffizient: Stärke der linearen Beziehung
  • Nash-Sutcliffe-Effizienz (NSE): Fähigkeit des Modells, Varianz zu erklären
  • Kling-Gupta-Effizienz (KGE): Umfassender Bewertungsindex

NSE-Berechnungsformel: NSE=1t=1T(ypredyobs)2t=1T(yobsyobs)2NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2}

KGE-Berechnungsformel: KGE=1(r1)2+(σpredσobs1)2+(μpredμobs1)2KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2}

Vergleichsmethoden

  • Traditionelle Methoden: Random Forest, LightGBM
  • Deep Learning: LSTM, Temporal Fusion Transformer
  • Benchmarks: Einzugsgebiet-spezifische und globale lineare Regression

Experimentelle Ergebnisse

Hauptergebnisse

Leistung auf OL-Datensatz

Linear_single übertrifft die anderen drei Modelle signifikant bei allen Bewertungsmetriken (außer Bias):

  • Beste Leistungsreihenfolge: Linear_single > TFT > LSTM > Linear_glob
  • TFT zeigt beste Leistung bei der Bias-Metrik, sogar besser als Linear_single
  • Linear_glob zeigt schlechteste Leistung, besonders bei Korrelations- und NSE-Metriken

Leistung auf DA-Datensatz

Linear_single übertrifft erneut andere Modelle, aber die Gesamtleistung nimmt ab:

  • Alle Modelle zeigen schlechtere Leistung auf DA-Datensatz als auf OL-Datensatz
  • Starke Nichtstationarität (stärker negative TWS-Trends) stellt eine Herausforderung für alle Modelle dar
  • LSTM zeigt die schlechteste Leistung beim Umgang mit starker Nichtstationarität

Räumliche Verteilungsanalyse

  • In Einzugsgebieten mit starken negativen TWS-Trends sind die besten Modelle hauptsächlich Linear_single oder TFT
  • LSTM hat Schwierigkeiten, Trends in Einzugsgebieten mit starker Nichtstationarität vorherzusagen

Ablationsstudien

Einfluss der Sequenzlänge

Tests mit verschiedenen Eingabesequenzlängen von 6-18 Monaten:

  • LSTM und TFT: Erhöhte Sequenzlänge führt nicht zu signifikanter Leistungsverbesserung
  • SHAP-Analyse: LSTM verlässt sich hauptsächlich auf die neuesten Zeitschritte, nutzt historische Informationen weniger
  • Attention-Analyse: TFT-Attention-Muster sind bei verschiedenen Sequenzlängen inkonsistent

Vorhersageaufgaben-Leistung

Experimente mit 1-6 Monaten Vorhersage:

  • Kurzfristvorhersage (≤3 Monate): Linear_single zeigt beste Leistung
  • Langfristvorhersage (>3 Monate): TFT-Leistung ist stabiler, übertrifft Linear_single
  • LSTM: Zeigt schlechteste Leistung bei allen Vorhersagehorizonten

Einfluss der zeitlichen Auflösung

Training mit Tagesdaten:

  • Trainingsdaten erhöhen sich von 55.620 auf 375.435 Punkte
  • Leistung aller Modelle verbessert sich nicht signifikant
  • Deutet darauf hin, dass Trainingsdatengröße nicht der limitierende Faktor ist

Nichtstationaritäts-Verarbeitungsmechanismus

Durch Entfernung der Zeitindex-Einbettung von TFT entdeckt:

  • Zeiteinbettung ist der Hauptmechanismus von TFT zur Nichtstationaritätsbehandlung
  • Nach Entfernung sinkt die Leistung in Einzugsgebieten mit signifikantem Abwärtstrend stark ab
  • Self-Attention-Mechanismus allein ist nicht ausreichend zur Nichtstationaritätsbehandlung

Vergleich mit Baum-Modellen

Random Forest und LightGBM im Vergleich zu Linear_single:

  • Linear_single übertrifft Baum-Modelle bei den meisten Metriken
  • Baum-Modelle zeigen schlechtere Leistung in Einzugsgebieten mit schwerwiegender Verteilungsverschiebung
  • Beweist, dass erhöhte Modellkomplexität nicht notwendigerweise zu besserer Leistung führt

Verwandte Arbeiten

Anwendung von Deep Learning in der Hydrologie

  1. LSTM-Vorteile: Konsistent besser als physikalische Modelle bei Niederschlags-Abfluss-Modellierung, mit Fähigkeit zur Verarbeitung von Sequenzdaten und zum Einzugsgebiet-übergreifenden Generalisieren
  2. Transformer-Entwicklung: Nach Erfolg in der Verarbeitung natürlicher Sprache in die Hydrologie eingeführt, aber Effektivität bei Zeitreihen-Aufgaben ist umstritten
  3. Benchmark-Problem: Bestehende Forschungen vergleichen oft nur zwischen Deep-Learning-Modellen, ohne Vergleiche mit einfachen Methoden

Zeitreihen-Vorhersage-Kontroverse

Neuere Forschungen stellen die Notwendigkeit von Transformers bei Zeitreihen-Aufgaben in Frage:

  • Permutationsinvarianz von Self-Attention kann zu Zeitinformationsverlust führen
  • Einfache Modelle können in bestimmten Aufgaben vergleichbare Leistung erreichen
  • Unterstreicht die Bedeutung der Auswahl angemessener Benchmarks

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Robustheit der linearen Regression: Bei TWS-Vorhersageaufgaben übertrifft einfache lineare Regression konsistent komplexe Deep-Learning-Modelle
  2. Bedeutung von Benchmarks: Traditionelle statistische Methoden sollten als wichtige Benchmarks bei der Bewertung von Deep-Learning-Modellen dienen
  3. Kritikalität von Datensätzen: Notwendigkeit von global repräsentativen Datensätzen, die natürliche und anthropogene Einflüsse widerspiegeln
  4. Nichtstationaritäts-Herausforderung: Alle Modelle haben Schwierigkeiten beim Umgang mit Nichtstationarität, die durch anthropogene Einflüsse verursacht wird

Limitierungen

  1. Aufgaben-Spezifität: Schlussfolgerungen könnten spezifisch für TWS-Vorhersageaufgaben sein und nicht unbedingt auf andere hydrologische Anwendungen anwendbar
  2. Merkmals-Limitierungen: Mangel an expliziten anthropogenen Eingriffs-Merkmalen (wie Bewässerungsentnahmen) könnte die Vorteile von Deep-Learning-Modellen begrenzen
  3. Zeitlicher Umfang: 18 Jahre Daten könnten nicht ausreichend sein, um Langzeitabhängigkeiten vollständig zu bewerten
  4. Räumliche Skala: Einzugsgebiet-Aggregation könnte Komplexität auf Sub-Gitter-Skala verdecken

Zukünftige Richtungen

  1. Feature Engineering: Entwicklung besserer Proxy-Variablen für anthropogene Aktivitäten
  2. Architektur-Innovation: Entwurf von Deep-Learning-Architekturen, die speziell Nichtstationarität behandeln
  3. Pre-Training-Strategien: Erforschung der Anwendung von Foundation Models in der Hydrologie
  4. Multi-Skalen-Modellierung: Integration von Informationen auf verschiedenen raum-zeitlichen Skalen

Tiefgehende Bewertung

Stärken

  1. Strenge Forschungsgestaltung: Systematische Vergleichsexperimente mit Analysen auf mehreren Dimensionen
  2. Hohe Datensatz-Qualität: HydroGlobe-Datensatz mit globaler Repräsentativität, einschließlich natürlicher und anthropogener Einflüsse
  3. Tiefgehende Analyse: Tiefgehende Modellverhaltenanalyse durch Interpretabilitätsmethoden wie SHAP-Werte und Attention-Gewichte
  4. Hoher praktischer Wert: Bietet wichtige methodologische Anleitung für Deep-Learning-Anwendungen in der Hydrologie
  5. Klare Darstellung: Logische Struktur, reichhaltige Abbildungen, leicht verständlich

Mängel

  1. Generalisierungs-Limitierungen: Schlussfolgerungen basieren hauptsächlich auf TWS-Vorhersageaufgaben, Anwendbarkeit auf andere hydrologische Anwendungen muss verifiziert werden
  2. Modellauswahl: Obwohl repräsentative Modelle ausgewählt wurden, werden nicht alle neuesten Deep-Learning-Architekturen abgedeckt
  3. Hyperparameter-Optimierung: Verwendung identischer Hyperparameter in verschiedenen Experimenten könnte nicht vollständig fair sein
  4. Fehlende physikalische Einschränkungen: Rolle physikalischer Einschränkungen in Modellen nicht berücksichtigt

Auswirkungen

  1. Akademischer Beitrag: Hinterfragt die Ansicht, dass Deep Learning in der Hydrologie "notwendigerweise überlegen" ist
  2. Methodologischer Wert: Unterstreicht die Bedeutung von Benchmark-Auswahl und fairen Vergleichen
  3. Praktische Anleitung: Bietet Fachleuten in der Hydrologie wichtige Referenzen für Modellauswahl
  4. Datensatz-Beitrag: HydroGlobe-Datensatz bietet wertvolle Ressource für nachfolgende Forschung

Anwendungsszenarien

  1. Wassermanagement: Bietet Anleitung zur Werkzeugauswahl für Wassermanagement-Abteilungen bei TWS-Vorhersage
  2. Klimaauswirkungsbewertung: Bewertung der Auswirkungen von Klimawandel und menschlichen Aktivitäten auf den Wasserkreislauf
  3. Extremereignis-Frühwarnung: Frühzeitige Warnung vor hydrologischen Extremereignissen wie Überschwemmungen und Dürren
  4. Akademische Forschung: Bietet Benchmark und Datensatz für Forschung im Bereich Machine Learning in der Hydrologie

Referenzen

Das Paper enthält umfangreiche Referenzen, die wichtige Arbeiten aus mehreren Bereichen wie Deep Learning, Hydrologie und Fernerkundung abdecken und eine umfassende Literaturgrundlage für verwandte Forschung bieten.


Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das durch strenge experimentelle Gestaltung und tiefgehende Analyse allgemeine Annahmen über Deep-Learning-Anwendungen in der Hydrologie hinterfragt und den Wert traditioneller statistischer Methoden sowie die Bedeutung angemessener Benchmark-Auswahl unterstreicht. Die Forschungsergebnisse haben wichtige methodologische Bedeutung für sowohl die Hydrologie- als auch die Machine-Learning-Gemeinschaft.