Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic
Umdenken beim Deep Learning: Lineare Regression bleibt ein Schlüssel-Benchmark bei der Vorhersage des terrestrischen Wasserspeichers
In den letzten Jahren wurden Maschinenlernverfahren wie Long Short-Term Memory (LSTM) und Transformer in hydrologischen Anwendungen weit verbreitet eingesetzt, zeigen hervorragende Leistungen in Deep-Learning-Modellen und übertreffen physikalische Modelle in verschiedenen Aufgaben. Jedoch bleibt die Überlegenheit dieser Methoden bei der Vorhersage von terrestrischen Oberflächenzuständen (wie terrestrischer Wasserspeicher TWS), die von natürlicher Variabilität und anthropogenen Veränderungen dominiert werden, unklar. Diese Studie nutzt den frei zugänglichen, global repräsentativen HydroGlobe-Datensatz – einschließlich einer auf Landoberflächen-Modellsimulationen basierenden Basis-Version und einer erweiterten Version mit Datenassimilation aus mehreren Fernerkundungsquellen – und zeigt, dass lineare Regression ein robuster Benchmark ist, der komplexere LSTM- und Temporal Fusion Transformer-Modelle bei TWS-Vorhersageaufgaben übertrifft. Die Ergebnisse unterstreichen die Bedeutung traditioneller statistischer Modelle als Benchmarks bei der Entwicklung und Bewertung von Deep-Learning-Modellen und betonen die kritische Notwendigkeit, global repräsentative Benchmark-Datensätze zu etablieren, die die kombinierten Auswirkungen natürlicher Variabilität und anthropogener Eingriffe erfassen können.
Terrestrischer Wasserspeicher (TWS) ist ein Schlüsselindicator für die globale Verfügbarkeit von Süßwasser und umfasst alle Formen von Landwasserkörpern wie Bodenfeuchte, Grundwasser, Oberflächenwasser und Schneebedeckung. Genaue TWS-Schätzungen sind entscheidend für den Ökosystemschutz, die landwirtschaftliche Unterstützung sowie Wasser- und Ernährungssicherheit.
Popularität des Deep Learning in der Hydrologie: Deep-Learning-Modelle wie LSTM und Transformer werden zunehmend in hydrologischen Anwendungen bevorzugt, besonders bei Aufgaben wie Niederschlags-Abfluss-Modellierung
Herausforderung der Nichtstationarität: TWS wird durch komplexe Wechselwirkungen zwischen Klimavariabilität und menschlichen Aktivitäten (wie Grundwasserentnahme, Landnutzungsänderung, Staudammoperation) beeinflusst und zeigt starke Nichtstationarität
Benchmark-Auswahlproblem: Bestehende Forschungen vergleichen oft nur zwischen Deep-Learning-Modellen, ohne Vergleiche mit einfachen statistischen Methoden
Datensatz-Limitierungen: Mangel an globalen Benchmark-Datensätzen, die natürliche und anthropogene Einflüsse umfassend widerspiegeln
LSTM-Limitierungen: Rechnerisch teuer bei langen Eingabesequenzen, begrenzte Fähigkeit zur Erfassung von Langzeitabhängigkeiten bei kürzeren Trainingssequenzen
Transformer-Herausforderungen: Der Self-Attention-Mechanismus ist von Natur aus permutationsinvariant, was zu Zeitinformationsverlust führen kann
Bewertungsverzerrung: Mangel an systematischen Vergleichen mit traditionellen statistischen Methoden
Systematischer Benchmark-Vergleich: Erstmaliger systematischer Vergleich der Leistung von linearer Regression, LSTM und Temporal Fusion Transformer (TFT) bei globalen TWS-Vorhersageaufgaben
HydroGlobe-Datensatz-Anwendung: Verwendung eines globalen hydrologischen Datensatzes mit zwei Versionen – natürliche Variabilität (OL) und anthropogene Einflüsse (DA)
Nachweis der Überlegenheit linearer Regression: Beweis, dass einfache lineare Regressionsmodelle komplexe Deep-Learning-Modelle bei TWS-Vorhersageaufgaben konsistent übertreffen
Nichtstationaritätsanalyse: Tiefgehende Analyse der Leistungsunterschiede verschiedener Modelle in nichtstationären Umgebungen
Betonung der Benchmark-Bedeutung: Hervorhebung der Wichtigkeit, traditionelle statistische Benchmarks in die Bewertung von Deep-Learning-Modellen einzubeziehen
Eingabe: Monatliche Merkmale der letzten 12 Monate (Niederschlag, Temperatur, Blattflächenindex LAI, Oberflächenbodenfeuchte SSMC) sowie statische Merkmale (Höhe, Neigung, Bodentextur, Landbedeckung usw.)
Ausgabe: Terrestrischer Wasserspeicher (TWS) des aktuellen Monats
Einschränkung: Keine Verwendung historischer TWS-Werte als Eingabemerkmal, um reale Vorhersageszenarien zu simulieren
LSTM-Vorteile: Konsistent besser als physikalische Modelle bei Niederschlags-Abfluss-Modellierung, mit Fähigkeit zur Verarbeitung von Sequenzdaten und zum Einzugsgebiet-übergreifenden Generalisieren
Transformer-Entwicklung: Nach Erfolg in der Verarbeitung natürlicher Sprache in die Hydrologie eingeführt, aber Effektivität bei Zeitreihen-Aufgaben ist umstritten
Benchmark-Problem: Bestehende Forschungen vergleichen oft nur zwischen Deep-Learning-Modellen, ohne Vergleiche mit einfachen Methoden
Robustheit der linearen Regression: Bei TWS-Vorhersageaufgaben übertrifft einfache lineare Regression konsistent komplexe Deep-Learning-Modelle
Bedeutung von Benchmarks: Traditionelle statistische Methoden sollten als wichtige Benchmarks bei der Bewertung von Deep-Learning-Modellen dienen
Kritikalität von Datensätzen: Notwendigkeit von global repräsentativen Datensätzen, die natürliche und anthropogene Einflüsse widerspiegeln
Nichtstationaritäts-Herausforderung: Alle Modelle haben Schwierigkeiten beim Umgang mit Nichtstationarität, die durch anthropogene Einflüsse verursacht wird
Aufgaben-Spezifität: Schlussfolgerungen könnten spezifisch für TWS-Vorhersageaufgaben sein und nicht unbedingt auf andere hydrologische Anwendungen anwendbar
Merkmals-Limitierungen: Mangel an expliziten anthropogenen Eingriffs-Merkmalen (wie Bewässerungsentnahmen) könnte die Vorteile von Deep-Learning-Modellen begrenzen
Zeitlicher Umfang: 18 Jahre Daten könnten nicht ausreichend sein, um Langzeitabhängigkeiten vollständig zu bewerten
Räumliche Skala: Einzugsgebiet-Aggregation könnte Komplexität auf Sub-Gitter-Skala verdecken
Generalisierungs-Limitierungen: Schlussfolgerungen basieren hauptsächlich auf TWS-Vorhersageaufgaben, Anwendbarkeit auf andere hydrologische Anwendungen muss verifiziert werden
Modellauswahl: Obwohl repräsentative Modelle ausgewählt wurden, werden nicht alle neuesten Deep-Learning-Architekturen abgedeckt
Hyperparameter-Optimierung: Verwendung identischer Hyperparameter in verschiedenen Experimenten könnte nicht vollständig fair sein
Fehlende physikalische Einschränkungen: Rolle physikalischer Einschränkungen in Modellen nicht berücksichtigt
Das Paper enthält umfangreiche Referenzen, die wichtige Arbeiten aus mehreren Bereichen wie Deep Learning, Hydrologie und Fernerkundung abdecken und eine umfassende Literaturgrundlage für verwandte Forschung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives interdisziplinäres Forschungspapier, das durch strenge experimentelle Gestaltung und tiefgehende Analyse allgemeine Annahmen über Deep-Learning-Anwendungen in der Hydrologie hinterfragt und den Wert traditioneller statistischer Methoden sowie die Bedeutung angemessener Benchmark-Auswahl unterstreicht. Die Forschungsergebnisse haben wichtige methodologische Bedeutung für sowohl die Hydrologie- als auch die Machine-Learning-Gemeinschaft.