Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic
Replanteamiento del aprendizaje profundo: la regresión lineal sigue siendo un punto de referencia clave en la predicción del almacenamiento de agua terrestre
Título: Replanteamiento del aprendizaje profundo: la regresión lineal sigue siendo un punto de referencia clave en la predicción del almacenamiento de agua terrestre
Autores: Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala
Clasificación: cs.LG physics.ao-ph physics.geo-ph
Instituciones: Centro de Vuelos Espaciales Goddard de la NASA, Universidad Johns Hopkins, etc.
En años recientes, técnicas de aprendizaje automático como redes de memoria a corto y largo plazo (LSTM) y Transformers se han adoptado ampliamente en aplicaciones hidrológicas, demostrando un desempeño excepcional en modelos de aprendizaje profundo y superando modelos físicos en diversas tareas. Sin embargo, la superioridad de estos métodos sigue siendo incierta en la predicción del estado de la superficie terrestre (como el almacenamiento de agua terrestre, TWS) dominado por múltiples factores incluyendo variabilidad natural e impactos antropogénicos. Este estudio utiliza el conjunto de datos HydroGlobe de acceso abierto y representativo a nivel global—incluyendo una versión de referencia basada únicamente en simulaciones de modelos de superficie terrestre y una versión avanzada que fusiona asimilación de datos de múltiples fuentes de teledetección—para demostrar que la regresión lineal es un punto de referencia robusto que supera modelos LSTM y Transformers de fusión temporal más complejos en tareas de predicción de TWS. Los resultados enfatizan la importancia de utilizar modelos estadísticos tradicionales como puntos de referencia al desarrollar y evaluar modelos de aprendizaje profundo, e highlighting la necesidad crítica de establecer conjuntos de datos de referencia representativos a nivel global que capturen los efectos combinados de la variabilidad natural e intervención antropogénica.
El almacenamiento de agua terrestre (TWS) es un indicador clave de la disponibilidad global de agua dulce, incluyendo todas las formas de cuerpos de agua terrestres como humedad del suelo, agua subterránea, agua superficial y nieve. Las estimaciones precisas de TWS son críticas para la protección de ecosistemas, apoyo agrícola y seguridad hídrica y alimentaria.
Popularidad del aprendizaje profundo en hidrología: Modelos de aprendizaje profundo como LSTM y Transformers son cada vez más populares en aplicaciones hidrológicas, particularmente demostrando un desempeño excepcional en tareas como modelado de lluvia-escorrentía
Desafío de no estacionariedad: TWS está influenciado por interacciones complejas de variabilidad climática y actividades humanas (como extracción de agua subterránea, cambios de uso del suelo, operación de embalses), exhibiendo fuerte no estacionariedad
Problema de selección de puntos de referencia: La investigación existente a menudo compara solo entre modelos de aprendizaje profundo, careciendo de contraste con métodos estadísticos simples
Limitaciones del conjunto de datos: Falta de conjuntos de datos de referencia global que reflejen integralmente impactos naturales y antropogénicos
Limitaciones de LSTM: Computacionalmente costoso en secuencias de entrada largas, capacidad limitada para capturar dependencias a largo plazo cuando se entrena en secuencias más cortas
Desafíos de Transformer: El mecanismo de autoatención es inherentemente invariante a permutaciones, lo que puede resultar en pérdida de información temporal
Sesgo de evaluación: Falta de comparación sistemática con métodos estadísticos tradicionales
Comparación sistemática de puntos de referencia: Primera comparación sistemática de regresión lineal, LSTM y Transformer de fusión temporal (TFT) en tareas de predicción de TWS a escala global
Aplicación del conjunto de datos HydroGlobe: Utilización de un conjunto de datos hidrológico global que contiene dos versiones: variabilidad natural (OL) e impactos antropogénicos (DA)
Demostración de superioridad de regresión lineal: Prueba de que modelos simples de regresión lineal superan consistentemente modelos complejos de aprendizaje profundo en tareas de predicción de TWS
Análisis de no estacionariedad: Análisis profundo de diferencias en desempeño de diferentes modelos en entornos no estacionarios
Énfasis en importancia de puntos de referencia: Énfasis en la importancia de incluir puntos de referencia estadísticos tradicionales en evaluación de modelos de aprendizaje profundo
Entrada: Características mensuales de los últimos 12 meses (precipitación, temperatura, índice de área foliar LAI, humedad del suelo superficial SSMC) más características estáticas (elevación, pendiente, textura del suelo, cobertura del suelo, etc.)
Salida: Almacenamiento de agua terrestre (TWS) del mes actual
Restricción: No se utilizan valores históricos de TWS como características de entrada, simulando escenarios de predicción reales
Diseño de comparación de conjuntos de datos: Evaluación de desempeño de modelos bajo diferentes grados de no estacionariedad mediante versiones OL y DA
Marco de evaluación integral: Experimentos incluyendo diferentes longitudes de secuencia, pasos de predicción y resoluciones temporales
Análisis de interpretabilidad: Análisis de comportamiento de modelos utilizando valores SHAP y pesos de atención
Estrategia de comparación justa: Utilización de la misma función de pérdida (pérdida de cuantiles) e indicadores de evaluación
Ventajas de LSTM: Supera consistentemente modelos físicos en modelado de lluvia-escorrentía, con capacidad de procesar datos secuenciales y generalización entre cuencas
Desarrollo de Transformer: Introducido en hidrología tras éxito en procesamiento de lenguaje natural, pero la efectividad en tareas de series temporales es controvertida
Problema de puntos de referencia: La investigación existente a menudo solo compara entre modelos de aprendizaje profundo, careciendo de contraste con métodos simples
Robustez de regresión lineal: En tareas de predicción de TWS, la regresión lineal simple supera consistentemente modelos complejos de aprendizaje profundo
Importancia de puntos de referencia: Los métodos estadísticos tradicionales deben servir como puntos de referencia importantes en evaluación de modelos de aprendizaje profundo
Criticidad del conjunto de datos: Se necesitan conjuntos de datos de referencia representativos a nivel global que reflejen impactos naturales y antropogénicos
Desafío de no estacionariedad: Todos los modelos enfrentan dificultades manejando no estacionariedad causada por impactos antropogénicos
Especificidad de tarea: Las conclusiones pueden ser específicas a tareas de predicción de TWS, no necesariamente aplicables a otras aplicaciones hidrológicas
Limitación de características: La falta de características explícitas de intervención antropogénica (como volumen de extracción de riego) puede limitar ventajas de modelos de aprendizaje profundo
Rango temporal: 18 años de datos pueden ser insuficientes para evaluar completamente dependencias a largo plazo
Escala espacial: La agregación a escala de cuenca puede enmascarar complejidad a escala subgrid
Limitación de generalización: Las conclusiones se basan principalmente en tareas de predicción de TWS, la aplicabilidad a otras aplicaciones hidrológicas requiere verificación
Selección de modelos: Aunque se seleccionan modelos representativos, no se cubren todas las arquitecturas de aprendizaje profundo más recientes
Optimización de hiperparámetros: El uso de hiperparámetros idénticos en diferentes experimentos puede no ser completamente justo
Falta de restricciones físicas: No se consideran los efectos de restricciones físicas en los modelos
Gestión de recursos hídricos: Proporciona orientación a departamentos de gestión de recursos hídricos en selección de herramientas de predicción de TWS
Evaluación de impacto climático: Evaluación de impactos de cambio climático y actividades humanas en ciclo hidrológico
Alerta de eventos extremos: Alerta temprana de eventos hidrológicos extremos como inundaciones y sequías
Investigación académica: Proporciona punto de referencia y conjunto de datos para investigación de aprendizaje automático en hidrología
El artículo incluye referencias abundantes que cubren múltiples campos incluyendo aprendizaje profundo, hidrología y teledetección, proporcionando base bibliográfica integral para investigación relacionada.
Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que, mediante diseño experimental riguroso y análisis profundo, desafía suposiciones generales sobre aprendizaje profundo en aplicaciones hidrológicas, enfatizando el valor de métodos estadísticos tradicionales e importancia de selección apropiada de puntos de referencia. Los resultados tienen significado metodológico importante para comunidades de hidrología y aprendizaje automático.