2025-11-15T03:10:19.291336

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
academic

Replanteamiento del aprendizaje profundo: la regresión lineal sigue siendo un punto de referencia clave en la predicción del almacenamiento de agua terrestre

Información Básica

  • ID del Artículo: 2510.10799
  • Título: Replanteamiento del aprendizaje profundo: la regresión lineal sigue siendo un punto de referencia clave en la predicción del almacenamiento de agua terrestre
  • Autores: Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala
  • Clasificación: cs.LG physics.ao-ph physics.geo-ph
  • Instituciones: Centro de Vuelos Espaciales Goddard de la NASA, Universidad Johns Hopkins, etc.
  • Enlace del Artículo: https://arxiv.org/abs/2510.10799

Resumen

En años recientes, técnicas de aprendizaje automático como redes de memoria a corto y largo plazo (LSTM) y Transformers se han adoptado ampliamente en aplicaciones hidrológicas, demostrando un desempeño excepcional en modelos de aprendizaje profundo y superando modelos físicos en diversas tareas. Sin embargo, la superioridad de estos métodos sigue siendo incierta en la predicción del estado de la superficie terrestre (como el almacenamiento de agua terrestre, TWS) dominado por múltiples factores incluyendo variabilidad natural e impactos antropogénicos. Este estudio utiliza el conjunto de datos HydroGlobe de acceso abierto y representativo a nivel global—incluyendo una versión de referencia basada únicamente en simulaciones de modelos de superficie terrestre y una versión avanzada que fusiona asimilación de datos de múltiples fuentes de teledetección—para demostrar que la regresión lineal es un punto de referencia robusto que supera modelos LSTM y Transformers de fusión temporal más complejos en tareas de predicción de TWS. Los resultados enfatizan la importancia de utilizar modelos estadísticos tradicionales como puntos de referencia al desarrollar y evaluar modelos de aprendizaje profundo, e highlighting la necesidad crítica de establecer conjuntos de datos de referencia representativos a nivel global que capturen los efectos combinados de la variabilidad natural e intervención antropogénica.

Contexto de Investigación y Motivación

Definición del Problema

El almacenamiento de agua terrestre (TWS) es un indicador clave de la disponibilidad global de agua dulce, incluyendo todas las formas de cuerpos de agua terrestres como humedad del suelo, agua subterránea, agua superficial y nieve. Las estimaciones precisas de TWS son críticas para la protección de ecosistemas, apoyo agrícola y seguridad hídrica y alimentaria.

Motivación de la Investigación

  1. Popularidad del aprendizaje profundo en hidrología: Modelos de aprendizaje profundo como LSTM y Transformers son cada vez más populares en aplicaciones hidrológicas, particularmente demostrando un desempeño excepcional en tareas como modelado de lluvia-escorrentía
  2. Desafío de no estacionariedad: TWS está influenciado por interacciones complejas de variabilidad climática y actividades humanas (como extracción de agua subterránea, cambios de uso del suelo, operación de embalses), exhibiendo fuerte no estacionariedad
  3. Problema de selección de puntos de referencia: La investigación existente a menudo compara solo entre modelos de aprendizaje profundo, careciendo de contraste con métodos estadísticos simples
  4. Limitaciones del conjunto de datos: Falta de conjuntos de datos de referencia global que reflejen integralmente impactos naturales y antropogénicos

Limitaciones de Métodos Existentes

  1. Limitaciones de LSTM: Computacionalmente costoso en secuencias de entrada largas, capacidad limitada para capturar dependencias a largo plazo cuando se entrena en secuencias más cortas
  2. Desafíos de Transformer: El mecanismo de autoatención es inherentemente invariante a permutaciones, lo que puede resultar en pérdida de información temporal
  3. Sesgo de evaluación: Falta de comparación sistemática con métodos estadísticos tradicionales

Contribuciones Principales

  1. Comparación sistemática de puntos de referencia: Primera comparación sistemática de regresión lineal, LSTM y Transformer de fusión temporal (TFT) en tareas de predicción de TWS a escala global
  2. Aplicación del conjunto de datos HydroGlobe: Utilización de un conjunto de datos hidrológico global que contiene dos versiones: variabilidad natural (OL) e impactos antropogénicos (DA)
  3. Demostración de superioridad de regresión lineal: Prueba de que modelos simples de regresión lineal superan consistentemente modelos complejos de aprendizaje profundo en tareas de predicción de TWS
  4. Análisis de no estacionariedad: Análisis profundo de diferencias en desempeño de diferentes modelos en entornos no estacionarios
  5. Énfasis en importancia de puntos de referencia: Énfasis en la importancia de incluir puntos de referencia estadísticos tradicionales en evaluación de modelos de aprendizaje profundo

Explicación Detallada de Métodos

Definición de Tareas

Entrada: Características mensuales de los últimos 12 meses (precipitación, temperatura, índice de área foliar LAI, humedad del suelo superficial SSMC) más características estáticas (elevación, pendiente, textura del suelo, cobertura del suelo, etc.) Salida: Almacenamiento de agua terrestre (TWS) del mes actual Restricción: No se utilizan valores históricos de TWS como características de entrada, simulando escenarios de predicción reales

Arquitecturas de Modelos

1. Modelo de Regresión Lineal

  • Linear_single (modelo de referencia): Modelo de regresión lineal entrenado individualmente para cada cuenca
  • Linear_glob: Modelo lineal global entrenado con datos de todas las cuencas

Composición de características:

  • Características variables en tiempo retrasadas: 48 (valores históricos de precipitación, temperatura, LAI, SSMC)
  • Variables categóricas mensuales: 11 (proxies de efectos estacionales)
  • Características de tendencia: 1 (índice temporal)

2. Modelos de Aprendizaje Profundo

  • LSTM: Red LSTM de una sola capa, procesando entradas variables en tiempo y estáticas
  • Transformer de Fusión Temporal (TFT): Arquitectura híbrida que combina unidades LSTM y mecanismo de atención multiencabezado

Puntos de Innovación Técnica

  1. Diseño de comparación de conjuntos de datos: Evaluación de desempeño de modelos bajo diferentes grados de no estacionariedad mediante versiones OL y DA
  2. Marco de evaluación integral: Experimentos incluyendo diferentes longitudes de secuencia, pasos de predicción y resoluciones temporales
  3. Análisis de interpretabilidad: Análisis de comportamiento de modelos utilizando valores SHAP y pesos de atención
  4. Estrategia de comparación justa: Utilización de la misma función de pérdida (pérdida de cuantiles) e indicadores de evaluación

Configuración Experimental

Conjunto de Datos

Conjunto de Datos HydroGlobe:

  • Rango espacio-temporal: 2003-2020, resolución espacial de 10 km, 515 cuencas globales
  • Versión OL: Simulación de referencia basada únicamente en modelo de superficie terrestre Noah-MP
  • Versión DA: Producto de asimilación de datos que fusiona TWS GRACE, humedad del suelo ESA CCI, LAI MODIS

División de datos:

  • Período de entrenamiento: 2003-2015 (modelos lineales); 2003-2012 (modelos de aprendizaje profundo)
  • Período de validación: 2013-2015 (solo modelos de aprendizaje profundo)
  • Período de prueba: 2016-2020

Indicadores de Evaluación

  • Sesgo (Bias): Error sistemático
  • Error Cuadrático Medio (RMSE): Precisión de predicción general
  • Coeficiente de Correlación (Correlation): Intensidad de relación lineal
  • Eficiencia Nash-Sutcliffe (NSE): Capacidad de explicación de varianza del modelo
  • Eficiencia Kling-Gupta (KGE): Indicador de evaluación integral

Fórmula de cálculo de NSE: NSE=1t=1T(ypredyobs)2t=1T(yobsyobs)2NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2}

Fórmula de cálculo de KGE: KGE=1(r1)2+(σpredσobs1)2+(μpredμobs1)2KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2}

Métodos de Comparación

  • Métodos tradicionales: Random Forest, LightGBM
  • Aprendizaje profundo: LSTM, Transformer de Fusión Temporal
  • Puntos de referencia: Regresión lineal específica de cuenca y global

Resultados Experimentales

Resultados Principales

Desempeño en Conjunto de Datos OL

Linear_single supera significativamente a los otros tres modelos en todos los indicadores de evaluación (excepto sesgo):

  • Orden de mejor desempeño: Linear_single > TFT > LSTM > Linear_glob
  • TFT demuestra mejor desempeño en indicador de sesgo, incluso superando Linear_single
  • Linear_glob muestra el peor desempeño, particularmente en indicadores de correlación y NSE

Desempeño en Conjunto de Datos DA

Linear_single nuevamente supera otros modelos, pero el desempeño general disminuye:

  • El desempeño de todos los modelos en conjunto de datos DA es inferior al conjunto OL
  • La fuerte no estacionariedad (tendencias de TWS más negativas) presenta desafíos para todos los modelos
  • LSTM muestra el peor desempeño en manejo de fuerte no estacionariedad

Análisis de Distribución Espacial

  • En cuencas con fuertes tendencias negativas de TWS, los mejores modelos son principalmente Linear_single o TFT
  • LSTM tiene dificultad prediciendo tendencias en cuencas que exhiben fuerte no estacionariedad

Experimentos de Ablación

Impacto de Longitud de Secuencia

Pruebas con diferentes longitudes de secuencia de entrada de 6-18 meses:

  • LSTM y TFT: El aumento de longitud de secuencia no mejora significativamente el desempeño
  • Análisis SHAP: LSTM depende principalmente de pasos temporales recientes, utilizando menos información histórica
  • Análisis de atención: Los patrones de atención de TFT son inconsistentes en diferentes longitudes de secuencia

Desempeño de Tareas de Predicción

Experimentos de predicción de 1-6 meses:

  • Predicción a corto plazo (≤3 meses): Linear_single muestra mejor desempeño
  • Predicción a largo plazo (>3 meses): El desempeño de TFT es más estable, superando Linear_single
  • LSTM: Muestra el peor desempeño en todos los pasos de predicción

Impacto de Resolución Temporal

Entrenamiento utilizando datos diarios:

  • Datos de entrenamiento aumentan de 55,620 a 375,435 puntos
  • El desempeño de todos los modelos no mejora significativamente
  • Indica que la escala de datos de entrenamiento no es un factor limitante

Mecanismo de Manejo de No Estacionariedad

Descubrimiento mediante eliminación de incrustación de índice temporal de TFT:

  • La incrustación temporal es el mecanismo principal de TFT para manejar no estacionariedad
  • Después de la eliminación, el desempeño disminuye significativamente en cuencas con tendencias de atenuación significativa
  • El mecanismo de autoatención por sí solo es insuficiente para manejar no estacionariedad

Comparación de Modelos de Árbol

Comparación de Random Forest y LightGBM con Linear_single:

  • Linear_single supera modelos de árbol en la mayoría de indicadores
  • Los modelos de árbol muestran peor desempeño en cuencas con cambio de distribución severo
  • Demuestra que aumentar complejidad del modelo no necesariamente mejora desempeño

Trabajo Relacionado

Aplicaciones de Aprendizaje Profundo en Hidrología

  1. Ventajas de LSTM: Supera consistentemente modelos físicos en modelado de lluvia-escorrentía, con capacidad de procesar datos secuenciales y generalización entre cuencas
  2. Desarrollo de Transformer: Introducido en hidrología tras éxito en procesamiento de lenguaje natural, pero la efectividad en tareas de series temporales es controvertida
  3. Problema de puntos de referencia: La investigación existente a menudo solo compara entre modelos de aprendizaje profundo, careciendo de contraste con métodos simples

Controversia en Predicción de Series Temporales

Investigación reciente cuestiona la necesidad de Transformers en tareas de series temporales:

  • La invariancia a permutaciones de autoatención puede resultar en pérdida de información temporal
  • Modelos simples pueden lograr desempeño comparable en ciertas tareas
  • Enfatiza la importancia de seleccionar puntos de referencia apropiados

Conclusiones y Discusión

Conclusiones Principales

  1. Robustez de regresión lineal: En tareas de predicción de TWS, la regresión lineal simple supera consistentemente modelos complejos de aprendizaje profundo
  2. Importancia de puntos de referencia: Los métodos estadísticos tradicionales deben servir como puntos de referencia importantes en evaluación de modelos de aprendizaje profundo
  3. Criticidad del conjunto de datos: Se necesitan conjuntos de datos de referencia representativos a nivel global que reflejen impactos naturales y antropogénicos
  4. Desafío de no estacionariedad: Todos los modelos enfrentan dificultades manejando no estacionariedad causada por impactos antropogénicos

Limitaciones

  1. Especificidad de tarea: Las conclusiones pueden ser específicas a tareas de predicción de TWS, no necesariamente aplicables a otras aplicaciones hidrológicas
  2. Limitación de características: La falta de características explícitas de intervención antropogénica (como volumen de extracción de riego) puede limitar ventajas de modelos de aprendizaje profundo
  3. Rango temporal: 18 años de datos pueden ser insuficientes para evaluar completamente dependencias a largo plazo
  4. Escala espacial: La agregación a escala de cuenca puede enmascarar complejidad a escala subgrid

Direcciones Futuras

  1. Ingeniería de características: Desarrollo de mejores variables proxy para actividades antropogénicas
  2. Innovación arquitectónica: Diseño de arquitecturas de aprendizaje profundo especializadas en manejo de no estacionariedad
  3. Estrategias de preentrenamiento: Exploración de aplicaciones de modelos base en hidrología
  4. Modelado multiescala: Integración de información en diferentes escalas espacio-temporales

Evaluación Profunda

Fortalezas

  1. Diseño de investigación riguroso: Experimentos de comparación sistemática, análisis en múltiples dimensiones
  2. Calidad de conjunto de datos alta: Conjunto de datos HydroGlobe con representatividad global, incluyendo impactos naturales y antropogénicos
  3. Análisis profundo: Análisis profundo de comportamiento de modelos mediante métodos de interpretabilidad como valores SHAP y pesos de atención
  4. Valor práctico alto: Proporciona orientación metodológica importante para aplicaciones de aprendizaje profundo en hidrología
  5. Escritura clara: Lógica clara, gráficos abundantes, fácil de entender

Insuficiencias

  1. Limitación de generalización: Las conclusiones se basan principalmente en tareas de predicción de TWS, la aplicabilidad a otras aplicaciones hidrológicas requiere verificación
  2. Selección de modelos: Aunque se seleccionan modelos representativos, no se cubren todas las arquitecturas de aprendizaje profundo más recientes
  3. Optimización de hiperparámetros: El uso de hiperparámetros idénticos en diferentes experimentos puede no ser completamente justo
  4. Falta de restricciones físicas: No se consideran los efectos de restricciones físicas en los modelos

Impacto

  1. Contribución académica: Desafía la noción de que el aprendizaje profundo es "necesariamente superior" en hidrología
  2. Valor metodológico: Enfatiza la importancia de selección de puntos de referencia y comparación justa
  3. Orientación práctica: Proporciona referencia importante para profesionales de hidrología en selección de modelos
  4. Contribución de conjunto de datos: El conjunto de datos HydroGlobe proporciona recurso valioso para investigación posterior

Escenarios Aplicables

  1. Gestión de recursos hídricos: Proporciona orientación a departamentos de gestión de recursos hídricos en selección de herramientas de predicción de TWS
  2. Evaluación de impacto climático: Evaluación de impactos de cambio climático y actividades humanas en ciclo hidrológico
  3. Alerta de eventos extremos: Alerta temprana de eventos hidrológicos extremos como inundaciones y sequías
  4. Investigación académica: Proporciona punto de referencia y conjunto de datos para investigación de aprendizaje automático en hidrología

Referencias

El artículo incluye referencias abundantes que cubren múltiples campos incluyendo aprendizaje profundo, hidrología y teledetección, proporcionando base bibliográfica integral para investigación relacionada.


Evaluación General: Este es un artículo de investigación de alta calidad interdisciplinaria que, mediante diseño experimental riguroso y análisis profundo, desafía suposiciones generales sobre aprendizaje profundo en aplicaciones hidrológicas, enfatizando el valor de métodos estadísticos tradicionales e importancia de selección apropiada de puntos de referencia. Los resultados tienen significado metodológico importante para comunidades de hidrología y aprendizaje automático.