2025-11-15T03:10:19.291336

Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage

Nie, Kumar, Chen et al.

Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.

academic

Переосмысление глубокого обучения: линейная регрессия остается ключевым эталоном при прогнозировании запасов наземной воды

Основная информация

ID статьи: 2510.10799
Название: Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
Авторы: Wanshu Nie, Sujay V. Kumar, Junyu Chen, Long Zhao, Olya Skulovich, Jinwoong Yoo, Justin Pflug, Shahryar Khalique Ahmad, Goutam Konapala
Классификация: cs.LG physics.ao-ph physics.geo-ph
Учреждения: Центр космических полетов имени Годдарда NASA, Университет Джонса Хопкинса и др.
Ссылка на статью: https://arxiv.org/abs/2510.10799

Аннотация

В последние годы методы машинного обучения, такие как долгосрочная краткосрочная память (LSTM) и Transformer, широко применяются в гидрологических приложениях, демонстрируя превосходные результаты в моделях глубокого обучения и превосходя физические модели в различных задачах. Однако их превосходство при прогнозировании состояния земной поверхности (например, запасов наземной воды TWS), на которые влияют множество факторов, включая естественную изменчивость и антропогенные изменения, остается неясным. В данном исследовании используется открытый глобальный репрезентативный набор данных HydroGlobe, включающий базовую версию, основанную исключительно на моделировании земной поверхности, и расширенную версию с ассимиляцией многоисточниковых данных дистанционного зондирования. Результаты показывают, что линейная регрессия является надежным эталоном, превосходящим более сложные модели LSTM и временной Transformer при прогнозировании TWS. Исследование подчеркивает важность использования традиционных статистических моделей в качестве эталонов при разработке и оценке моделей глубокого обучения и подчеркивает критическую необходимость создания глобально репрезентативных наборов данных, способных отражать комплексное воздействие естественной изменчивости и антропогенного вмешательства.

Предпосылки и мотивация исследования

Определение проблемы

Запасы наземной воды (TWS) являются ключевым показателем глобальной доступности пресной воды, включая все формы наземных водных ресурсов: почвенную влагу, грунтовые воды, поверхностные воды и снежный покров. Точная оценка TWS имеет решающее значение для защиты экосистем, поддержки сельского хозяйства, а также обеспечения водной и продовольственной безопасности.

Мотивация исследования

Популярность глубокого обучения в гидрологии: модели глубокого обучения, такие как LSTM и Transformer, становятся все более популярными в гидрологических приложениях, особенно показывая превосходные результаты в задачах моделирования осадков и стока
Вызовы нестационарности: TWS подвергается сложному взаимодействию климатической изменчивости и деятельности человека (таких как откачка грунтовых вод, изменение землепользования, управление водохранилищами), проявляя сильную нестационарность
Проблема выбора эталона: существующие исследования часто проводят сравнения только между моделями глубокого обучения, не сравнивая их с простыми статистическими методами
Ограничения наборов данных: отсутствие глобальных эталонных наборов данных, комплексно отражающих естественное и антропогенное воздействие

Ограничения существующих методов

Ограничения LSTM: вычислительно дорогостоящие на длинных входных последовательностях, ограниченная способность захватывать долгосрочные зависимости при обучении на более коротких последовательностях
Вызовы Transformer: механизм самовнимания по своей природе инвариантен к перестановкам, что может привести к потере временной информации
Предвзятость оценки: отсутствие систематического сравнения с традиционными статистическими методами

Основные вклады

Систематическое сравнение эталонов: первое систематическое сравнение производительности линейной регрессии, LSTM и временного Transformer (TFT) в задаче глобального прогнозирования TWS
Применение набора данных HydroGlobe: использование глобального гидрологического набора данных с двумя версиями: естественной изменчивости (OL) и антропогенного воздействия (DA)
Доказательство превосходства линейной регрессии: демонстрация того, что простая модель линейной регрессии последовательно превосходит сложные модели глубокого обучения при прогнозировании TWS
Анализ нестационарности: углубленный анализ различий в производительности различных моделей при работе в нестационарной среде
Подчеркивание важности эталонов: акцент на важность включения традиционных статистических эталонов при оценке моделей глубокого обучения

Подробное описание методов

Определение задачи

Входные данные: ежемесячные характеристики за последние 12 месяцев (осадки, температура, индекс листовой поверхности LAI, влажность поверхностного слоя почвы SSMC) и статические характеристики (высота, уклон, текстура почвы, тип земного покрова и т.д.) Выходные данные: запасы наземной воды (TWS) в текущем месяце Ограничение: исторические значения TWS не используются в качестве входных признаков, что моделирует реальный сценарий прогнозирования

Архитектура моделей

1. Модель линейной регрессии

Linear_single (базовая модель): модель линейной регрессии, обученная отдельно для каждого водосбора
Linear_glob: глобальная линейная модель, обученная на данных всех водосборов

Состав признаков:

Запаздывающие временные признаки: 48 (исторические значения осадков, температуры, LAI, SSMC)
Месячные категориальные переменные: 11 (прокси сезонных эффектов)
Признаки тренда: 1 (временной индекс)

2. Модели глубокого обучения

LSTM: однослойная сеть LSTM, обрабатывающая временные и статические входные данные
Временной Transformer (TFT): гибридная архитектура, сочетающая единицы LSTM и многоголовый механизм внимания

Технические инновации

Дизайн сравнения наборов данных: сравнение двух версий OL и DA для оценки производительности моделей при различной степени нестационарности
Комплексная структура оценки: включает эксперименты с различными длинами последовательностей, горизонтами прогнозирования и временными разрешениями
Анализ интерпретируемости: использование значений SHAP и весов внимания для анализа поведения модели
Стратегия справедливого сравнения: использование одной и той же функции потерь (квантильная потеря) и метрик оценки

Экспериментальная установка

Набор данных

Набор данных HydroGlobe:

Пространственно-временной диапазон: 2003-2020 гг., пространственное разрешение 10 км, 515 глобальных водосборов
Версия OL: базовое моделирование, основанное исключительно на земной модели Noah-MP
Версия DA: продукт ассимиляции данных, объединяющий GRACE TWS, влажность почвы ESA CCI, LAI MODIS

Разделение данных:

Период обучения: 2003-2015 гг. (линейные модели); 2003-2012 гг. (модели глубокого обучения)
Период валидации: 2013-2015 гг. (только модели глубокого обучения)
Период тестирования: 2016-2020 гг.

Метрики оценки

Смещение (Bias): систематическая ошибка
Среднеквадратическая ошибка (RMSE): общая точность прогнозирования
Коэффициент корреляции (Correlation): сила линейной связи
Эффективность Нэша-Сатклиффа (NSE): способность модели объяснять дисперсию
Эффективность Клинга-Гупты (KGE): комплексный показатель оценки

Формула расчета NSE: $NSE = 1 - \frac{\sum_{t=1}^{T}(y_{pred} - y_{obs})^2}{\sum_{t=1}^{T}(y_{obs} - \overline{y_{obs}})^2}$

Формула расчета KGE: $KGE = 1 - \sqrt{(r-1)^2 + (\frac{\sigma_{pred}}{\sigma_{obs}}-1)^2 + (\frac{\mu_{pred}}{\mu_{obs}}-1)^2}$

Методы сравнения

Традиционные методы: Random Forest, LightGBM
Глубокое обучение: LSTM, временной Transformer
Эталоны: линейная регрессия, специфичная для водосбора и глобальная

Результаты экспериментов

Основные результаты

Производительность на наборе данных OL

Linear_single значительно превосходит три другие модели по всем метрикам оценки (кроме смещения):

Оптимальный порядок производительности: Linear_single > TFT > LSTM > Linear_glob
TFT показывает лучшие результаты по метрике смещения, даже превосходя Linear_single
Linear_glob показывает наихудшую производительность, особенно по метрикам корреляции и NSE

Производительность на наборе данных DA

Linear_single снова превосходит другие модели, но общая производительность снижается:

Производительность всех моделей на наборе данных DA хуже, чем на наборе данных OL
Сильная нестационарность (более отрицательные тренды TWS) представляет вызов для всех моделей
LSTM показывает наихудшую производительность при работе с сильной нестационарностью

Анализ пространственного распределения

В водосборах с сильными отрицательными трендами TWS лучшие модели - это в основном Linear_single или TFT
LSTM испытывает трудности при прогнозировании трендов в водосборах, проявляющих сильную нестационарность

Абляционные эксперименты

Влияние длины последовательности

Тестирование различных входных длин последовательности от 6 до 18 месяцев:

LSTM и TFT: увеличение длины последовательности не привело к значительному улучшению производительности
Анализ SHAP: LSTM в основном зависит от последних временных шагов, меньше используя историческую информацию
Анализ внимания: паттерны внимания TFT непоследовательны при различных длинах последовательности

Производительность задач прогнозирования

Эксперименты прогнозирования на 1-6 месяцев:

Краткосрочное прогнозирование (≤3 месяца): Linear_single показывает лучшие результаты
Долгосрочное прогнозирование (>3 месяца): производительность TFT более стабильна, превосходя Linear_single
LSTM: показывает наихудшую производительность при всех горизонтах прогнозирования

Влияние временного разрешения

Обучение с использованием дневных данных:

Данные обучения увеличиваются с 55,620 до 375,435 точек
Производительность всех моделей не улучшилась значительно
Указывает на то, что объем данных обучения не является ограничивающим фактором

Механизм обработки нестационарности

Обнаружено путем удаления временного встраивания индекса из TFT:

Временное встраивание является основным механизмом обработки нестационарности в TFT
После удаления производительность значительно снижается в водосборах со значительным убывающим трендом
Механизма самовнимания недостаточно для обработки нестационарности

Сравнение с древесными моделями

Сравнение Random Forest и LightGBM с Linear_single:

Linear_single превосходит древесные модели по большинству метрик
Древесные модели показывают худшую производительность в водосборах с серьезным сдвигом распределения
Доказывает, что увеличение сложности модели не обязательно улучшает производительность

Связанные работы

Применение глубокого обучения в гидрологии

Преимущества LSTM: последовательно превосходят физические модели при моделировании осадков и стока, обладают способностью обрабатывать последовательные данные и обобщаться между водосборами
Развитие Transformer: введены в гидрологию после успеха в обработке естественного языка, но эффективность при работе с временными рядами остается спорной
Проблема эталонов: существующие исследования часто проводят сравнения только между моделями глубокого обучения, не сравнивая с простыми методами

Споры о прогнозировании временных рядов

Недавние исследования ставят под сомнение необходимость Transformer при работе с временными рядами:

Инвариантность к перестановкам самовнимания может привести к потере временной информации
Простые модели могут достичь сравнимой производительности в некоторых задачах
Подчеркивается важность выбора надлежащих эталонов

Выводы и обсуждение

Основные выводы

Надежность линейной регрессии: простая линейная регрессия последовательно превосходит сложные модели глубокого обучения при прогнозировании TWS
Важность эталонов: традиционные статистические методы должны служить важными эталонами при оценке моделей глубокого обучения
Критичность набора данных: необходимы глобально репрезентативные наборы данных, отражающие естественное и антропогенное воздействие
Вызов нестационарности: все модели испытывают трудности при работе с нестационарностью, вызванной антропогенным воздействием

Ограничения

Специфичность задачи: выводы могут быть специфичны для задачи прогнозирования TWS и не обязательно применимы к другим гидрологическим приложениям
Ограничение признаков: отсутствие явных признаков антропогенного вмешательства (таких как объемы ирригационного водозабора) может ограничить преимущества моделей глубокого обучения
Временной диапазон: 18 лет данных может быть недостаточно для полной оценки долгосрочных зависимостей
Пространственный масштаб: агрегирование на уровне водосбора может скрывать сложность подсеточного масштаба

Будущие направления

Инженерия признаков: разработка лучших переменных-прокси для антропогенной деятельности
Архитектурные инновации: проектирование моделей глубокого обучения, специально предназначенных для обработки нестационарности
Стратегии предварительного обучения: исследование применения фундаментальных моделей в гидрологии
Многомасштабное моделирование: интеграция информации различных пространственно-временных масштабов

Углубленная оценка

Преимущества

Строгий дизайн исследования: систематические сравнительные эксперименты с анализом по нескольким измерениям
Высокое качество набора данных: набор данных HydroGlobe обладает глобальной репрезентативностью и включает естественное и антропогенное воздействие
Углубленный анализ: использование методов интерпретируемости, таких как значения SHAP и веса внимания, для глубокого анализа поведения модели
Высокая практическая ценность: предоставляет важное методологическое руководство для применения глубокого обучения в гидрологии
Ясное изложение: логичная структура, богатые диаграммы, облегчающие понимание

Недостатки

Ограничения обобщаемости: выводы в основном основаны на задаче прогнозирования TWS, применимость к другим гидрологическим приложениям требует проверки
Выбор модели: хотя выбраны репрезентативные модели, не охвачены все последние архитектуры глубокого обучения
Оптимизация гиперпараметров: использование одинаковых гиперпараметров в различных экспериментах может быть недостаточно справедливым
Отсутствие физических ограничений: не рассмотрено влияние физических ограничений в моделях

Влияние

Академический вклад: оспаривает точку зрения о "неизбежном превосходстве" глубокого обучения в гидрологии
Методологическая ценность: подчеркивает важность выбора эталонов и справедливого сравнения
Практическое руководство: предоставляет важный справочник для выбора моделей специалистам в области гидрологии
Вклад набора данных: набор данных HydroGlobe предоставляет ценный ресурс для последующих исследований

Применимые сценарии

Управление водными ресурсами: предоставляет руководство по выбору инструментов прогнозирования TWS для органов управления водными ресурсами
Оценка воздействия климата: оценка влияния изменения климата и деятельности человека на водный цикл
Предупреждение об экстремальных событиях: раннее предупреждение о гидрологических экстремальных событиях, таких как наводнения и засухи
Научные исследования: предоставляет эталоны и наборы данных для исследований машинного обучения в гидрологии

Библиография

Статья содержит богатую библиографию, охватывающую важные работы в области глубокого обучения, гидрологии, дистанционного зондирования и других областей, предоставляя комплексную основу для связанных исследований.

Общая оценка: Это высококачественная междисциплинарная исследовательская статья, которая посредством строгого экспериментального дизайна и углубленного анализа оспаривает общепринятые предположения о применении глубокого обучения в гидрологии, подчеркивая ценность традиционных статистических методов и важность надлежащего выбора эталонов. Результаты исследования имеют важное методологическое значение для сообществ гидрологии и машинного обучения.