Rethinking deep learning: linear regression remains a key benchmark in predicting terrestrial water storage
Nie, Kumar, Chen et al.
Recent advances in machine learning such as Long Short-Term Memory (LSTM) models and Transformers have been widely adopted in hydrological applications, demonstrating impressive performance amongst deep learning models and outperforming physical models in various tasks. However, their superiority in predicting land surface states such as terrestrial water storage (TWS) that are dominated by many factors such as natural variability and human driven modifications remains unclear. Here, using the open-access, globally representative HydroGlobe dataset - comprising a baseline version derived solely from a land surface model simulation and an advanced version incorporating multi-source remote sensing data assimilation - we show that linear regression is a robust benchmark, outperforming the more complex LSTM and Temporal Fusion Transformer for TWS prediction. Our findings highlight the importance of including traditional statistical models as benchmarks when developing and evaluating deep learning models. Additionally, we emphasize the critical need to establish globally representative benchmark datasets that capture the combined impact of natural variability and human interventions.
최근 장단기 메모리 네트워크(LSTM)와 Transformer 등의 기계 학습 기술이 수문학 응용에 광범위하게 채택되어 심층 학습 모델에서 우수한 성능을 보이며 다양한 작업에서 물리 모델을 능가했습니다. 그러나 자연 변동성과 인위적 구동 변화 등 다양한 요인이 지배하는 육지 표면 상태(예: 육지 수자원 저장량 TWS) 예측에 있어 이러한 방법의 우월성은 여전히 불명확합니다. 본 연구는 개방 접근 가능한 전역 대표성 HydroGlobe 데이터셋을 사용하여—육지 표면 모델 시뮬레이션만을 기반으로 한 기준 버전과 다중 소스 원격 감지 데이터 동화를 융합한 고급 버전을 포함—선형 회귀가 TWS 예측 작업에서 더 복잡한 LSTM 및 시간 융합 Transformer보다 우수한 견고한 벤치마크임을 보여줍니다. 연구 결과는 심층 학습 모델을 개발하고 평가할 때 전통적 통계 모델을 벤치마크로 사용하는 것의 중요성을 강조하며, 자연 변동성과 인위적 개입의 종합적 영향을 포착할 수 있는 전역 대표성 기준 데이터셋 구축의 핵심 필요성을 강조합니다.
입력: 과거 12개월의 월별 특징(강수량, 온도, 엽면적지수 LAI, 표층 토양 수분 SSMC) 및 정적 특징(고도, 경사도, 토양 질감, 토지 피복 등)
출력: 현재 월의 육지 수자원 저장량(TWS)
제약: TWS의 과거 값을 입력 특징으로 사용하지 않으며, 실제 예측 시나리오를 시뮬레이션
논문은 심층 학습, 수문학, 원격 감지 등 다양한 분야의 중요 연구를 포함하는 풍부한 참고 문헌을 포함하며, 관련 연구에 포괄적인 문헌 기초를 제공합니다.
종합 평가: 이는 엄밀한 실험 설계와 심층 분석을 통해 심층 학습이 수문학 응용에서 보편적으로 우월하다는 가정에 도전하고, 전통적 통계 방법의 가치와 적절한 벤치마크 선택의 중요성을 강조하는 높은 품질의 학제 간 연구 논문입니다. 연구 결과는 수문학 및 기계 학습 커뮤니티 모두에 중요한 방법론적 의미를 가집니다.