Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Wolniewicz, Kelebek, Mestici et al.
Operational forecasting of the ionosphere remains a critical space weather challenge due to sparse observations, complex coupling across geospatial layers, and a growing need for timely, accurate predictions that support Global Navigation Satellite System (GNSS), communications, aviation safety, as well as satellite operations. As part of the 2025 NASA Heliolab, we present a curated, open-access dataset that integrates diverse ionospheric and heliospheric measurements into a coherent, machine learning-ready structure, designed specifically to support next-generation forecasting models and address gaps in current operational frameworks. Our workflow integrates a large selection of data sources comprising Solar Dynamic Observatory data, solar irradiance indices (F10.7), solar wind parameters (velocity and interplanetary magnetic field), geomagnetic activity indices (Kp, AE, SYM-H), and NASA JPL's Global Ionospheric Maps of Total Electron Content (GIM-TEC). We also implement geospatially sparse data such as the TEC derived from the World-Wide GNSS Receiver Network and crowdsourced Android smartphone measurements. This novel heterogeneous dataset is temporally and spatially aligned into a single, modular data structure that supports both physical and data-driven modeling. Leveraging this dataset, we train and benchmark several spatiotemporal machine learning architectures for forecasting vertical TEC under both quiet and geomagnetically active conditions. This work presents an extensive dataset and modeling pipeline that enables exploration of not only ionospheric dynamics but also broader Sun-Earth interactions, supporting both scientific inquiry and operational forecasting efforts.
제목: Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
저자: Linnea M. Wolniewicz, Halil S. Kelebek, Simone Mestici, Michael D. Vergalla, Giacomo Acciarini, Bala Poduval, Olga Verkhoglyadova, Madhulika Guhathakurta, Thomas E. Berger, Atılım Güneş Baydin, Frank Soboczenski
기관: 하와이 마노아 대학교, 옥스포드 대학교, 로마 사피엔차 대학교, 자유 비행 연구소, ESA, 뉴햄프셔 대학교, NASA JPL, NASA 본부, 콜로라도 볼더 대학교, 요크 대학교 & 킹스 칼리지 런던
발표 시간/학회: NeurIPS 2025 Workshop: Machine Learning for the Physical Sciences
전리층의 운영 예보는 우주 날씨 분야의 핵심 과제이며, 주요 어려움은 희소한 관측 데이터, 지자기권 층 전체에 걸친 복잡한 결합, 그리고 전역 위성항법시스템(GNSS), 통신, 항공 안전 및 위성 운영을 지원하는 적시의 정확한 예측에 대한 증가하는 수요에서 비롯됩니다. 2025 NASA Heliolab 프로젝트의 일부로서, 본 논문은 다양한 전리층 및 태양권 측정 데이터를 일관된 머신러닝 준비 구조로 통합하는 신중하게 큐레이션된 개방 접근 데이터셋을 제시합니다. 이 데이터셋은 태양역학관측소(SDO) 데이터, 태양 복사 지수(F10.7), 태양풍 매개변수(속도 및 행성간 자기장), 지자기 활동 지수(Kp, AE, SYM-H) 및 NASA JPL의 전역 전리층 총전자함량 지도(GIM-TEC)를 포함한 다양한 데이터 소스를 통합합니다. 연구팀은 조용한 조건과 지자기 활동 조건 모두에서 수직 TEC 예측을 위해 여러 시공간 머신러닝 아키텍처를 훈련하고 벤치마크했으며, 이는 과학 연구 및 운영 예보를 지원합니다.
이 논문은 우주 날씨 예보 분야의 중요한 기반시설 기여입니다. 새로운 알고리즘을 제시하는 것이 아니라 더 근본적인 문제를 해결합니다: 머신러닝 연구를 위한 표준화된 고품질 데이터셋 제공. 이러한 기여는 AI 커뮤니티에서 종종 과소평가되지만, 실제로는 분야 진전을 추진하는 핵심입니다.
논문의 최대 가치는 다음과 같습니다:
연구 진입 장벽을 대폭 낮춰 더 많은 ML 연구자가 우주 날씨 연구에 참여 가능하게 함
통일된 벤치마크를 제공하여 서로 다른 방법의 비교를 가능하게 함
여러 수량급에 걸친 시공간 스케일 데이터를 통합하여 데이터 엔지니어링의 모범 사례 제시
후속 사용자에 대한 권장사항:
데이터 처리 코드를 주의 깊게 읽고 각 설계 선택 이해
구체적 응용에 따라 결측값 처리 전략 조정
특성 엔지니어링 시 물리 지식 결합
극단 사건의 클래스 불균형 문제 주의
예측의 합리성을 물리 모델과 비교 검증
이 연구는 전리층 예보의 "ImageNet 시대"를 위한 기초를 마련했으며, 일련의 혁신 연구를 촉발할 것으로 예상됩니다.