Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Wolniewicz, Kelebek, Mestici et al.
Operational forecasting of the ionosphere remains a critical space weather challenge due to sparse observations, complex coupling across geospatial layers, and a growing need for timely, accurate predictions that support Global Navigation Satellite System (GNSS), communications, aviation safety, as well as satellite operations. As part of the 2025 NASA Heliolab, we present a curated, open-access dataset that integrates diverse ionospheric and heliospheric measurements into a coherent, machine learning-ready structure, designed specifically to support next-generation forecasting models and address gaps in current operational frameworks. Our workflow integrates a large selection of data sources comprising Solar Dynamic Observatory data, solar irradiance indices (F10.7), solar wind parameters (velocity and interplanetary magnetic field), geomagnetic activity indices (Kp, AE, SYM-H), and NASA JPL's Global Ionospheric Maps of Total Electron Content (GIM-TEC). We also implement geospatially sparse data such as the TEC derived from the World-Wide GNSS Receiver Network and crowdsourced Android smartphone measurements. This novel heterogeneous dataset is temporally and spatially aligned into a single, modular data structure that supports both physical and data-driven modeling. Leveraging this dataset, we train and benchmark several spatiotemporal machine learning architectures for forecasting vertical TEC under both quiet and geomagnetically active conditions. This work presents an extensive dataset and modeling pipeline that enables exploration of not only ionospheric dynamics but also broader Sun-Earth interactions, supporting both scientific inquiry and operational forecasting efforts.
academic
Соединяя точки: готовый к машинному обучению набор данных для моделей прогнозирования ионосферы
Название: Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Авторы: Linnea M. Wolniewicz, Halil S. Kelebek, Simone Mestici, Michael D. Vergalla, Giacomo Acciarini, Bala Poduval, Olga Verkhoglyadova, Madhulika Guhathakurta, Thomas E. Berger, Atılım Güneş Baydin, Frank Soboczenski
Учреждения: Гавайский университет в Маноа, Оксфордский университет, Университет Ла Сапиенца в Риме, Free Flight Research Lab, ESA, Университет Нью-Гэмпшира, NASA JPL, Штаб-квартира NASA, Университет Колорадо Боулдер, Университет Йорка и Королевский колледж Лондона
Время публикации/конференция: Семинар NeurIPS 2025: Machine Learning for the Physical Sciences
Оперативное прогнозирование ионосферы является ключевой проблемой в области космической погоды, основные трудности которого вытекают из разреженных данных наблюдений, сложной связи между геопространственными слоями и растущей потребностью в своевременных и точных прогнозах для поддержки глобальных навигационных спутниковых систем (GNSS), коммуникаций, авиационной безопасности и спутниковых операций. В рамках проекта NASA Heliolab 2025 в данной работе предлагается тщательно подготовленный набор данных с открытым доступом, который интегрирует разнообразные измерения ионосферы и гелиосферы в согласованную структуру, готовую к машинному обучению. Набор данных объединяет данные Обсерватории солнечной динамики (SDO), индексы солнечного излучения (F10.7), параметры солнечного ветра (скорость и межпланетное магнитное поле), индексы геомагнитной активности (Kp, AE, SYM-H) и глобальные карты полного электронного содержания ионосферы (GIM-TEC) от NASA JPL и других источников. Исследовательская группа обучила и провела сравнительный анализ нескольких пространственно-временных архитектур машинного обучения для прогнозирования вертикального TEC в условиях спокойствия и геомагнитной активности, обеспечивая поддержку как научных исследований, так и оперативного прогнозирования.
Прогнозирование ионосферы сталкивается с тремя основными проблемами:
Разреженность данных: неравномерное распределение данных наблюдений во времени и пространстве
Многомасштабная связь: сложные взаимодействия между солнечной активностью, магнитосферой и системой ионосфера-термосфера
Срочность операционных потребностей: современная технологическая инфраструктура (GNSS, спутниковые созвездия, авиационные сети, электросети) все больше зависит от точного и своевременного прогнозирования космической погоды
События космической погоды (такие как солнечные вспышки, выбросы корональной массы) могут привести к:
Прерыванию спутниковых операций
Снижению точности GNSS
Повреждению радиосвязи
Отказам электросетей (например, событие февраля 2022 года, которое привело к возвращению 38 спутников Starlink в атмосферу)
С быстрым расширением созвездий спутников на низкой орбите (LEO) и углубляющейся зависимостью от космической инфраструктуры, точное прогнозирование ионосферы становится критически важным.
Построение стандартизированного набора данных, готового к машинному обучению, который интегрирует гетерогенные многоисточниковые данные наблюдений, унифицирует пространственно-временные масштабы и обеспечивает основу для разработки, тестирования и сравнительного анализа передовых архитектур ML, в конечном итоге реализуя цифровой двойник ионосферы.
Построен первый комплексный набор данных ML, готовый к использованию для ионосферы: интегрирует 8 основных источников данных, охватывая 14 лет мультимодальных данных наблюдений с 2010 по 2024 год
Временная база: основана на диапазоне данных SDO-FM (2010-05-13 до 2024-08-01)
Обработка пропущенных значений:
Стандартизация всех пропущенных значений как NaN
Обработка нестандартных дозорных значений в наборе данных OMNI
Удаление столбцов признаков с массовыми пропусками
Стратегия прямого заполнения:
- Определение максимального времени отката (max rewind time)
- Для большинства потоков данных: время отката = исходная частота
- Исключение OMNI: время отката = 50 минут
- Промежутки, превышающие время отката: пропуск временной метки
Переискусствление на единую частоту: использование прямого заполнения как простой стратегии интерполяции
На основе стандартов NOAA G-level в сочетании с продолжительностью события:
ID события
Диапазон Kp
Уровень NOAA
Продолжительность
G0Hℓ
Kp < 5
Спокойно
ℓ часов
G1Hℓ
5 ≤ Kp < 6
Незначительно
ℓ часов
G2Hℓ
6 ≤ Kp < 7
Умеренно
ℓ часов
G3Hℓ
7 ≤ Kp < 8
Сильно
ℓ часов
G4Hℓ
8 ≤ Kp < 9
Серьезно
ℓ часов
G5Hℓ
Kp ≥ 9
Экстремально
ℓ часов
Цель: обеспечение физической обоснованности валидации модели, предотвращение утечки данных одного события геомагнитной бури, распределенного между наборами обучения и валидации.
Статья упоминает, что модели "превосходят базовый прогноз по инерции" (persistence baseline), но не приводит подробный список конкретных метрик. Типичные метрики для прогнозирования TEC включают:
Эта статья представляет собой важный вклад в инфраструктуру в области прогнозирования космической погоды. Она не предлагает новый алгоритм, а решает более фундаментальную проблему: предоставление стандартизированного, высокого качества набора данных для исследований машинного обучения. Такой вклад часто недооценивается в сообществе AI, но на самом деле является ключом к продвижению области.
Наибольшая ценность статьи заключается в:
Значительном снижении барьера входа, позволяющем большему числу исследователей ML участвовать в исследованиях космической погоды
Предоставлении единой базы для сравнения, делающей возможным систематическое сравнение различных методов
Интеграции данных, охватывающих несколько порядков величины пространственно-временных масштабов, демонстрирующей лучшие практики инженерии данных
Рекомендации для последующих пользователей:
Тщательно изучить код обработки данных, понять различные выборы проектирования
Адаптировать стратегию обработки пропущенных значений в соответствии с конкретными приложениями
Проводить инженерию признаков с учетом физических знаний
Обратить внимание на проблему дисбаланса классов для экстремальных событий
Валидировать прогнозы с помощью сравнения с физическими моделями
Эта работа закладывает основу для "момента ImageNet" в прогнозировании ионосферы, предположительно催生 серию инновационных исследований.