Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Wolniewicz, Kelebek, Mestici et al.
Operational forecasting of the ionosphere remains a critical space weather challenge due to sparse observations, complex coupling across geospatial layers, and a growing need for timely, accurate predictions that support Global Navigation Satellite System (GNSS), communications, aviation safety, as well as satellite operations. As part of the 2025 NASA Heliolab, we present a curated, open-access dataset that integrates diverse ionospheric and heliospheric measurements into a coherent, machine learning-ready structure, designed specifically to support next-generation forecasting models and address gaps in current operational frameworks. Our workflow integrates a large selection of data sources comprising Solar Dynamic Observatory data, solar irradiance indices (F10.7), solar wind parameters (velocity and interplanetary magnetic field), geomagnetic activity indices (Kp, AE, SYM-H), and NASA JPL's Global Ionospheric Maps of Total Electron Content (GIM-TEC). We also implement geospatially sparse data such as the TEC derived from the World-Wide GNSS Receiver Network and crowdsourced Android smartphone measurements. This novel heterogeneous dataset is temporally and spatially aligned into a single, modular data structure that supports both physical and data-driven modeling. Leveraging this dataset, we train and benchmark several spatiotemporal machine learning architectures for forecasting vertical TEC under both quiet and geomagnetically active conditions. This work presents an extensive dataset and modeling pipeline that enables exploration of not only ionospheric dynamics but also broader Sun-Earth interactions, supporting both scientific inquiry and operational forecasting efforts.
academic
Connecter les Points : Un Ensemble de Données Prêt pour l'Apprentissage Automatique pour les Modèles de Prévision Ionosphérique
Titre : Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Auteurs : Linnea M. Wolniewicz, Halil S. Kelebek, Simone Mestici, Michael D. Vergalla, Giacomo Acciarini, Bala Poduval, Olga Verkhoglyadova, Madhulika Guhathakurta, Thomas E. Berger, Atılım Güneş Baydin, Frank Soboczenski
Institutions : University of Hawai'i at Mānoa, University of Oxford, Università degli Studi di Roma Sapienza, Free Flight Research Lab, ESA, University of New Hampshire, NASA JPL, NASA Headquarters, University of Colorado Boulder, University of York & King's College London
Date de Publication/Conférence : NeurIPS 2025 Workshop: Machine Learning for the Physical Sciences
La prévision opérationnelle de l'ionosphère constitue un défi clé dans le domaine de la météorologie spatiale, les principales difficultés provenant de données d'observation éparses, des couplages complexes entre les couches géospatiales, et de la demande croissante de prévisions opportunes et précises soutenant les systèmes mondiaux de navigation par satellite (GNSS), les communications, la sécurité aérienne et les opérations satellitaires. Dans le cadre du projet NASA Heliolab 2025, cet article propose un ensemble de données d'accès ouvert soigneusement organisé, intégrant des mesures ionosphériques et héliosphériques diversifiées dans une structure cohérente et prête pour l'apprentissage automatique. L'ensemble de données intègre plusieurs sources de données, notamment les données de l'Observatoire de Dynamique Solaire (SDO), les indices de rayonnement solaire (F10.7), les paramètres du vent solaire (vitesse et champ magnétique interplanétaire), les indices d'activité géomagnétique (Kp, AE, SYM-H) et les cartes mondiales de contenu électronique total (GIM-TEC) du JPL de la NASA. L'équipe de recherche a entraîné et établi des repères pour plusieurs architectures d'apprentissage automatique spatio-temporel, destinées à prévoir le TEC vertical dans des conditions géomagnétiquement calmes et actives, soutenant à la fois la recherche scientifique et les prévisions opérationnelles.
La prévision ionosphérique fait face à trois défis fondamentaux :
Parcimonie des données : Les données d'observation sont distribuées de manière inégale dans le temps et l'espace
Couplage multi-échelle : Interactions complexes entre l'activité solaire, la magnétosphère et le système ionosphère-thermosphère
Urgence des besoins opérationnels : Les infrastructures technologiques modernes (GNSS, constellations satellitaires, réseaux aériens, réseaux électriques) dépendent de plus en plus des prévisions de météorologie spatiale précises et opportunes
Les événements de météorologie spatiale (tels que les éruptions solaires et les éjections de masse coronale) peuvent entraîner :
Interruptions des opérations satellitaires
Dégradation de la précision du GNSS
Perturbations des communications radio
Défaillances du réseau électrique (comme l'événement de février 2022 ayant entraîné le retour de 38 satellites Starlink dans l'atmosphère)
Avec l'expansion rapide des constellations de satellites en orbite basse et l'approfondissement de la dépendance aux infrastructures spatiales, les prévisions ionosphériques précises deviennent essentielles.
Construire un ensemble de données normalisé prêt pour l'apprentissage automatique, intégrant des données d'observation hétérogènes provenant de multiples sources, unifiant les échelles spatio-temporelles, fournissant une base pour le développement, le test et l'établissement de repères pour les architectures ML avancées, réalisant finalement un jumeau numérique de l'ionosphère.
Construction du premier ensemble de données ionosphérique ML complet et prêt à l'emploi : Intégrant 8 sources de données principales, couvrant 14 ans de données d'observation multimodales de 2010 à 2024
Réalisation de l'alignement spatio-temporel de données hétérogènes :
Traitement des différences de fréquence temporelle entre sources de données (de 15 secondes à quotidien)
Unification de la représentation et des stratégies de traitement des valeurs manquantes
Fourniture de plusieurs options de résolution temporelle (jusqu'à 15 minutes)
Fourniture d'un catalogue d'événements de tempête géomagnétique (Échelle MESTICI) :
Basé sur l'indice Kp et les normes NOAA G-level
Considération de la durée des événements
Prévention de la fuite de données entre ensembles d'entraînement et de validation
Données et code open-source :
Compartiment de stockage public Google Cloud
Code de traitement open-source sur GitHub
Interface d'ensemble de données PyTorch
Établissement de repères pour plusieurs modèles ML (Série IonCast) :
Modèle de base LSTM
Modèle d'Opérateur Neuronal Sphérique (SFNO)
Modèle inspiré par GraphCast
Réalisation de prévisions avec 12 heures d'anticipation, surpassant la ligne de base de persistance
Référence Temporelle : Basée sur la plage de données SDO-FM (2010-05-13 à 2024-08-01)
Traitement des Valeurs Manquantes :
Normalisation de toutes les valeurs manquantes en NaN
Traitement des valeurs sentinelles non-standard de l'ensemble OMNI
Suppression des colonnes de caractéristiques contenant des lacunes massives
Stratégie de Remplissage Avant :
- Définition du temps de rembobinage maximal (max rewind time)
- Pour la plupart des flux de données : temps de rembobinage = fréquence native
- Exception OMNI : temps de rembobinage = 50 minutes
- Lacunes dépassant le temps de rembobinage : horodatage ignoré
Rééchantillonnage à Fréquence Unifiée : Utilisation du remplissage avant comme stratégie d'interpolation simple
Basée sur les normes NOAA G-level, combinée avec la durée des événements :
ID d'Événement
Plage Kp
Niveau NOAA
Durée
G0Hℓ
Kp < 5
Calme
ℓ heures
G1Hℓ
5 ≤ Kp < 6
Mineur
ℓ heures
G2Hℓ
6 ≤ Kp < 7
Modéré
ℓ heures
G3Hℓ
7 ≤ Kp < 8
Fort
ℓ heures
G4Hℓ
8 ≤ Kp < 9
Sévère
ℓ heures
G5Hℓ
Kp ≥ 9
Extrême
ℓ heures
Objectif : Assurer la validité physique de la validation des modèles, prévenant la dispersion des données d'une même tempête géomagnétique entre les ensembles d'entraînement et de validation causant une fuite de données.
L'article mentionne que les modèles « surpassent la ligne de base de persistance » (persistence baseline), mais ne liste pas les métriques spécifiques en détail. Les métriques courantes pour la prévision TEC incluent :
Cet article constitue une contribution importante d'infrastructure au domaine de la prévision de la météorologie spatiale. Il ne propose pas un nouvel algorithme, mais résout un problème plus fondamental : fournir un ensemble de données normalisé et de haute qualité pour la recherche en apprentissage automatique. Ce type de contribution est souvent sous-estimé dans la communauté de l'IA, mais c'est en réalité une clé pour faire progresser le domaine.
La valeur maximale de l'article réside dans :
Réduction significative des barrières à l'entrée, permettant à plus de chercheurs en ML de participer à la recherche en météorologie spatiale
Fourniture d'un repère unifié, rendant possible la comparaison systématique de différentes approches
Intégration de données couvrant plusieurs ordres de grandeur d'échelles spatio-temporelles, démontrant les meilleures pratiques de l'ingénierie des données
Recommandations pour les Utilisateurs Ultérieurs :
Lire attentivement le code de traitement des données, comprendre les choix de conception
Ajuster la stratégie de traitement des valeurs manquantes selon l'application spécifique
Effectuer l'ingénierie des caractéristiques en combinaison avec les connaissances physiques
Prêter attention au problème du déséquilibre des classes pour les événements extrêmes
Valider la raisonnabilité des prévisions en comparaison avec les modèles physiques
Ce travail jette les bases du « moment ImageNet » pour la prévision ionosphérique, devrait catalyser une série de recherches innovantes.