Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Wolniewicz, Kelebek, Mestici et al.
Operational forecasting of the ionosphere remains a critical space weather challenge due to sparse observations, complex coupling across geospatial layers, and a growing need for timely, accurate predictions that support Global Navigation Satellite System (GNSS), communications, aviation safety, as well as satellite operations. As part of the 2025 NASA Heliolab, we present a curated, open-access dataset that integrates diverse ionospheric and heliospheric measurements into a coherent, machine learning-ready structure, designed specifically to support next-generation forecasting models and address gaps in current operational frameworks. Our workflow integrates a large selection of data sources comprising Solar Dynamic Observatory data, solar irradiance indices (F10.7), solar wind parameters (velocity and interplanetary magnetic field), geomagnetic activity indices (Kp, AE, SYM-H), and NASA JPL's Global Ionospheric Maps of Total Electron Content (GIM-TEC). We also implement geospatially sparse data such as the TEC derived from the World-Wide GNSS Receiver Network and crowdsourced Android smartphone measurements. This novel heterogeneous dataset is temporally and spatially aligned into a single, modular data structure that supports both physical and data-driven modeling. Leveraging this dataset, we train and benchmark several spatiotemporal machine learning architectures for forecasting vertical TEC under both quiet and geomagnetically active conditions. This work presents an extensive dataset and modeling pipeline that enables exploration of not only ionospheric dynamics but also broader Sun-Earth interactions, supporting both scientific inquiry and operational forecasting efforts.
academic
Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Titolo: Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Autori: Linnea M. Wolniewicz, Halil S. Kelebek, Simone Mestici, Michael D. Vergalla, Giacomo Acciarini, Bala Poduval, Olga Verkhoglyadova, Madhulika Guhathakurta, Thomas E. Berger, Atılım Güneş Baydin, Frank Soboczenski
Istituzioni: University of Hawai'i at Mānoa, University of Oxford, Università degli Studi di Roma Sapienza, Free Flight Research Lab, ESA, University of New Hampshire, NASA JPL, NASA Headquarters, University of Colorado Boulder, University of York & King's College London
Data di Pubblicazione/Conferenza: NeurIPS 2025 Workshop: Machine Learning for the Physical Sciences
La previsione operativa dell'ionosfera rappresenta una sfida critica nel campo della meteorologia spaziale, con difficoltà principali derivanti da dati osservativi sparsi, accoppiamenti complessi attraverso i livelli geomagnetospaziali, e dalla crescente necessità di previsioni tempestive e accurate a supporto dei sistemi globali di navigazione satellitare (GNSS), comunicazioni, sicurezza aeronautica e operazioni satellitari. Come parte del progetto NASA Heliolab 2025, questo articolo presenta un dataset curato con accesso aperto, che integra misurazioni ionosferiche e eliosferiche diversificate in una struttura coerente e pronta per il machine learning. Il dataset integra molteplici fonti di dati tra cui dati del Solar Dynamics Observatory (SDO), indici di irradianza solare (F10.7), parametri del vento solare (velocità e campo magnetico interplanetario), indici di attività geomagnetica (Kp, AE, SYM-H) e mappe globali del contenuto elettronico totale (GIM-TEC) del JPL della NASA. Il team di ricerca ha addestrato e sottoposto a benchmark molteplici architetture di machine learning spaziotemporali per la previsione del TEC verticale in condizioni magneticamente tranquille e attive, fornendo supporto sia per la ricerca scientifica che per le previsioni operative.
La previsione ionosferica affronta tre sfide fondamentali:
Scarsità di Dati: i dati osservativi sono distribuiti irregolarmente nel tempo e nello spazio
Accoppiamento Multiscala: esistono interazioni complesse tra l'attività solare, la magnetosfera e il sistema ionosfera-termosfera
Urgenza Operativa: le infrastrutture tecnologiche moderne (GNSS, costellazioni satellitari, reti aeronautiche, reti elettriche) dipendono sempre più da previsioni di meteorologia spaziale accurate e tempestive
Gli eventi di meteorologia spaziale (come brillamenti solari e espulsioni di massa coronale) possono causare:
Interruzioni nelle operazioni satellitari
Degradazione della precisione GNSS
Danno alle comunicazioni radio
Guasti alle reti elettriche (come l'evento del febbraio 2022 che ha causato il rientro di 38 satelliti Starlink nell'atmosfera)
Con la rapida espansione delle costellazioni LEO e l'approfondimento della dipendenza dalle infrastrutture spaziali, la previsione accurata dell'ionosfera diventa critica.
Costruire un dataset standardizzato pronto per il machine learning che integri dati osservativi eterogenei da molteplici fonti, unificando le scale spaziotemporali, per fornire una base per lo sviluppo, il test e il benchmarking di architetture ML avanzate, realizzando infine un gemello digitale dell'ionosfera.
Costruzione del primo dataset ionosferico ML-ready comprensivo: integra 8 fonti di dati principali, coprendo 14 anni di dati osservativi multimodali dal 2010-2024
Realizzazione dell'allineamento spaziotemporale di dati eterogenei:
Gestione delle differenze di frequenza temporale tra diverse fonti di dati (da 15 secondi a giornaliero)
Unificazione della rappresentazione e della strategia di gestione dei valori mancanti
Fornitura di molteplici opzioni di risoluzione temporale (fino a 15 minuti)
Fornitura di un catalogo di eventi di tempeste geomagnetiche (scala MESTICI):
Basato sull'indice Kp e sugli standard NOAA G-level
Considerazione della durata degli eventi
Prevenzione della perdita di dati tra insiemi di addestramento e validazione
Dati e codice open source:
Bucket di archiviazione pubblica Google Cloud
Codice di elaborazione open source su GitHub
Interfaccia dataset PyTorch
Benchmark di molteplici modelli ML (serie IonCast):
Modello baseline LSTM
Spherical Neural Operator Model (SFNO)
Modello ispirato a GraphCast
Realizzazione di previsioni con 12 ore di anticipo, superiori al baseline di persistenza
Base Temporale: riferimento all'intervallo di dati SDO-FM (2010-05-13 a 2024-08-01)
Gestione dei Valori Mancanti:
Standardizzazione di tutti i valori mancanti a NaN
Gestione dei valori sentinella non standard nel dataset OMNI
Rimozione di colonne di caratteristiche con perdite massicce
Strategia di Riempimento in Avanti:
- Definizione del tempo massimo di riavvolgimento (max rewind time)
- Per la maggior parte dei flussi di dati: tempo di riavvolgimento = frequenza nativa
- Eccezione OMNI: tempo di riavvolgimento = 50 minuti
- Lacune che superano il tempo di riavvolgimento: saltare il timestamp
Ricampionamento a Frequenza Unificata: utilizzo del riempimento in avanti come strategia di interpolazione semplice
Basata sugli standard NOAA G-level, combinata con la durata dell'evento:
ID Evento
Intervallo Kp
Livello NOAA
Durata
G0Hℓ
Kp < 5
Tranquillo
ℓ ore
G1Hℓ
5 ≤ Kp < 6
Minore
ℓ ore
G2Hℓ
6 ≤ Kp < 7
Moderato
ℓ ore
G3Hℓ
7 ≤ Kp < 8
Forte
ℓ ore
G4Hℓ
8 ≤ Kp < 9
Severo
ℓ ore
G5Hℓ
Kp ≥ 9
Estremo
ℓ ore
Scopo: Garantire la ragionevolezza fisica della validazione del modello, prevenendo la perdita di dati causata dalla dispersione dei dati dello stesso evento di tempesta geomagnetica tra gli insiemi di addestramento e validazione.
L'articolo menziona che i modelli "superano il baseline di persistenza", ma non elenca metriche specifiche in dettaglio. Le metriche comuni per la previsione TEC includono:
Questo articolo rappresenta un importante contributo di infrastruttura nel campo della previsione della meteorologia spaziale. Non propone un nuovo algoritmo, ma risolve un problema più fondamentale: fornire un dataset standardizzato e di alta qualità per la ricerca di machine learning. Questo tipo di contributo è spesso sottovalutato nella comunità AI, ma è in realtà fondamentale per promuovere il progresso del campo.
Il valore massimo dell'articolo risiede in:
Riduzione significativa della barriera all'ingresso, consentendo a più ricercatori ML di partecipare alla ricerca sulla meteorologia spaziale
Fornitura di un benchmark unificato, rendendo possibile il confronto sistematico tra diversi metodi
Integrazione di dati che attraversano molteplici ordini di grandezza di scale spaziotemporali, dimostrando le migliori pratiche dell'ingegneria dei dati
Raccomandazioni per gli Utenti Successivi:
Lettura attenta del codice di elaborazione dei dati, comprensione di ogni scelta di progettazione
Adattamento della strategia di gestione dei valori mancanti in base all'applicazione specifica
Ingegneria delle caratteristiche combinata con conoscenze fisiche
Attenzione al problema dello squilibrio di classe negli eventi estremi
Validazione della ragionevolezza fisica dei risultati di previsione in confronto con modelli fisici
Questo lavoro pone le basi per il "momento ImageNet" della previsione ionosferica, con previsione di catalizzare una serie di ricerche innovative.