Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Wolniewicz, Kelebek, Mestici et al.
Operational forecasting of the ionosphere remains a critical space weather challenge due to sparse observations, complex coupling across geospatial layers, and a growing need for timely, accurate predictions that support Global Navigation Satellite System (GNSS), communications, aviation safety, as well as satellite operations. As part of the 2025 NASA Heliolab, we present a curated, open-access dataset that integrates diverse ionospheric and heliospheric measurements into a coherent, machine learning-ready structure, designed specifically to support next-generation forecasting models and address gaps in current operational frameworks. Our workflow integrates a large selection of data sources comprising Solar Dynamic Observatory data, solar irradiance indices (F10.7), solar wind parameters (velocity and interplanetary magnetic field), geomagnetic activity indices (Kp, AE, SYM-H), and NASA JPL's Global Ionospheric Maps of Total Electron Content (GIM-TEC). We also implement geospatially sparse data such as the TEC derived from the World-Wide GNSS Receiver Network and crowdsourced Android smartphone measurements. This novel heterogeneous dataset is temporally and spatially aligned into a single, modular data structure that supports both physical and data-driven modeling. Leveraging this dataset, we train and benchmark several spatiotemporal machine learning architectures for forecasting vertical TEC under both quiet and geomagnetically active conditions. This work presents an extensive dataset and modeling pipeline that enables exploration of not only ionospheric dynamics but also broader Sun-Earth interactions, supporting both scientific inquiry and operational forecasting efforts.
academic
बिंदुओं को जोड़ना: आयनमंडल पूर्वानुमान मॉडल के लिए मशीन लर्निंग तैयार डेटासेट
शीर्षक: Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
लेखक: Linnea M. Wolniewicz, Halil S. Kelebek, Simone Mestici, Michael D. Vergalla, Giacomo Acciarini, Bala Poduval, Olga Verkhoglyadova, Madhulika Guhathakurta, Thomas E. Berger, Atılım Güneş Baydin, Frank Soboczenski
संस्थान: University of Hawai'i at Mānoa, University of Oxford, Università degli Studi di Roma Sapienza, Free Flight Research Lab, ESA, University of New Hampshire, NASA JPL, NASA Headquarters, University of Colorado Boulder, University of York & King's College London
प्रकाशन समय/सम्मेलन: NeurIPS 2025 Workshop: Machine Learning for the Physical Sciences
आयनमंडल का परिचालन पूर्वानुमान अंतरिक्ष मौसम विज्ञान में एक महत्वपूर्ण चुनौती है, जिसकी मुख्य कठिनाइयाँ विरल अवलोकन डेटा, भू-अंतरिक्ष परतों में जटिल युग्मन, और वैश्विक नेविगेशन उपग्रह प्रणाली (GNSS), संचार, विमानन सुरक्षा और उपग्रह संचालन का समर्थन करने वाले समय पर सटीक पूर्वानुमान की बढ़ती माँग से उत्पन्न होती हैं। 2025 NASA Heliolab परियोजना के भाग के रूप में, यह पेपर एक सावधानीपूर्वक तैयार किया गया खुली पहुँच डेटासेट प्रस्तुत करता है जो विविध आयनमंडल और हेलियोस्फीयर माप डेटा को एक सुसंगत, मशीन लर्निंग-तैयार संरचना में एकीकृत करता है। यह डेटासेट सौर गतिशीलता अवलोकन (SDO) डेटा, सौर विकिरण सूचकांक (F10.7), सौर वायु पैरामीटर (वेग और ग्रहों के बीच चुंबकीय क्षेत्र), भू-चुंबकीय गतिविधि सूचकांक (Kp, AE, SYM-H) और NASA JPL के वैश्विक आयनमंडल कुल इलेक्ट्रॉन सामग्री मानचित्र (GIM-TEC) सहित कई डेटा स्रोतों को एकीकृत करता है। अनुसंधान दल ने शांत और भू-चुंबकीय रूप से सक्रिय स्थितियों में ऊर्ध्वाधर TEC की भविष्यवाणी के लिए कई स्पेस-टाइम मशीन लर्निंग आर्किटेक्चर को प्रशिक्षित और बेंचमार्क किया, जो वैज्ञानिक अनुसंधान और परिचालन पूर्वानुमान का समर्थन करता है।
आयनमंडल पूर्वानुमान तीन मुख्य चुनौतियों का सामना करता है:
डेटा विरलता: अवलोकन डेटा समय और स्थान में असमान रूप से वितरित है
बहु-पैमाने युग्मन: सौर गतिविधि, मैग्नेटोस्फीयर और आयनमंडल-थर्मोस्फीयर प्रणाली के बीच जटिल अंतःक्रिया
परिचालन आवश्यकता तीव्र: आधुनिक तकनीकी बुनियादी ढाँचा (GNSS, उपग्रह नक्षत्र, विमानन नेटवर्क, विद्युत ग्रिड) सटीक और समय पर अंतरिक्ष मौसम पूर्वानुमान पर बढ़ती निर्भरता
एक मशीन लर्निंग-तैयार मानकीकृत डेटासेट का निर्माण करना जो विषम बहु-स्रोत अवलोकन डेटा को एकीकृत करता है, स्पेस-टाइम पैमानों को एकीकृत करता है, और उन्नत ML आर्किटेक्चर के विकास, परीक्षण और बेंचमार्किंग के लिए आधार प्रदान करता है, अंततः आयनमंडल के डिजिटल जुड़वाँ (digital twin) को साकार करने के लिए।
पहला व्यापक ML-तैयार आयनमंडल डेटासेट का निर्माण: 8 मुख्य डेटा स्रोतों को एकीकृत करता है, 2010-2024 में 14 वर्षों के बहु-मोडल अवलोकन डेटा को कवर करता है
विषम डेटा का स्पेस-टाइम संरेखण:
विभिन्न डेटा स्रोतों की समय आवृत्ति अंतर को संभाला (15 सेकंड से दैनिक)
लापता मान प्रतिनिधित्व और प्रसंस्करण रणनीति को एकीकृत किया
कई समय संकल्प विकल्प प्रदान किए (अधिकतम 15 मिनट)
भू-चुंबकीय तूफान घटना कैटलॉग प्रदान किया (MESTICI स्केल):
Kp सूचकांक और NOAA G-स्तर मानक पर आधारित
घटना अवधि पर विचार
प्रशिक्षण/सत्यापन सेट में डेटा रिसाव को रोकता है
खुला स्रोत डेटा और कोड:
Google Cloud सार्वजनिक भंडारण बाल्टी
GitHub खुला स्रोत प्रसंस्करण कोड
PyTorch डेटासेट इंटरफेस
कई ML मॉडल को बेंचमार्क किया (IonCast श्रृंखला):
LSTM आधारभूत मॉडल
Spherical Neural Operator Model (SFNO)
GraphCast-प्रेरित मॉडल
12 घंटे की आगे की ओर पूर्वानुमान लागू किया, निरंतरता आधारभूत से बेहतर
समय आधार: SDO-FM डेटा सीमा को आधार के रूप में (2010-05-13 से 2024-08-01)
लापता मान प्रसंस्करण:
सभी लापता मानों को NaN में मानकीकृत करें
OMNI डेटासेट के गैर-मानक सेंटिनल मानों को संभालें
बड़े पैमाने पर लापता वाले विशेषता स्तंभों को हटाएँ
आगे भरने की रणनीति:
- अधिकतम पुनः हवा समय परिभाषित करें (max rewind time)
- अधिकांश डेटा प्रवाह के लिए: पुनः हवा समय = मूल आवृत्ति
- OMNI विशेष मामला: पुनः हवा समय = 50 मिनट
- पुनः हवा समय से अधिक अंतराल: समय मुहर्त को छोड़ें
एकीकृत आवृत्ति में पुनः नमूनाकरण: सरल प्रक्षेप के रूप में आगे भरने का उपयोग करें
पेपर उल्लेख करता है कि मॉडल "निरंतरता आधारभूत से बेहतर" हैं, लेकिन विशिष्ट मेट्रिक्स विस्तार से सूचीबद्ध नहीं हैं। सामान्य TEC पूर्वानुमान मेट्रिक्स में शामिल हैं:
यह पेपर अंतरिक्ष मौसम पूर्वानुमान क्षेत्र में एक महत्वपूर्ण बुनियादी ढाँचा योगदान है। यह नई एल्गोरिदम प्रस्तावित नहीं करता है, बल्कि एक अधिक मौलिक समस्या को हल करता है: मशीन लर्निंग अनुसंधान के लिए मानकीकृत, उच्च-गुणवत्ता डेटासेट प्रदान करना। AI समुदाय में इस प्रकार का योगदान अक्सर कम आंका जाता है, लेकिन वास्तव में क्षेत्र की प्रगति को आगे बढ़ाने की कुंजी है।
पेपर का सबसे बड़ा मूल्य यह है कि:
अनुसंधान की बाधा को काफी कम करता है, अधिक ML शोधकर्ताओं को अंतरिक्ष मौसम अनुसंधान में भाग लेने में सक्षम बनाता है
एकीकृत बेंचमार्क प्रदान करता है, विभिन्न विधियों की तुलना को संभव बनाता है
कई परिमाण के स्पेस-टाइम पैमाने डेटा को एकीकृत करता है, डेटा इंजीनियरिंग के सर्वोत्तम अभ्यास को प्रदर्शित करता है
बाद के उपयोगकर्ताओं के लिए सुझाव:
डेटा प्रसंस्करण कोड को सावधानीपूर्वक पढ़ें, विभिन्न डिज़ाइन विकल्पों को समझें
विशिष्ट अनुप्रयोग के अनुसार लापता मान प्रसंस्करण रणनीति को समायोजित करें
भौतिक ज्ञान के साथ विशेषता इंजीनियरिंग करें
चरम घटनाओं की वर्ग असंतुलन समस्या पर ध्यान दें
भौतिक मॉडल के साथ पूर्वानुमान की तर्कसंगतता को सत्यापित करें
यह कार्य आयनमंडल पूर्वानुमान के "ImageNet क्षण" के लिए आधार तैयार करता है, और एक श्रृंखला के नवीन अनुसंधान को उत्प्रेरित करने की संभावना है।