Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
Wolniewicz, Kelebek, Mestici et al.
Operational forecasting of the ionosphere remains a critical space weather challenge due to sparse observations, complex coupling across geospatial layers, and a growing need for timely, accurate predictions that support Global Navigation Satellite System (GNSS), communications, aviation safety, as well as satellite operations. As part of the 2025 NASA Heliolab, we present a curated, open-access dataset that integrates diverse ionospheric and heliospheric measurements into a coherent, machine learning-ready structure, designed specifically to support next-generation forecasting models and address gaps in current operational frameworks. Our workflow integrates a large selection of data sources comprising Solar Dynamic Observatory data, solar irradiance indices (F10.7), solar wind parameters (velocity and interplanetary magnetic field), geomagnetic activity indices (Kp, AE, SYM-H), and NASA JPL's Global Ionospheric Maps of Total Electron Content (GIM-TEC). We also implement geospatially sparse data such as the TEC derived from the World-Wide GNSS Receiver Network and crowdsourced Android smartphone measurements. This novel heterogeneous dataset is temporally and spatially aligned into a single, modular data structure that supports both physical and data-driven modeling. Leveraging this dataset, we train and benchmark several spatiotemporal machine learning architectures for forecasting vertical TEC under both quiet and geomagnetically active conditions. This work presents an extensive dataset and modeling pipeline that enables exploration of not only ionospheric dynamics but also broader Sun-Earth interactions, supporting both scientific inquiry and operational forecasting efforts.
আয়োনোস্ফেরিক অপারেশনাল পূর্বাভাস মহাকাশ আবহাওয়া ক্ষেত্রে একটি মূল চ্যালেঞ্জ, যার প্রধান কঠিনতা আসে বিরল পর্যবেক্ষণ ডেটা, ভূ-মহাকাশ স্তর জুড়ে জটিল সংযোগ এবং গ্লোবাল নেভিগেশন স্যাটেলাইট সিস্টেম (জিএনএসএস), যোগাযোগ, বিমান চলাচল নিরাপত্তা এবং স্যাটেলাইট পরিচালনার জন্য সময়োপযোগী এবং নির্ভুল পূর্বাভাসের ক্রমবর্ধমান চাহিদা থেকে। ২০২৫ নাসা হেলিওল্যাব প্রকল্পের অংশ হিসাবে, এই পেপারটি একটি সতর্কতার সাথে কিউরেট করা ওপেন অ্যাক্সেস ডেটাসেট উপস্থাপন করে যা বৈচিত্র্যময় আয়োনোস্ফেরিক এবং হেলিওস্ফেরিক পরিমাপ ডেটাকে একটি সুসংগত, মেশিন লার্নিং-প্রস্তুত কাঠামোতে একীভূত করে। এই ডেটাসেটটি সোলার ডায়নামিক্স অবজারভেটরি (এসডিও) ডেটা, সোলার রেডিয়েশন ইনডেক্স (এফ১০.৭), সোলার উইন্ড প্যারামিটার (গতি এবং আন্তঃগ্রহীয় চৌম্বক ক্ষেত্র), ভূ-চৌম্বক কার্যকলাপ সূচক (কেপি, এই, এসওয়াই-এইচ) এবং নাসা জেপিএলের গ্লোবাল আয়োনোস্ফেরিক টোটাল ইলেকট্রন কন্টেন্ট ম্যাপ (জিআইএম-টিইসি) সহ একাধিক ডেটা উৎস একীভূত করে। গবেষণা দল শান্ত এবং ভূ-চৌম্বক সক্রিয় অবস্থার অধীনে উল্লম্ব টিইসি পূর্বাভাসের জন্য একাধিক স্পেসটাইম মেশিন লার্নিং আর্কিটেকচার প্রশিক্ষণ এবং বেঞ্চমার্ক করেছে, বৈজ্ঞানিক গবেষণা এবং অপারেশনাল পূর্বাভাসকে সমর্থন করে।
আয়োনোস্ফেরিক পূর্বাভাস তিনটি মূল চ্যালেঞ্জের সম্মুখীন:
ডেটা বিরলতা: পর্যবেক্ষণ ডেটা সময় এবং স্থান জুড়ে অসমভাবে বিতরণ করা হয়
মাল্টি-স্কেল সংযোগ: সৌর কার্যকলাপ, ম্যাগনেটোস্ফিয়ার এবং আয়োনোস্ফিয়ার-থার্মোস্ফিয়ার সিস্টেমের মধ্যে জটিল মিথস্ক্রিয়া
অপারেশনাল চাহিদা জরুরি: আধুনিক প্রযুক্তি অবকাঠামো (জিএনএসএস, স্যাটেলাইট নক্ষত্রপুঞ্জ, বিমান চলাচল নেটওয়ার্ক, বিদ্যুৎ গ্রিড) নির্ভুল এবং সময়োপযোগী মহাকাশ আবহাওয়া পূর্বাভাসের উপর ক্রমবর্ধমান নির্ভরশীল
এলইও স্যাটেলাইট নক্ষত্রপুঞ্জের দ্রুত সম্প্রসারণ এবং মহাকাশ অবকাঠামোর উপর নির্ভরতা গভীর হওয়ার সাথে সাথে, নির্ভুল আয়োনোস্ফেরিক পূর্বাভাস অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে।
একটি মেশিন লার্নিং-প্রস্তুত স্ট্যান্ডার্ডাইজড ডেটাসেট তৈরি করা যা বৈচিত্র্যময় মাল্টি-সোর্স পর্যবেক্ষণ ডেটা একীভূত করে, স্পেসটাইম স্কেল একীভূত করে, উন্নত এমএল আর্কিটেকচার বিকাশ, পরীক্ষা এবং বেঞ্চমার্কিংয়ের ভিত্তি প্রদান করে, চূড়ান্তভাবে আয়োনোস্ফেরের ডিজিটাল টুইন (ডিজিটাল টুইন) উপলব্ধি করে।
১. প্রথম ব্যাপক এমএল-প্রস্তুত আয়োনোস্ফেরিক ডেটাসেট তৈরি করেছে: ৮টি প্রধান ডেটা উৎস একীভূত করে, ২০১০-২০২৪ সালের ১৪ বছরের মাল্টিমোডাল পর্যবেক্ষণ ডেটা কভার করে
२. বৈচিত্র্যময় ডেটার স্পেসটাইম সারিবদ্ধতা বাস্তবায়ন করেছে:
বিভিন্ন ডেটা উৎসের সময় ফ্রিকোয়েন্সি পার্থক্য পরিচালনা করেছে (১৫ সেকেন্ড থেকে দৈনিক)
অনুপস্থিত মূল্য প্রতিনিধিত্ব এবং পরিচালনা কৌশল একীভূত করেছে
একাধিক সময় রেজোলিউশন বিকল্প প্রদান করেছে (সর্বোচ্চ ১৫ মিনিট)
३. ভূ-চৌম্বক ঝড় ইভেন্ট ক্যাটালগ প্রদান করেছে (মেস্টিসি স্কেল):
কেপি ইনডেক্স এবং নোআ জি-লেভেল স্ট্যান্ডার্ডের উপর ভিত্তি করে
ইভেন্ট সময়কাল বিবেচনা করে
প্রশিক্ষণ/যাচাইকরণ সেটের ডেটা লিকেজ প্রতিরোধ করে
४. ওপেন সোর্স ডেটা এবং কোড:
গুগল ক্লাউড পাবলিক স্টোরেজ বাকেট
গিটহাব ওপেন সোর্স প্রসেসিং কোড
পাইটর্চ ডেটাসেট ইন্টারফেস
५. একাধিক এমএল মডেল বেঞ্চমার্ক করেছে (আইওনকাস্ট সিরিজ):
१. সময় ভিত্তি: এসডিও-এফএম ডেটা পরিসীমা ভিত্তি হিসাবে (२०१०-०५-१३ থেকে २०२४-०८-०१)
२. অনুপস্থিত মূল্য পরিচালনা:
সমস্ত অনুপস্থিত মূল্যকে এনএএন-এ স্ট্যান্ডার্ডাইজ করুন
ওমনি ডেটাসেটের অ-স্ট্যান্ডার্ড সেন্টিনেল মূল্য পরিচালনা করুন
বড় আকারের অনুপস্থিত বৈশিষ্ট্য কলাম সরান
३. ফরওয়ার্ড ফিল কৌশল:
- সর্বাধিক রিওয়াইন্ড সময় সংজ্ঞায়িত করুন
- বেশিরভাগ ডেটা স্ট্রিমের জন্য: রিওয়াইন্ড সময় = মূল ফ্রিকোয়েন্সি
- ওমনি ব্যতিক্রম: রিওয়াইন্ড সময় = ५० মিনিট
- রিওয়াইন্ড সময় অতিক্রম করা ফাঁক: সময় স্ট্যাম্প এড়িয়ে যান
४. একীভূত ফ্রিকোয়েন্সিতে পুনঃনমুনা: ফরওয়ার্ড ফিল সাধারণ ইন্টারপোলেশন হিসাবে ব্যবহার করুন
१. স্ট্যান্ডার্ডাইজেশন: প্রতিটি ডেটা স্ট্রিম নির্দিষ্ট নর্মালাইজেশন স্কিম ব্যবহার করে
२. অনুপস্থিত মূল্য পরিচালনা: ফরওয়ার্ড ফিল (সর্বাধিক রিওয়াইন্ড সময় কনফিগারযোগ্য)
३. ইভেন্ট শ্রেণীবিভাগ: কেপি সূচকের উপর ভিত্তি করে মেস্টিসি লেবেল
४. ডেটা বিভাজন: ইভেন্ট সীমানা দ্বারা বিভাজন, লিকেজ এড়ান
কাগজটি মডেল "স্থায়িত্ব বেসলাইনকে ছাড়িয়ে যায়" উল্লেখ করে কিন্তু নির্দিষ্ট মেট্রিক্স বিস্তারিত তালিকা করে না। টিইসি পূর্বাভাসের জন্য সাধারণ মেট্রিক্সগুলির মধ্যে রয়েছে:
१. গ্রাফকাস্ট२५: ডিপমাইন্ডের গ্লোবাল আবহাওয়া পূর্বাভাস মডেল
२. ফোরকাস্টনেট२४: ফুরিয়ার নিউরাল অপারেটরের উপর ভিত্তি করে সম্ভাব্য আবহাওয়া পূর্বাভাস
३. এই কাগজের শিক্ষা: আবহাওয়া পূর্বাভাসের সফল অভিজ্ঞতা আয়োনোস্ফেরিক পূর্বাভাসে স্থানান্তর করুন
१. বার্জার এট আল. (२०२०): মহাকাশ আবহাওয়া অনিশ্চয়তার উড়ানে প্রভাব
२. কাতাওকা এট আল. (२०२२): २०२२ সালের ফেব্রুয়ারি স্টারলিংক স্যাটেলাইট পুনরায় প্রবেশ ইভেন্ট বিশ্লেষণ
३. ওয়ালশ এট আল. (२०२४): এসডিও ফাউন্ডেশন মডেল - সৌর পর্যবেক্ষণের ভিত্তি মডেল
४. ল্যাম এট আল. (२०२३): গ্রাফকাস্ট - ডিপমাইন্ডের আবহাওয়া পূর্বাভাস অগ্রগতি
५. বোনেভ এট আল. (२०२५): ফোরকাস্টনেট ३ - সম্ভাব্য আবহাওয়া পূর্বাভাসের জ্যামিতিক পদ্ধতি
६. কেলেবেক এট আল. (२०२५): আইওনকাস্ট - এই ডেটাসেটের উপর ভিত্তি করে বিস্তারিত মডেলিং গবেষণা
এই কাগজটি মহাকাশ আবহাওয়া পূর্বাভাস ক্ষেত্রে একটি গুরুত্বপূর্ণ অবকাঠামো অবদান। এটি নতুন অ্যালগরিদম প্রস্তাব করে না, বরং একটি আরও মৌলিক সমস্যা সমাধান করে: মেশিন লার্নিং গবেষণার জন্য স্ট্যান্ডার্ডাইজড, উচ্চ-মানের ডেটাসেট প্রদান করা। এই ধরনের অবদান এআই সম্প্রদায়ে প্রায়শই কম মূল্যায়ন করা হয়, কিন্তু বাস্তবে এটি ক্ষেত্র অগ্রগতির চাবিকাঠি।
কাগজটির সর্বোচ্চ মূল্য নিহিত:
१. গবেষণা বাধা উল্লেখযোগ্যভাবে হ্রাস করেছে, আরও এমএল গবেষকদের মহাকাশ আবহাওয়া গবেষণায় অংশগ্রহণ করতে সক্ষম করেছে
२. একীভূত বেঞ্চমার্ক প্রদান করেছে, বিভিন্ন পদ্ধতির তুলনা সম্ভব করেছে
३. একাধিক পরিমাণের সময়-স্থান স্কেল ডেটা একীভূত করেছে, ডেটা প্রকৌশলের সেরা অনুশীলন প্রদর্শন করেছে
পরবর্তী ব্যবহারকারীদের সুপারিশ:
ডেটা প্রক্রিয়াকরণ কোড সাবধানে পড়ুন, বিভিন্ন ডিজাইন পছন্দ বুঝুন
নির্দিষ্ট প্রয়োগের জন্য অনুপস্থিত মূল্য পরিচালনা কৌশল সামঞ্জস্য করুন
বৈশিষ্ট্য প্রকৌশলের জন্য শারীরিক জ্ঞান একত্রিত করুন
চরম ইভেন্টের শ্রেণী অসন্তুলন সমস্যা মনোযোগ দিন
শারীরিক মডেলের সাথে পূর্বাভাসের যুক্তিসঙ্গততা যাচাই করুন
এই কাজ আয়োনোস্ফেরিক পূর্বাভাসের "ইমেজনেট মুহূর্ত" এর ভিত্তি স্থাপন করেছে, এটি উদ্ভাবনী গবেষণার একটি সিরিজ অনুপ্রাণিত করার সম্ভাবনা রয়েছে।