2025-11-22T21:13:17.025129

Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models

Wolniewicz, Kelebek, Mestici et al.

Operational forecasting of the ionosphere remains a critical space weather challenge due to sparse observations, complex coupling across geospatial layers, and a growing need for timely, accurate predictions that support Global Navigation Satellite System (GNSS), communications, aviation safety, as well as satellite operations. As part of the 2025 NASA Heliolab, we present a curated, open-access dataset that integrates diverse ionospheric and heliospheric measurements into a coherent, machine learning-ready structure, designed specifically to support next-generation forecasting models and address gaps in current operational frameworks. Our workflow integrates a large selection of data sources comprising Solar Dynamic Observatory data, solar irradiance indices (F10.7), solar wind parameters (velocity and interplanetary magnetic field), geomagnetic activity indices (Kp, AE, SYM-H), and NASA JPL's Global Ionospheric Maps of Total Electron Content (GIM-TEC). We also implement geospatially sparse data such as the TEC derived from the World-Wide GNSS Receiver Network and crowdsourced Android smartphone measurements. This novel heterogeneous dataset is temporally and spatially aligned into a single, modular data structure that supports both physical and data-driven modeling. Leveraging this dataset, we train and benchmark several spatiotemporal machine learning architectures for forecasting vertical TEC under both quiet and geomagnetically active conditions. This work presents an extensive dataset and modeling pipeline that enables exploration of not only ionospheric dynamics but also broader Sun-Earth interactions, supporting both scientific inquiry and operational forecasting efforts.

academic

Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models

基本信息

论文ID: 2511.15743
标题: Connecting the Dots: A Machine Learning Ready Dataset for Ionospheric Forecasting Models
作者: Linnea M. Wolniewicz, Halil S. Kelebek, Simone Mestici, Michael D. Vergalla, Giacomo Acciarini, Bala Poduval, Olga Verkhoglyadova, Madhulika Guhathakurta, Thomas E. Berger, Atılım Güneş Baydin, Frank Soboczenski
机构: University of Hawai'i at Mānoa, University of Oxford, Università degli Studi di Roma Sapienza, Free Flight Research Lab, ESA, University of New Hampshire, NASA JPL, NASA Headquarters, University of Colorado Boulder, University of York & King's College London
发表时间/会议: NeurIPS 2025 Workshop: Machine Learning for the Physical Sciences
论文链接: https://arxiv.org/abs/2511.15743

摘要

电离层的业务预报是空间天气领域的关键挑战，主要困难来自稀疏的观测数据、跨地理空间层的复杂耦合，以及对支持全球导航卫星系统（GNSS）、通信、航空安全和卫星运营的及时准确预测的日益增长的需求。作为2025 NASA Heliolab项目的一部分，本文提出了一个精心策划的开放访问数据集，将多样化的电离层和日球层测量数据整合成一个连贯的、机器学习就绪的结构。该数据集整合了太阳动力学观测站（SDO）数据、太阳辐照指数（F10.7）、太阳风参数（速度和行星际磁场）、地磁活动指数（Kp、AE、SYM-H）以及NASA JPL的全球电离层总电子含量图（GIM-TEC）等多种数据源。研究团队训练并基准测试了多个时空机器学习架构，用于在安静和地磁活跃条件下预测垂直TEC，为科学研究和业务预报提供支持。

研究背景与动机

1. 要解决的核心问题

电离层预报面临三大核心挑战：

数据稀疏性：观测数据在时间和空间上分布不均
多尺度耦合：太阳活动、磁层和电离层-热层系统之间存在复杂的相互作用
业务需求紧迫：现代技术基础设施（GNSS、卫星星座、航空网络、电网）对准确及时的空间天气预报依赖性日益增强

2. 问题的重要性

空间天气事件（如太阳耀斑、日冕物质抛射）可导致：

卫星运营中断
GNSS精度下降
无线电通信受损
电网故障（如2022年2月导致38颗Starlink卫星重返大气层的事件）

随着LEO卫星星座的快速扩张和对空间基础设施的依赖加深，准确的电离层预报变得至关重要。

3. 现有方法的局限性

数据异构性：现有数据源在分辨率、格式、时间频率上差异巨大
缺乏标准化：数据产品并非为机器学习工作流设计
预处理负担重：需要大量人工处理才能用于模型训练
系统比较困难：缺乏标准化数据集阻碍了模型的系统性比较

4. 研究动机

构建一个机器学习就绪的标准化数据集，整合异构多源观测数据，统一时空尺度，为开发、测试和基准测试先进的ML架构提供基础，最终实现电离层的数字孪生（digital twin）。

核心贡献

构建了首个综合性ML就绪电离层数据集：整合了8个主要数据源，涵盖2010-2024年共14年的多模态观测数据
实现了异构数据的时空对齐：
- 处理了不同数据源的时间频率差异（从15秒到每日）
- 统一了缺失值表示和处理策略
- 提供了多种时间分辨率选项（最高15分钟）
提供了地磁风暴事件目录（MESTICI量表）：
- 基于Kp指数和NOAA G-level标准
- 考虑事件持续时间
- 防止训练/验证集的数据泄漏
开源数据和代码：
- Google Cloud公开存储桶
- GitHub开源处理代码
- PyTorch数据集接口
基准测试了多个ML模型（IonCast系列）：
- LSTM基线模型
- Spherical Neural Operator Model (SFNO)
- GraphCast启发的模型
- 实现了12小时前瞻预报，优于持续性基线

方法详解

任务定义

目标：预测全球电离层总电子含量（TEC）的时空演化

输入：

太阳驱动数据（SDO EUV辐射嵌入、F10.7等太阳通量指数）
地磁驱动数据（Kp、AE、SYM-H等地磁指数）
太阳风参数（速度、行星际磁场分量）
轨道力学特征（太阳天顶角、月球位置等）
准偶极坐标系转换
历史TEC图（稀疏和密集）

输出：

全球1°×1°网格的TEC预测图
时间前瞻：最长12小时
时间分辨率：15分钟

约束条件：

必须处理地磁安静和活跃条件
需要应对数据缺失和不规则采样

数据集架构

数据源整合（见Table 1）

数据源	关键特征	时间频率	时间范围
OMNI2	AU/AL/AE, SYM-H, IMF, 太阳风速度	1分钟	2010-05-13至2024-08-01
NOAA/GFZ	Ap, Kp指数	3小时	1997-01-01至2025-10-12
JPL-D	密集TEC图(1°×1°)	15分钟	2010-05-13至2024-07-31
Madrigal	稀疏TEC图(GNSS接收器)	5分钟	2010-01-01至2024-08-01
SDO-FM	EUV辐射嵌入	15秒	2010-05-13至2024-08-01
SET	F10.7等多波长通量	每日	1997-01-01至2025-10-12
轨道力学	太阳/月球几何参数	可变	按需计算
准偶极	磁场坐标转换	年度	2010-2024

数据对齐策略

时间基准：以SDO-FM数据范围为基准（2010-05-13至2024-08-01）
缺失值处理：
- 标准化所有缺失值为NaN
- 处理OMNI数据集的非标准哨兵值
- 移除包含大规模缺失的特征列

前向填充策略：

- 定义最大回溯时间（max rewind time）
- 对于大多数数据流：回溯时间 = 原生频率
- OMNI特例：回溯时间 = 50分钟
- 超过回溯时间的间隙：跳过时间戳

重采样到统一频率：使用前向填充作为简单插值策略

地磁风暴事件分类（MESTICI量表）

基于NOAA G-level标准，结合事件持续时间：

事件ID	Kp范围	NOAA级别	持续时间
G0Hℓ	Kp < 5	平静	ℓ小时
G1Hℓ	5 ≤ Kp < 6	轻微	ℓ小时
G2Hℓ	6 ≤ Kp < 7	中等	ℓ小时
G3Hℓ	7 ≤ Kp < 8	强烈	ℓ小时
G4Hℓ	8 ≤ Kp < 9	严重	ℓ小时
G5Hℓ	Kp ≥ 9	极端	ℓ小时

目的：确保模型验证的物理合理性，防止同一地磁风暴事件的数据分散在训练集和验证集中造成数据泄漏。

技术创新点

多模态数据融合：
- 首次将密集和稀疏TEC图与太阳和地磁驱动数据对齐
- 整合了从卫星观测到众包智能手机测量的多层次数据
时间尺度统一：
- 处理15秒到每日的6个数量级时间频率差异
- 灵活的重采样机制，用户可自定义目标频率
物理信息融合：
- 包含轨道力学特征（太阳天顶角等）
- 提供准偶极坐标系转换，更好地表示磁场几何
事件感知的数据划分：
- 避免传统随机划分导致的数据泄漏
- 保持地磁风暴事件的完整性

实验设置

数据集规模

时间跨度：2010-05-13至2024-08-01（约14年）
空间分辨率：1°×1°全球网格（180×360 = 64,800个网格点）
时间分辨率：15分钟（训练用）
总样本数：约500,000个时间步（基于15分钟频率）

数据预处理

标准化：各数据流采用特定的归一化方案
缺失值处理：前向填充（最大回溯时间可配置）
事件分类：基于Kp指数的MESTICI标签
数据划分：按事件边界划分，避免泄漏

IonCast模型架构

论文训练了三种模型架构（详细结果在引用的21中）：

LSTM基线：
- 经典时序模型
- 处理时间依赖性
Spherical Neural Operator Model (SFNO)：
- 基于球面几何的神经算子
- 适合全球尺度的物理场建模
- 借鉴FourCastNet的思想
GraphCast启发模型：
- 图神经网络架构
- 参考DeepMind的天气预报模型
- 处理不规则网格和多尺度交互

评价指标

论文提到模型"优于持续性基线"（persistence baseline），但未详细列出具体指标。常见的TEC预测指标包括：

RMSE（均方根误差）
MAE（平均绝对误差）
相关系数
技能评分（Skill Score）

实现细节

框架：PyTorch
预测前瞻：最长12小时
自回归预测：使用前一时刻的预测作为下一时刻的输入
训练目标：JPL密集TEC图
开源代码：https://github.com/FrontierDevelopmentLab/2025-HL-Ionosphere

实验结果

主要结果

论文主要关注数据集构建，对模型性能的描述较为简略：

IonCast模型表现：
- 优于持续性基线（persistence forecast）
- 能够产生准确的12小时前瞻预测
- 在地磁安静和活跃条件下均有效
模型比较：
- 训练了LSTM、SFNO和GraphCast三种架构
- 详细的基准测试结果发表在配套论文21中

数据集验证

通过Figure 2（MESTICI量表可视化）展示：

2010-2024年间地磁事件的时间分布
不同强度级别（G0-G5）的事件频率
事件持续时间的分布特征

观察到：

G0（平静）条件占主导
G1-G2（轻微到中等）事件较为常见
G4-G5（严重到极端）事件稀少但关键

案例分析

论文未提供具体的TEC预测案例图，但通过Figure 1展示了数据对齐的可视化：

展示了多个数据流的时间对齐
显示了稀疏和密集TEC图的空间分布
说明了轨道力学和准偶极特征的整合

实验发现

数据异构性挑战：
- OMNI数据集包含多年的大规模缺失
- 不同数据源的缺失值编码不一致
- 需要仔细设计填充策略平衡数据完整性和时效性
事件感知划分的重要性：
- 传统随机划分会导致同一风暴事件的数据泄漏
- 基于物理的事件边界划分更合理
多模态融合的潜力：
- 整合太阳、地磁和电离层数据能够捕捉Sun-Earth相互作用
- 为物理驱动和数据驱动建模提供统一平台

结论与讨论

主要结论

成功构建了首个综合性ML就绪电离层数据集：
- 整合8个主要数据源
- 时空对齐到统一结构
- 覆盖14年观测数据
提供了完整的开源生态系统：
- Google Cloud公开数据存储
- GitHub开源处理代码
- PyTorch数据加载接口
验证了数据集的有效性：
- IonCast模型优于持续性基线
- 支持12小时前瞻预测
- 在多种地磁条件下表现良好
为社区提供了标准化基准：
- 统一的数据格式
- 一致的评估协议
- 可复现的实验设置

局限性

时间覆盖有限：
- 受SDO数据限制，仅覆盖2010-2024年
- 缺少太阳活动周期24之前的数据
- 未完整覆盖太阳活动周期25
缺失值处理简化：
- 使用简单的前向填充
- 可能不适合所有应用场景
- 未探索更复杂的插值方法（如物理约束插值）
空间分辨率固定：
- 1°×1°网格可能不足以捕捉小尺度结构
- 未提供多分辨率选项
模型性能细节不足：
- 论文主要关注数据集构建
- 模型基准测试结果较为简略
- 详细评估需参考配套论文21
计算资源需求：
- 数据集规模大（Google Cloud存储）
- 训练全球模型需要显著的计算资源
- 可能限制部分研究者的使用

未来方向

数据集扩展：
- 整合更多数据源（如ICON卫星、Swarm星座）
- 延长时间覆盖范围
- 提高空间分辨率
高级预处理方法：
- 物理约束的数据插值
- 更智能的缺失值填充
- 数据质量控制自动化
模型改进：
- 开发物理信息神经网络（PINNs）
- 探索Transformer架构
- 不确定性量化
业务化部署：
- 实时数据流接入
- 低延迟预测系统
- 与现有业务系统集成
数字孪生愿景：
- 构建完整的电离层数字孪生
- 支持what-if场景分析
- 多物理场耦合建模

深度评价

优点

填补重要空白：
- 解决了ML社区长期缺乏标准化电离层数据集的问题
- 降低了进入该领域的门槛
- 促进了模型的系统比较
数据整合全面：
- 8个主要数据源涵盖了从太阳到电离层的完整链条
- 包含密集和稀疏观测，支持多种建模需求
- 时间跨度14年，包含多个太阳活动阶段
技术实现优秀：
- 仔细处理了异构数据的对齐问题
- 事件感知的数据划分避免了泄漏
- 提供了灵活的配置选项
开放性和可复现性：
- 数据完全公开（Google Cloud）
- 代码开源（GitHub）
- 文档详细，易于使用
跨学科价值：
- 支持物理建模和数据驱动建模
- 促进空间物理学和机器学习的交叉
- 有助于科学发现和业务应用
及时性：
- 配合NASA、ESA的新任务（TRACERS、Vigil）
- 响应空间天气预报的紧迫需求
- 与天气预报ML的最新进展同步

不足

模型评估不充分：
- 论文主要关注数据集，模型部分较简略
- 缺少详细的性能数值和对比表格
- 未提供误差分析和失败案例
缺失值处理保守：
- 前向填充方法简单
- 未探索更先进的插值技术
- 对OMNI数据的大规模缺失处理可能过于激进（直接删除列）
物理验证有限：
- 未充分讨论预测结果的物理合理性
- 缺少与物理模型的对比
- 未分析模型是否学到了物理规律
极端事件覆盖不足：
- G4-G5级别事件稀少
- 可能导致模型对极端事件预测能力不足
- 未讨论类别不平衡问题
计算成本未量化：
- 未报告数据处理和模型训练的计算时间
- 未讨论实时预报的可行性
- 缺少资源需求的指导
区域特性考虑不足：
- 全球1°×1°网格可能掩盖区域差异
- 未讨论不同纬度区域的预测难度
- 缺少对极区、赤道等特殊区域的分析

影响力

对领域的贡献：
- 高影响力：解决了社区的关键痛点
- 预计将成为电离层ML研究的标准数据集
- 促进了空间天气预报的范式转变
实用价值：
- 直接应用：支持GNSS、通信、航空等行业
- 政策影响：为NASA、ESA等机构的决策提供工具
- 安全价值：提升对空间天气灾害的预警能力
可复现性：
- 优秀：数据和代码完全公开
- 文档清晰，社区可以轻松使用
- 为后续研究提供了坚实基础
学术影响：
- 预计将被广泛引用
- 可能催生一系列后续研究
- 促进了物理科学和AI的交叉融合

适用场景

科学研究：
- 探索电离层动力学机制
- 研究Sun-Earth相互作用
- 验证物理模型
业务预报：
- GNSS精度修正
- 卫星运营决策支持
- 航空路线规划
教育培训：
- 空间天气课程的教学数据
- ML在物理科学中的应用示例
- 学生项目和竞赛
模型开发：
- 新架构的基准测试
- 迁移学习的预训练数据
- 集成学习的基础模型
不适用场景：
- 需要超高空间分辨率的应用（<1°）
- 需要实时（秒级）响应的系统
- 2010年之前的历史研究

参考文献（精选）

Berger et al. (2020): 空间天气不确定性对飞行的影响
Kataoka et al. (2022): 2022年2月Starlink卫星重返事件分析
Walsh et al. (2024): SDO Foundation Model - 太阳观测的基础模型
Lam et al. (2023): GraphCast - DeepMind的天气预报突破
Bonev et al. (2025): FourCastNet 3 - 概率天气预报的几何方法
Kelebek et al. (2025): IonCast - 基于本数据集的详细建模研究

总结

这篇论文是空间天气预报领域的重要基础设施贡献。它不是提出新算法，而是解决了一个更根本的问题：为机器学习研究提供标准化、高质量的数据集。这种贡献在AI社区中常被低估，但实际上是推动领域进步的关键。

论文的最大价值在于：

大幅降低了研究门槛，使更多ML研究者能够参与空间天气研究
提供了统一的基准，使不同方法的比较成为可能
整合了跨越多个数量级的时空尺度数据，展示了数据工程的最佳实践

建议后续使用者：

仔细阅读数据处理代码，理解各种设计选择
根据具体应用调整缺失值处理策略
结合物理知识进行特征工程
注意极端事件的类别不平衡问题
与物理模型对比验证预测的合理性

这项工作为电离层预报的"ImageNet时刻"奠定了基础，预计将催生一系列创新研究。