This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
论文ID : 2510.11283标题 : Gym-TORAX: Open-source software for integrating RL with plasma control simulators作者 : Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Montefiore Institute, University of Liège, Belgium)分类 : cs.LG (Machine Learning)发表时间 : 2025年10月13日论文链接 : https://arxiv.org/abs/2510.11283v1 本文介绍了Gym-TORAX,一个Python软件包,能够为托卡马克等离子体动力学仿真和控制实现强化学习(RL)环境。用户可以简洁地定义一组控制动作和观测,以及控制目标,Gym-TORAX会创建一个包装TORAX的Gymnasium环境来仿真等离子体动力学。目标通过依赖于等离子体仿真状态和控制动作的奖励来制定,以优化等离子体的特定特征,如性能和稳定性。生成的环境实例与广泛的RL算法和库兼容,将促进等离子体控制中的RL研究。在当前版本中,基于国际热核实验反应堆(ITER)的升功率场景,已有一个环境可供使用。
核聚变能源挑战 : 核聚变反应堆的稳定性和性能优化是聚变能源研究的核心问题,托卡马克配置作为主要研究方向面临着高维度和强非线性的控制挑战。现有仿真工具局限性 :许多等离子体仿真器(如RAPTOR、JOREK)不开源且需要限制性许可证 现有工具主要为等离子体物理学家设计,对RL研究人员门槛较高 缺乏面向控制应用的接口设计 跨学科合作需求 : RL在等离子体控制中的应用需要降低RL研究人员的入门门槛,促进两个领域的协作。提供开源、轻量级、RL兼容的等离子体控制仿真框架 通过经典的Gymnasium API封装等离子体物理,让RL研究人员专注于控制策略优化 支持新的等离子体控制策略研究和算法发现 开源软件框架 : 开发了Gym-TORAX Python包,提供标准化的RL环境接口用于等离子体控制研究TORAX集成 : 创建了TORAX仿真器的Gymnasium包装器,实现闭环控制环境模块化设计 : 提供灵活的环境创建机制,用户可通过继承BaseEnv类定义自定义控制场景ITER基准环境 : 实现了基于ITER混合升功率场景的完整环境,包含基准控制策略跨学科桥梁 : 降低RL研究人员进入等离子体控制领域的技术门槛将等离子体控制问题建模为有限时间确定性马尔可夫决策过程(MDP):
状态空间 𝒮: 等离子体状态(温度、密度、磁通量等)动作空间 𝒜: 控制变量(总电流、环电压、能量源等)转移函数 f: 𝒮 × 𝒜 → 𝒮 (通过TORAX仿真实现)奖励函数 r: 𝒮 × 𝒜 → ℝ (用户定义的任务相关目标)RL交互层 : 智能体-环境交互的时间步长物理仿真层 : TORAX求解偏微分方程的时间步长(可选auto或fixed模式)BaseEnv类 : 抽象基类,定义环境创建的标准接口Action类 : 可配置的动作定义抽象类Observation类 : 观测内容定义类奖励辅助函数 : 专用的奖励函数设计工具用户需实现四个抽象方法:
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# 定义TORAX配置文件和仿真参数
pass
def _define_action_space(self):
# 指定智能体控制的TORAX变量子集
pass
def _define_observation_space(self):
# 选择包含在观测中的变量
pass
def _compute_reward(self):
# 定义任务相关的奖励函数
pass
物理仿真与RL的无缝集成 : 通过标准Gymnasium接口封装复杂的等离子体物理仿真灵活的时间尺度处理 : 双层离散化机制处理RL决策频率与物理仿真时间步长的差异模块化设计 : 抽象类设计支持快速创建新的控制场景鲁棒性机制 : 自动处理仿真错误和不可行状态,提供适当的终止条件和惩罚物理背景 : 基于ITER反应堆的混合运行模式时间跨度 : 100秒升功率阶段(L模式) + 50秒稳态阶段(H模式)控制变量 :
IpAction: 总电流控制NbiAction: 中性束注入功率EcrhAction: 电子回旋共振加热功率采用四项线性组合:
r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98
分别对应聚变增益Q、最小安全因子、边界安全因子和H模式约束质量因子。
开环策略 π_OL: 使用TORAX预设的动作轨迹随机策略 π_R: 在动作空间内均匀随机选择PI控制策略 π_PI: 使用比例积分控制器控制总电流,其他变量沿用预设轨迹PI参数优化 : 网格搜索优化比例增益kp和积分增益ki搜索空间 : kp ∈ -10, 0 , ki ∈ 0, 40 网格密度 : 20×60 = 1200个参数组合目标函数 : 最大化期望回报 J(π)策略 期望回报 π_OL (开环) 3.40 π_R (随机) -10.79 π_PI (PI控制) 3.79
PI控制器优势 : 优化后的PI控制策略(kp*=0.700, ki*=34.257)相比开环策略提升11.5%电流控制策略 : PI策略倾向于将总电流提升至15MA上限,符合高电流改善约束性能的物理原理参数敏感性 : 期望回报在参数空间中呈现复杂的非线性分布,需要仔细优化随机策略 : 呈现不规则震荡,受限制约束部分缓解PI策略 : 稳定增长至最大允许值,体现了物理驱动的控制逻辑目标跟踪 : PI控制器针对期望回报而非轨迹跟踪进行优化,展现了RL框架的灵活性磁控制 : Degrave et al. (Nature 2022) 使用深度RL控制托卡马克等离子体形状稳定性控制 : Char et al. (2023) 研究βN控制,Seo et al. (Nature 2024) 避免撕裂不稳定性仿真工具 : 现有工具如RAPTOR、JOREK缺乏开源性和RL接口首个专门为RL设计的开源等离子体控制仿真框架 标准化接口降低跨学科研究门槛 基于现代JAX技术栈,支持快速自动微分 Gym-TORAX成功提供了RL与等离子体仿真的标准化集成方案 PI控制器基准展示了框架的有效性和潜在改进空间 模块化设计支持快速扩展到新的控制场景 物理模型限制 : 基于TORAX的轴对称假设,限制了复杂三维效应的建模仿真精度 : 适用于初步研究,高精度应用需要更复杂的物理模型场景覆盖 : 当前主要支持ITER场景,需要扩展到更多反应堆配置几何参数化 : 支持等离子体和托卡马克几何的直接参数化物理事件处理 : 添加L-H转换等关键物理事件的专用处理工具TORAX功能扩展 : 随TORAX仿真器功能增强而扩展能力填补空白 : 首个开源的RL-等离子体控制集成框架,填补了重要的工具空白设计优雅 : 双层时间离散化和模块化设计体现了良好的软件工程实践实用价值 : 降低了RL研究人员进入等离子体控制领域的门槛基准完整 : 提供了完整的ITER场景实现和多种基准策略对比开源贡献 : MIT许可证和完整文档支持社区发展实验深度有限 : 仅展示了简单的PI控制器,缺乏现代RL算法的深入评估物理验证不足 : 未与实际等离子体实验数据进行对比验证可扩展性未充分展示 : 虽然设计支持扩展,但未展示创建新环境的完整流程性能分析缺失 : 未提供计算性能和可扩展性的定量分析学术价值 : 为RL在等离子体控制的应用提供了标准化平台工程价值 : 促进跨学科合作,加速聚变控制技术发展教育价值 : 降低学习门槛,有助于培养跨领域人才可复现性 : 开源设计和详细文档支持研究可复现性RL算法研究 : 测试和比较不同RL算法在等离子体控制中的表现控制策略开发 : 快速原型化和评估新的等离子体控制策略教育培训 : 作为教学工具帮助学生理解RL在物理系统中的应用初步研究 : 在投入昂贵的实际实验前进行算法验证本文引用了等离子体物理、强化学习和仿真技术等多个领域的重要工作,特别是:
TORAX仿真器的核心技术文档 近期在Nature等顶级期刊发表的RL等离子体控制突破性工作 Gymnasium等标准RL环境框架的技术规范 总体评价 : Gym-TORAX是一个具有重要实用价值的开源软件贡献,虽然在技术创新上相对保守,但在促进跨学科合作和标准化工具方面具有显著价值。该工作为RL在等离子体控制领域的应用提供了重要的基础设施,有望推动该交叉领域的快速发展。