2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.

This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).

academic

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

基本信息

论文ID: 2510.11283
标题: Gym-TORAX: Open-source software for integrating RL with plasma control simulators
作者: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Montefiore Institute, University of Liège, Belgium)
分类: cs.LG (Machine Learning)
发表时间: 2025年10月13日
论文链接: https://arxiv.org/abs/2510.11283v1

摘要

本文介绍了Gym-TORAX，一个Python软件包，能够为托卡马克等离子体动力学仿真和控制实现强化学习(RL)环境。用户可以简洁地定义一组控制动作和观测，以及控制目标，Gym-TORAX会创建一个包装TORAX的Gymnasium环境来仿真等离子体动力学。目标通过依赖于等离子体仿真状态和控制动作的奖励来制定，以优化等离子体的特定特征，如性能和稳定性。生成的环境实例与广泛的RL算法和库兼容，将促进等离子体控制中的RL研究。在当前版本中，基于国际热核实验反应堆(ITER)的升功率场景，已有一个环境可供使用。

研究背景与动机

问题背景

核聚变能源挑战: 核聚变反应堆的稳定性和性能优化是聚变能源研究的核心问题，托卡马克配置作为主要研究方向面临着高维度和强非线性的控制挑战。
现有仿真工具局限性:
- 许多等离子体仿真器(如RAPTOR、JOREK)不开源且需要限制性许可证
- 现有工具主要为等离子体物理学家设计，对RL研究人员门槛较高
- 缺乏面向控制应用的接口设计
跨学科合作需求: RL在等离子体控制中的应用需要降低RL研究人员的入门门槛，促进两个领域的协作。

研究动机

提供开源、轻量级、RL兼容的等离子体控制仿真框架
通过经典的Gymnasium API封装等离子体物理，让RL研究人员专注于控制策略优化
支持新的等离子体控制策略研究和算法发现

核心贡献

开源软件框架: 开发了Gym-TORAX Python包，提供标准化的RL环境接口用于等离子体控制研究
TORAX集成: 创建了TORAX仿真器的Gymnasium包装器，实现闭环控制环境
模块化设计: 提供灵活的环境创建机制，用户可通过继承BaseEnv类定义自定义控制场景
ITER基准环境: 实现了基于ITER混合升功率场景的完整环境，包含基准控制策略
跨学科桥梁: 降低RL研究人员进入等离子体控制领域的技术门槛

方法详解

任务定义

将等离子体控制问题建模为有限时间确定性马尔可夫决策过程(MDP):

状态空间 𝒮: 等离子体状态(温度、密度、磁通量等)
动作空间 𝒜: 控制变量(总电流、环电压、能量源等)
转移函数 f: 𝒮 × 𝒜 → 𝒮 (通过TORAX仿真实现)
奖励函数 r: 𝒮 × 𝒜 → ℝ (用户定义的任务相关目标)

系统架构

双层时间离散化

RL交互层: 智能体-环境交互的时间步长
物理仿真层: TORAX求解偏微分方程的时间步长(可选auto或fixed模式)

核心组件

BaseEnv类: 抽象基类，定义环境创建的标准接口
Action类: 可配置的动作定义抽象类
Observation类: 观测内容定义类
奖励辅助函数: 专用的奖励函数设计工具

环境创建流程

用户需实现四个抽象方法:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # 定义TORAX配置文件和仿真参数
        pass
    
    def _define_action_space(self):
        # 指定智能体控制的TORAX变量子集
        pass
    
    def _define_observation_space(self):
        # 选择包含在观测中的变量
        pass
    
    def _compute_reward(self):
        # 定义任务相关的奖励函数
        pass

技术创新点

物理仿真与RL的无缝集成: 通过标准Gymnasium接口封装复杂的等离子体物理仿真
灵活的时间尺度处理: 双层离散化机制处理RL决策频率与物理仿真时间步长的差异
模块化设计: 抽象类设计支持快速创建新的控制场景
鲁棒性机制: 自动处理仿真错误和不可行状态，提供适当的终止条件和惩罚

实验设置

仿真环境: ITER混合升功率场景

物理背景: 基于ITER反应堆的混合运行模式
时间跨度: 100秒升功率阶段(L模式) + 50秒稳态阶段(H模式)
控制变量:
- IpAction: 总电流控制
- NbiAction: 中性束注入功率
- EcrhAction: 电子回旋共振加热功率

奖励函数设计

采用四项线性组合:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

分别对应聚变增益Q、最小安全因子、边界安全因子和H模式约束质量因子。

对比策略

开环策略 π_OL: 使用TORAX预设的动作轨迹
随机策略 π_R: 在动作空间内均匀随机选择
PI控制策略 π_PI: 使用比例积分控制器控制总电流，其他变量沿用预设轨迹

实现细节

PI参数优化: 网格搜索优化比例增益kp和积分增益ki
搜索空间: kp ∈ -10, 0, ki ∈ 0, 40
网格密度: 20×60 = 1200个参数组合
目标函数: 最大化期望回报 J(π)

实验结果

主要结果

策略	期望回报
π_OL (开环)	3.40
π_R (随机)	-10.79
π_PI (PI控制)	3.79

关键发现

PI控制器优势: 优化后的PI控制策略(kp*=0.700, ki*=34.257)相比开环策略提升11.5%
电流控制策略: PI策略倾向于将总电流提升至15MA上限，符合高电流改善约束性能的物理原理
参数敏感性: 期望回报在参数空间中呈现复杂的非线性分布，需要仔细优化

控制轨迹分析

随机策略: 呈现不规则震荡，受限制约束部分缓解
PI策略: 稳定增长至最大允许值，体现了物理驱动的控制逻辑
目标跟踪: PI控制器针对期望回报而非轨迹跟踪进行优化，展现了RL框架的灵活性

结论与讨论

主要结论

Gym-TORAX成功提供了RL与等离子体仿真的标准化集成方案
PI控制器基准展示了框架的有效性和潜在改进空间
模块化设计支持快速扩展到新的控制场景

局限性

物理模型限制: 基于TORAX的轴对称假设，限制了复杂三维效应的建模
仿真精度: 适用于初步研究，高精度应用需要更复杂的物理模型
场景覆盖: 当前主要支持ITER场景，需要扩展到更多反应堆配置

未来方向

几何参数化: 支持等离子体和托卡马克几何的直接参数化
物理事件处理: 添加L-H转换等关键物理事件的专用处理工具
TORAX功能扩展: 随TORAX仿真器功能增强而扩展能力

深度评价

优点

填补空白: 首个开源的RL-等离子体控制集成框架，填补了重要的工具空白
设计优雅: 双层时间离散化和模块化设计体现了良好的软件工程实践
实用价值: 降低了RL研究人员进入等离子体控制领域的门槛
基准完整: 提供了完整的ITER场景实现和多种基准策略对比
开源贡献: MIT许可证和完整文档支持社区发展

不足

实验深度有限: 仅展示了简单的PI控制器，缺乏现代RL算法的深入评估
物理验证不足: 未与实际等离子体实验数据进行对比验证
可扩展性未充分展示: 虽然设计支持扩展，但未展示创建新环境的完整流程
性能分析缺失: 未提供计算性能和可扩展性的定量分析

影响力

学术价值: 为RL在等离子体控制的应用提供了标准化平台
工程价值: 促进跨学科合作，加速聚变控制技术发展
教育价值: 降低学习门槛，有助于培养跨领域人才
可复现性: 开源设计和详细文档支持研究可复现性

适用场景

RL算法研究: 测试和比较不同RL算法在等离子体控制中的表现
控制策略开发: 快速原型化和评估新的等离子体控制策略
教育培训: 作为教学工具帮助学生理解RL在物理系统中的应用
初步研究: 在投入昂贵的实际实验前进行算法验证

参考文献

本文引用了等离子体物理、强化学习和仿真技术等多个领域的重要工作，特别是：

TORAX仿真器的核心技术文档
近期在Nature等顶级期刊发表的RL等离子体控制突破性工作
Gymnasium等标准RL环境框架的技术规范

总体评价: Gym-TORAX是一个具有重要实用价值的开源软件贡献，虽然在技术创新上相对保守，但在促进跨学科合作和标准化工具方面具有显著价值。该工作为RL在等离子体控制领域的应用提供了重要的基础设施，有望推动该交叉领域的快速发展。

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

基本信息

摘要

研究背景与动机

问题背景

研究动机

核心贡献

方法详解

任务定义

系统架构

双层时间离散化

核心组件

环境创建流程

技术创新点

实验设置

仿真环境: ITER混合升功率场景

奖励函数设计

对比策略

实现细节

实验结果

主要结果

关键发现

控制轨迹分析

相关工作

等离子体控制中的RL应用

本文优势

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献