This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
論文ID : 2510.11283タイトル : Gym-TORAX: Open-source software for integrating RL with plasma control simulators著者 : Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (ベルギー、リエージュ大学 Montefiore研究所)分類 : cs.LG (機械学習)発表日 : 2025年10月13日論文リンク : https://arxiv.org/abs/2510.11283v1 本論文ではGym-TORAXを紹介する。これはトカマク等プラズマ動力学シミュレーションおよび制御に対して強化学習(RL)環境を実装するPythonパッケージである。ユーザーは制御動作と観測、および制御目標の集合を簡潔に定義でき、Gym-TORAXはTORAXをラップするGymnasium環境を作成してプラズマ動力学をシミュレートする。目標はプラズマシミュレーション状態と制御動作に依存する報酬を通じて定式化され、性能と安定性といったプラズマの特定の特性を最適化する。生成された環境インスタンスは広範なRL アルゴリズムおよびライブラリと互換性があり、プラズマ制御におけるRL研究を促進する。現在のバージョンでは、国際熱核実験炉(ITER)に基づくアップパワーシナリオから1つの環境が利用可能である。
核融合エネルギーの課題 : 核融合反応炉の安定性と性能最適化は核融合エネルギー研究の中心的課題であり、トカマク配置は主要な研究方向として高次元性と強い非線形性の制御課題に直面している。既存シミュレーションツールの限界 :多くのプラズマシミュレータ(RAPTOR、JOREKなど)はオープンソースではなく制限的なライセンスが必要 既存ツールは主にプラズマ物理学者向けに設計されており、RL研究者にとって敷居が高い 制御応用向けのインターフェース設計が不足している 学際的協力の必要性 : プラズマ制御におけるRLの応用には、RL研究者の参入障壁を低下させ、両分野の協力を促進する必要がある。オープンソース、軽量、RL互換のプラズマ制御シミュレーションフレームワークを提供する 古典的なGymnasium APIを通じてプラズマ物理学をカプセル化し、RL研究者が制御戦略最適化に集中できるようにする 新しいプラズマ制御戦略研究とアルゴリズム発見を支援する オープンソースソフトウェアフレームワーク : プラズマ制御研究用の標準化されたRL環境インターフェースを提供するGym-TORAX Pythonパッケージを開発TORAX統合 : TORAXシミュレータのGymnasiumラッパーを作成し、閉ループ制御環境を実装モジュール設計 : ユーザーがBaseEnvクラスを継承してカスタム制御シナリオを定義できる柔軟な環境作成メカニズムを提供ITERベンチマーク環境 : ITER混合アップパワーシナリオに基づく完全な環境を実装し、ベンチマーク制御戦略を含む学際的橋渡し : RL研究者がプラズマ制御分野に参入する技術的障壁を低下させるプラズマ制御問題を有限時間決定論的マルコフ決定過程(MDP)としてモデル化:
状態空間 𝒮: プラズマ状態(温度、密度、磁束など)動作空間 𝒜: 制御変数(総電流、ループ電圧、エネルギー源など)遷移関数 f: 𝒮 × 𝒜 → 𝒮 (TORAXシミュレーションにより実装)報酬関数 r: 𝒮 × 𝒜 → ℝ (ユーザー定義のタスク関連目標)RL相互作用層 : エージェント-環境相互作用のタイムステップ物理シミュレーション層 : TORAXが偏微分方程式を解くタイムステップ(自動またはFixed モード選択可)BaseEnvクラス : 環境作成の標準インターフェースを定義する抽象基底クラスActionクラス : 設定可能な動作定義の抽象クラスObservationクラス : 観測内容定義クラス報酬補助関数 : 専用の報酬関数設計ツールユーザーは4つの抽象メソッドを実装する必要がある:
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# TORAX設定ファイルとシミュレーションパラメータを定義
pass
def _define_action_space(self):
# エージェントが制御するTORAX変数のサブセットを指定
pass
def _define_observation_space(self):
# 観測に含める変数を選択
pass
def _compute_reward(self):
# タスク関連の報酬関数を定義
pass
物理シミュレーションとRLのシームレス統合 : 標準Gymnasium インターフェースを通じて複雑なプラズマ物理シミュレーションをカプセル化柔軟な時間スケール処理 : 二層離散化メカニズムがRL決定周波数と物理シミュレーションタイムステップの差異に対応モジュール設計 : 抽象クラス設計が新しい制御シナリオの迅速な作成をサポートロバストネスメカニズム : シミュレーションエラーと実行不可能な状態を自動処理し、適切な終了条件とペナルティを提供物理背景 : ITER反応炉の混合運転モードに基づく時間スパン : 100秒のアップパワー段階(Lモード) + 50秒の定常段階(Hモード)制御変数 :
IpAction: 総電流制御NbiAction: 中性ビーム注入電力EcrhAction: 電子サイクロトロン共鳴加熱電力4項の線形結合を採用:
r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98
これらは融合利得Q、最小安全係数、境界安全係数、およびHモード制約品質係数にそれぞれ対応する。
開ループ戦略 π_OL: TORAXプリセット動作軌跡を使用ランダム戦略 π_R: 動作空間内で均一にランダムに選択PI制御戦略 π_PI: 比例積分制御器を使用して総電流を制御し、他の変数はプリセット軌跡に従うPIパラメータ最適化 : グリッドサーチにより比例ゲインkpと積分ゲインkiを最適化探索空間 : kp ∈ -10, 0 , ki ∈ 0, 40 グリッド密度 : 20×60 = 1200パラメータ組み合わせ目的関数 : 期待リターン J(π) を最大化戦略 期待リターン π_OL (開ループ) 3.40 π_R (ランダム) -10.79 π_PI (PI制御) 3.79
PI制御器の優位性 : 最適化されたPI制御戦略(kp*=0.700, ki*=34.257)は開ループ戦略と比べて11.5%改善電流制御戦略 : PI戦略は総電流を15MA上限に上昇させる傾向があり、高電流が制約性能を改善するという物理原理と一致パラメータ感度 : 期待リターンはパラメータ空間で複雑な非線形分布を示し、慎重な最適化が必要ランダム戦略 : 不規則な振動を示し、制約部分的に緩和されるPI戦略 : 最大許容値まで安定的に増加し、物理駆動制御ロジックを体現目標追跡 : PI制御器は軌跡追跡ではなく期待リターンに対して最適化され、RLフレームワークの柔軟性を示す磁気制御 : Degrave et al. (Nature 2022) が深層RLを使用してトカマクプラズマ形状を制御安定性制御 : Char et al. (2023) がβN制御を研究、Seo et al. (Nature 2024) が裂け目不安定性を回避シミュレーションツール : RAPTOR、JOREKなどの既存ツールはオープンソース性とRLインターフェースが不足RL向けに特別に設計された初のオープンソースプラズマ制御シミュレーションフレームワーク 標準化インターフェースが学際的研究の障壁を低下させる 最新のJAX技術スタックに基づき、高速自動微分をサポート Gym-TORAXはRLとプラズマシミュレーションの標準化統合ソリューションを成功裏に提供 PIコントローラベンチマークはフレームワークの有効性と潜在的改善空間を示す モジュール設計は新しい制御シナリオへの迅速な拡張をサポート 物理モデルの限界 : TORAXの軸対称仮定に基づき、複雑な3次元効果のモデル化を制限シミュレーション精度 : 初期研究に適用可能だが、高精度応用にはより複雑な物理モデルが必要シナリオカバレッジ : 現在主にITERシナリオをサポートし、より多くの反応炉構成への拡張が必要幾何パラメータ化 : プラズマとトカマク幾何の直接パラメータ化をサポート物理イベント処理 : L-H遷移などの主要物理イベント用の専用処理ツールを追加TORAX機能拡張 : TORAXシミュレータ機能の強化に伴い能力を拡張空白を埋める : RL-プラズマ制御統合フレームワークの初のオープンソース実装で、重要なツール空白を埋める優雅な設計 : 二層時間離散化とモジュール設計は優れたソフトウェアエンジニアリング実践を体現実用的価値 : RL研究者がプラズマ制御分野に参入する障壁を低下させる完全なベンチマーク : 完全なITERシナリオ実装と複数のベンチマーク戦略比較を提供オープンソース貢献 : MITライセンスと完全なドキュメントがコミュニティ発展をサポート実験の深さが限定的 : 単純なPI制御器のみを示し、最新RL アルゴリズムの深い評価が不足物理検証が不十分 : 実際のプラズマ実験データとの比較検証がない拡張性が十分に示されていない : 設計は拡張をサポートするが、新しい環境作成の完全なフロー示されていない性能分析が欠落 : 計算性能とスケーラビリティの定量分析がない学術的価値 : プラズマ制御におけるRL応用の標準化プラットフォームを提供工学的価値 : 学際的協力を促進し、核融合制御技術発展を加速教育的価値 : 学習障壁を低下させ、分野横断的人材育成を支援再現性 : オープンソース設計と詳細なドキュメントが研究再現性をサポートRLアルゴリズム研究 : プラズマ制御における異なるRLアルゴリズムの性能をテストと比較制御戦略開発 : 新しいプラズマ制御戦略の迅速なプロトタイピングと評価教育訓練 : RL が物理システムに応用される方法を理解するための教育ツール初期研究 : 高額な実際の実験に投資する前のアルゴリズム検証本論文はプラズマ物理学、強化学習、シミュレーション技術など複数分野の重要な研究を引用しており、特に:
TORAXシミュレータのコア技術ドキュメント Nature等トップティア誌に発表されたRL プラズマ制御の革新的研究 Gymnasium等標準RLフレームワークの技術仕様 総合評価 : Gym-TORAXは重要な実用的価値を持つオープンソースソフトウェア貢献である。技術革新は相対的に保守的だが、学際的協力の促進と標準化ツール提供の面で顕著な価値を持つ。本研究はプラズマ制御分野におけるRL応用に重要なインフラストラクチャを提供し、この交差領域の急速な発展を推進することが期待される。