2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.

This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).

academic

Gym-TORAX: Software de código abierto para integrar RL con simuladores de control de plasma

Información Básica

ID del Artículo: 2510.11283
Título: Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Autores: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Instituto Montefiore, Universidad de Lieja, Bélgica)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.11283v1

Resumen

Este artículo presenta Gym-TORAX, un paquete de Python que implementa entornos de aprendizaje por refuerzo (RL) para simulación y control de dinámica de plasma en tokamaks. Los usuarios pueden definir de manera concisa un conjunto de acciones de control y observaciones, así como objetivos de control; Gym-TORAX crea un entorno Gymnasium que envuelve TORAX para simular la dinámica del plasma. Los objetivos se formulan mediante funciones de recompensa que dependen del estado de la simulación del plasma y las acciones de control, para optimizar características específicas del plasma, como el rendimiento y la estabilidad. Las instancias de entorno generadas son compatibles con una amplia gama de algoritmos y bibliotecas de RL, lo que facilitará la investigación de RL en control de plasma. En la versión actual, basada en el escenario de aumento de potencia del Reactor Termonuclear Experimental Internacional (ITER), hay un entorno disponible para su uso.

Antecedentes de Investigación y Motivación

Contexto del Problema

Desafíos de la Energía de Fusión Nuclear: La optimización de la estabilidad y el rendimiento de los reactores de fusión nuclear es un problema central en la investigación de energía de fusión; la configuración de tokamak como dirección principal de investigación enfrenta desafíos de control de alta dimensionalidad y fuerte no linealidad.
Limitaciones de las Herramientas de Simulación Existentes:
- Muchos simuladores de plasma (como RAPTOR, JOREK) no son de código abierto y requieren licencias restrictivas
- Las herramientas existentes están diseñadas principalmente para físicos de plasma, con una barrera de entrada elevada para investigadores de RL
- Falta de diseño de interfaz orientado a aplicaciones de control
Necesidad de Colaboración Interdisciplinaria: La aplicación de RL en control de plasma requiere reducir la barrera de entrada para investigadores de RL y promover la colaboración entre dos campos.

Motivación de la Investigación

Proporcionar un marco de simulación de control de plasma de código abierto, ligero y compatible con RL
Encapsular la física del plasma a través de la API clásica de Gymnasium, permitiendo que los investigadores de RL se enfoquen en la optimización de estrategias de control
Apoyar la investigación de nuevas estrategias de control de plasma y el descubrimiento de algoritmos

Contribuciones Principales

Marco de Software de Código Abierto: Desarrollo del paquete Python Gym-TORAX, que proporciona una interfaz de entorno RL estandarizada para investigación de control de plasma
Integración de TORAX: Creación de un envoltorio Gymnasium para el simulador TORAX, implementando un entorno de control en bucle cerrado
Diseño Modular: Proporciona un mecanismo flexible de creación de entornos; los usuarios pueden definir escenarios de control personalizados heredando la clase BaseEnv
Entorno de Referencia ITER: Implementación de un entorno completo basado en el escenario de aumento de potencia híbrido de ITER, incluyendo estrategias de control de referencia
Puente Interdisciplinario: Reduce la barrera técnica de entrada para investigadores de RL en el campo del control de plasma

Explicación Detallada de Métodos

Definición de Tareas

Modelar el problema de control de plasma como un Proceso de Decisión de Markov (MDP) determinista de tiempo finito:

Espacio de Estados 𝒮: Estado del plasma (temperatura, densidad, flujo magnético, etc.)
Espacio de Acciones 𝒜: Variables de control (corriente total, voltaje toroidal, fuentes de energía, etc.)
Función de Transición f: 𝒮 × 𝒜 → 𝒮 (implementada mediante simulación TORAX)
Función de Recompensa r: 𝒮 × 𝒜 → ℝ (objetivos relacionados con tareas definidos por el usuario)

Arquitectura del Sistema

Discretización Temporal de Dos Capas

Capa de Interacción RL: Paso de tiempo para la interacción agente-entorno
Capa de Simulación Física: Paso de tiempo para la resolución de ecuaciones diferenciales parciales por TORAX (modo auto o fixed opcional)

Componentes Principales

Clase BaseEnv: Clase base abstracta que define la interfaz estándar para creación de entornos
Clase Action: Clase abstracta de definición de acciones configurable
Clase Observation: Clase de definición de contenido de observación
Funciones Auxiliares de Recompensa: Herramientas especializadas para diseño de funciones de recompensa

Flujo de Creación de Entornos

Los usuarios deben implementar cuatro métodos abstractos:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Definir archivo de configuración TORAX y parámetros de simulación
        pass
    
    def _define_action_space(self):
        # Especificar subconjunto de variables TORAX controladas por el agente
        pass
    
    def _define_observation_space(self):
        # Seleccionar variables incluidas en la observación
        pass
    
    def _compute_reward(self):
        # Definir función de recompensa relacionada con la tarea
        pass

Puntos de Innovación Técnica

Integración Fluida de Simulación Física y RL: Encapsulación de simulación de plasma compleja a través de la interfaz estándar de Gymnasium
Manejo Flexible de Escalas de Tiempo: Mecanismo de discretización de dos capas para manejar diferencias entre frecuencia de decisión de RL y paso de tiempo de simulación física
Diseño Modular: Diseño de clase abstracta que soporta creación rápida de nuevos escenarios de control
Mecanismos de Robustez: Manejo automático de errores de simulación y estados no viables, proporcionando condiciones de terminación y penalizaciones apropiadas

Configuración Experimental

Entorno de Simulación: Escenario de Aumento de Potencia Híbrido ITER

Contexto Físico: Basado en modo de operación híbrido del reactor ITER
Período de Tiempo: 100 segundos de fase de aumento de potencia (modo L) + 50 segundos de fase estacionaria (modo H)
Variables de Control:
- IpAction: Control de corriente total
- NbiAction: Potencia de inyección de haz neutro
- EcrhAction: Potencia de calentamiento por resonancia ciclotrónica de electrones

Diseño de Función de Recompensa

Combinación lineal de cuatro términos:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

Correspondientes a ganancia de fusión Q, factor de seguridad mínimo, factor de seguridad de borde y factor de calidad de confinamiento en modo H.

Estrategias de Comparación

Estrategia de Bucle Abierto π_OL: Uso de trayectoria de acción preestablecida en TORAX
Estrategia Aleatoria π_R: Selección uniforme aleatoria dentro del espacio de acciones
Estrategia de Control PI π_PI: Uso de controlador proporcional-integral para controlar corriente total; otras variables siguen trayectoria preestablecida

Detalles de Implementación

Optimización de Parámetros PI: Búsqueda en cuadrícula para optimizar ganancia proporcional kp e integral ki
Espacio de Búsqueda: kp ∈ -10, 0, ki ∈ 0, 40
Densidad de Cuadrícula: 20×60 = 1200 combinaciones de parámetros
Función Objetivo: Maximizar retorno esperado J(π)

Resultados Experimentales

Resultados Principales

Estrategia	Retorno Esperado
π_OL (Bucle Abierto)	3.40
π_R (Aleatorio)	-10.79
π_PI (Control PI)	3.79

Hallazgos Clave

Ventaja del Controlador PI: La estrategia de control PI optimizada (kp*=0.700, ki*=34.257) muestra una mejora del 11.5% en comparación con la estrategia de bucle abierto
Estrategia de Control de Corriente: La estrategia PI tiende a aumentar la corriente total al límite superior de 15MA, consistente con el principio físico de que corriente más alta mejora el rendimiento de confinamiento
Sensibilidad de Parámetros: El retorno esperado presenta una distribución no lineal compleja en el espacio de parámetros, requiriendo optimización cuidadosa

Análisis de Trayectorias de Control

Estrategia Aleatoria: Presenta oscilaciones irregulares, con restricciones parcialmente mitigadas
Estrategia PI: Crecimiento estable hasta el valor máximo permitido, reflejando lógica de control impulsada por física
Seguimiento de Objetivos: El controlador PI se optimiza para retorno esperado en lugar de seguimiento de trayectoria, demostrando la flexibilidad del marco RL

Trabajo Relacionado

Aplicaciones de RL en Control de Plasma

Control Magnético: Degrave et al. (Nature 2022) utilizan RL profundo para controlar forma de plasma en tokamak
Control de Estabilidad: Char et al. (2023) estudian control de βN, Seo et al. (Nature 2024) evitan inestabilidades de rasgadura
Herramientas de Simulación: Herramientas existentes como RAPTOR, JOREK carecen de código abierto e interfaz RL

Ventajas de Este Trabajo

Primer marco de simulación de control de plasma de código abierto diseñado específicamente para RL
Interfaz estandarizada reduce barrera de investigación interdisciplinaria
Basado en pila tecnológica JAX moderna, soporta diferenciación automática rápida

Conclusiones y Discusión

Conclusiones Principales

Gym-TORAX proporciona exitosamente una solución estandarizada de integración entre RL y simulación de plasma
El controlador PI de referencia demuestra la efectividad del marco y espacio para mejora potencial
El diseño modular soporta expansión rápida a nuevos escenarios de control

Limitaciones

Limitaciones del Modelo Físico: Basado en suposición axisimétrica de TORAX, limitando modelado de efectos tridimensionales complejos
Precisión de Simulación: Aplicable para investigación preliminar; aplicaciones de alta precisión requieren modelos físicos más complejos
Cobertura de Escenarios: Actualmente soporta principalmente escenarios ITER, necesita expansión a más configuraciones de reactores

Direcciones Futuras

Parametrización Geométrica: Soportar parametrización directa de geometría de plasma y tokamak
Manejo de Eventos Físicos: Agregar herramientas de manejo especializado para eventos físicos clave como transición L-H
Extensión de Funcionalidad TORAX: Expandir capacidades conforme el simulador TORAX se mejora

Evaluación Profunda

Fortalezas

Llenar Vacío: Primer marco integrado de código abierto RL-control de plasma, llena vacío importante en herramientas
Diseño Elegante: Discretización temporal de dos capas y diseño modular reflejan buenas prácticas de ingeniería de software
Valor Práctico: Reduce barrera de entrada para investigadores de RL en campo de control de plasma
Referencia Completa: Proporciona implementación completa de escenario ITER y comparación de múltiples estrategias de referencia
Contribución de Código Abierto: Licencia MIT y documentación completa soportan desarrollo comunitario

Insuficiencias

Profundidad Experimental Limitada: Solo demuestra controlador PI simple, carece de evaluación profunda de algoritmos RL modernos
Validación Física Insuficiente: Sin comparación con datos de experimentos de plasma real
Escalabilidad No Completamente Demostrada: Aunque diseño soporta extensión, no demuestra proceso completo de crear nuevo entorno
Análisis de Rendimiento Faltante: Sin análisis cuantitativo de rendimiento computacional y escalabilidad

Impacto

Valor Académico: Proporciona plataforma estandarizada para aplicación de RL en control de plasma
Valor de Ingeniería: Promueve colaboración interdisciplinaria, acelera desarrollo de tecnología de control de fusión
Valor Educativo: Reduce barrera de aprendizaje, ayuda cultivar talento interdisciplinario
Reproducibilidad: Diseño de código abierto y documentación detallada soportan reproducibilidad de investigación

Escenarios Aplicables

Investigación de Algoritmos RL: Prueba y comparación de diferentes algoritmos RL en control de plasma
Desarrollo de Estrategias de Control: Prototipado rápido y evaluación de nuevas estrategias de control de plasma
Capacitación Educativa: Como herramienta educativa ayudando estudiantes entender aplicación de RL en sistemas físicos
Investigación Preliminar: Validación de algoritmos antes de invertir en experimentos reales costosos

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo física de plasma, aprendizaje por refuerzo y tecnología de simulación, particularmente:

Documentación técnica principal del simulador TORAX
Trabajos de avance reciente en RL para control de plasma publicados en revistas de alto nivel como Nature
Especificaciones técnicas de marcos de entorno RL estándar como Gymnasium

Evaluación General: Gym-TORAX es una contribución de software de código abierto con importante valor práctico. Aunque es relativamente conservador en innovación técnica, posee valor significativo en promover colaboración interdisciplinaria y herramientas estandarizadas. Este trabajo proporciona infraestructura importante para aplicación de RL en control de plasma, con potencial para impulsar desarrollo rápido en este campo interdisciplinario.