2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic

Gym-TORAX: Software de código abierto para integrar RL con simuladores de control de plasma

Información Básica

  • ID del Artículo: 2510.11283
  • Título: Gym-TORAX: Open-source software for integrating RL with plasma control simulators
  • Autores: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Instituto Montefiore, Universidad de Lieja, Bélgica)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 13 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.11283v1

Resumen

Este artículo presenta Gym-TORAX, un paquete de Python que implementa entornos de aprendizaje por refuerzo (RL) para simulación y control de dinámica de plasma en tokamaks. Los usuarios pueden definir de manera concisa un conjunto de acciones de control y observaciones, así como objetivos de control; Gym-TORAX crea un entorno Gymnasium que envuelve TORAX para simular la dinámica del plasma. Los objetivos se formulan mediante funciones de recompensa que dependen del estado de la simulación del plasma y las acciones de control, para optimizar características específicas del plasma, como el rendimiento y la estabilidad. Las instancias de entorno generadas son compatibles con una amplia gama de algoritmos y bibliotecas de RL, lo que facilitará la investigación de RL en control de plasma. En la versión actual, basada en el escenario de aumento de potencia del Reactor Termonuclear Experimental Internacional (ITER), hay un entorno disponible para su uso.

Antecedentes de Investigación y Motivación

Contexto del Problema

  1. Desafíos de la Energía de Fusión Nuclear: La optimización de la estabilidad y el rendimiento de los reactores de fusión nuclear es un problema central en la investigación de energía de fusión; la configuración de tokamak como dirección principal de investigación enfrenta desafíos de control de alta dimensionalidad y fuerte no linealidad.
  2. Limitaciones de las Herramientas de Simulación Existentes:
    • Muchos simuladores de plasma (como RAPTOR, JOREK) no son de código abierto y requieren licencias restrictivas
    • Las herramientas existentes están diseñadas principalmente para físicos de plasma, con una barrera de entrada elevada para investigadores de RL
    • Falta de diseño de interfaz orientado a aplicaciones de control
  3. Necesidad de Colaboración Interdisciplinaria: La aplicación de RL en control de plasma requiere reducir la barrera de entrada para investigadores de RL y promover la colaboración entre dos campos.

Motivación de la Investigación

  • Proporcionar un marco de simulación de control de plasma de código abierto, ligero y compatible con RL
  • Encapsular la física del plasma a través de la API clásica de Gymnasium, permitiendo que los investigadores de RL se enfoquen en la optimización de estrategias de control
  • Apoyar la investigación de nuevas estrategias de control de plasma y el descubrimiento de algoritmos

Contribuciones Principales

  1. Marco de Software de Código Abierto: Desarrollo del paquete Python Gym-TORAX, que proporciona una interfaz de entorno RL estandarizada para investigación de control de plasma
  2. Integración de TORAX: Creación de un envoltorio Gymnasium para el simulador TORAX, implementando un entorno de control en bucle cerrado
  3. Diseño Modular: Proporciona un mecanismo flexible de creación de entornos; los usuarios pueden definir escenarios de control personalizados heredando la clase BaseEnv
  4. Entorno de Referencia ITER: Implementación de un entorno completo basado en el escenario de aumento de potencia híbrido de ITER, incluyendo estrategias de control de referencia
  5. Puente Interdisciplinario: Reduce la barrera técnica de entrada para investigadores de RL en el campo del control de plasma

Explicación Detallada de Métodos

Definición de Tareas

Modelar el problema de control de plasma como un Proceso de Decisión de Markov (MDP) determinista de tiempo finito:

  • Espacio de Estados 𝒮: Estado del plasma (temperatura, densidad, flujo magnético, etc.)
  • Espacio de Acciones 𝒜: Variables de control (corriente total, voltaje toroidal, fuentes de energía, etc.)
  • Función de Transición f: 𝒮 × 𝒜 → 𝒮 (implementada mediante simulación TORAX)
  • Función de Recompensa r: 𝒮 × 𝒜 → ℝ (objetivos relacionados con tareas definidos por el usuario)

Arquitectura del Sistema

Discretización Temporal de Dos Capas

  1. Capa de Interacción RL: Paso de tiempo para la interacción agente-entorno
  2. Capa de Simulación Física: Paso de tiempo para la resolución de ecuaciones diferenciales parciales por TORAX (modo auto o fixed opcional)

Componentes Principales

  1. Clase BaseEnv: Clase base abstracta que define la interfaz estándar para creación de entornos
  2. Clase Action: Clase abstracta de definición de acciones configurable
  3. Clase Observation: Clase de definición de contenido de observación
  4. Funciones Auxiliares de Recompensa: Herramientas especializadas para diseño de funciones de recompensa

Flujo de Creación de Entornos

Los usuarios deben implementar cuatro métodos abstractos:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Definir archivo de configuración TORAX y parámetros de simulación
        pass
    
    def _define_action_space(self):
        # Especificar subconjunto de variables TORAX controladas por el agente
        pass
    
    def _define_observation_space(self):
        # Seleccionar variables incluidas en la observación
        pass
    
    def _compute_reward(self):
        # Definir función de recompensa relacionada con la tarea
        pass

Puntos de Innovación Técnica

  1. Integración Fluida de Simulación Física y RL: Encapsulación de simulación de plasma compleja a través de la interfaz estándar de Gymnasium
  2. Manejo Flexible de Escalas de Tiempo: Mecanismo de discretización de dos capas para manejar diferencias entre frecuencia de decisión de RL y paso de tiempo de simulación física
  3. Diseño Modular: Diseño de clase abstracta que soporta creación rápida de nuevos escenarios de control
  4. Mecanismos de Robustez: Manejo automático de errores de simulación y estados no viables, proporcionando condiciones de terminación y penalizaciones apropiadas

Configuración Experimental

Entorno de Simulación: Escenario de Aumento de Potencia Híbrido ITER

  • Contexto Físico: Basado en modo de operación híbrido del reactor ITER
  • Período de Tiempo: 100 segundos de fase de aumento de potencia (modo L) + 50 segundos de fase estacionaria (modo H)
  • Variables de Control:
    • IpAction: Control de corriente total
    • NbiAction: Potencia de inyección de haz neutro
    • EcrhAction: Potencia de calentamiento por resonancia ciclotrónica de electrones

Diseño de Función de Recompensa

Combinación lineal de cuatro términos:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

Correspondientes a ganancia de fusión Q, factor de seguridad mínimo, factor de seguridad de borde y factor de calidad de confinamiento en modo H.

Estrategias de Comparación

  1. Estrategia de Bucle Abierto π_OL: Uso de trayectoria de acción preestablecida en TORAX
  2. Estrategia Aleatoria π_R: Selección uniforme aleatoria dentro del espacio de acciones
  3. Estrategia de Control PI π_PI: Uso de controlador proporcional-integral para controlar corriente total; otras variables siguen trayectoria preestablecida

Detalles de Implementación

  • Optimización de Parámetros PI: Búsqueda en cuadrícula para optimizar ganancia proporcional kp e integral ki
  • Espacio de Búsqueda: kp ∈ -10, 0, ki ∈ 0, 40
  • Densidad de Cuadrícula: 20×60 = 1200 combinaciones de parámetros
  • Función Objetivo: Maximizar retorno esperado J(π)

Resultados Experimentales

Resultados Principales

EstrategiaRetorno Esperado
π_OL (Bucle Abierto)3.40
π_R (Aleatorio)-10.79
π_PI (Control PI)3.79

Hallazgos Clave

  1. Ventaja del Controlador PI: La estrategia de control PI optimizada (kp*=0.700, ki*=34.257) muestra una mejora del 11.5% en comparación con la estrategia de bucle abierto
  2. Estrategia de Control de Corriente: La estrategia PI tiende a aumentar la corriente total al límite superior de 15MA, consistente con el principio físico de que corriente más alta mejora el rendimiento de confinamiento
  3. Sensibilidad de Parámetros: El retorno esperado presenta una distribución no lineal compleja en el espacio de parámetros, requiriendo optimización cuidadosa

Análisis de Trayectorias de Control

  • Estrategia Aleatoria: Presenta oscilaciones irregulares, con restricciones parcialmente mitigadas
  • Estrategia PI: Crecimiento estable hasta el valor máximo permitido, reflejando lógica de control impulsada por física
  • Seguimiento de Objetivos: El controlador PI se optimiza para retorno esperado en lugar de seguimiento de trayectoria, demostrando la flexibilidad del marco RL

Trabajo Relacionado

Aplicaciones de RL en Control de Plasma

  1. Control Magnético: Degrave et al. (Nature 2022) utilizan RL profundo para controlar forma de plasma en tokamak
  2. Control de Estabilidad: Char et al. (2023) estudian control de βN, Seo et al. (Nature 2024) evitan inestabilidades de rasgadura
  3. Herramientas de Simulación: Herramientas existentes como RAPTOR, JOREK carecen de código abierto e interfaz RL

Ventajas de Este Trabajo

  • Primer marco de simulación de control de plasma de código abierto diseñado específicamente para RL
  • Interfaz estandarizada reduce barrera de investigación interdisciplinaria
  • Basado en pila tecnológica JAX moderna, soporta diferenciación automática rápida

Conclusiones y Discusión

Conclusiones Principales

  1. Gym-TORAX proporciona exitosamente una solución estandarizada de integración entre RL y simulación de plasma
  2. El controlador PI de referencia demuestra la efectividad del marco y espacio para mejora potencial
  3. El diseño modular soporta expansión rápida a nuevos escenarios de control

Limitaciones

  1. Limitaciones del Modelo Físico: Basado en suposición axisimétrica de TORAX, limitando modelado de efectos tridimensionales complejos
  2. Precisión de Simulación: Aplicable para investigación preliminar; aplicaciones de alta precisión requieren modelos físicos más complejos
  3. Cobertura de Escenarios: Actualmente soporta principalmente escenarios ITER, necesita expansión a más configuraciones de reactores

Direcciones Futuras

  1. Parametrización Geométrica: Soportar parametrización directa de geometría de plasma y tokamak
  2. Manejo de Eventos Físicos: Agregar herramientas de manejo especializado para eventos físicos clave como transición L-H
  3. Extensión de Funcionalidad TORAX: Expandir capacidades conforme el simulador TORAX se mejora

Evaluación Profunda

Fortalezas

  1. Llenar Vacío: Primer marco integrado de código abierto RL-control de plasma, llena vacío importante en herramientas
  2. Diseño Elegante: Discretización temporal de dos capas y diseño modular reflejan buenas prácticas de ingeniería de software
  3. Valor Práctico: Reduce barrera de entrada para investigadores de RL en campo de control de plasma
  4. Referencia Completa: Proporciona implementación completa de escenario ITER y comparación de múltiples estrategias de referencia
  5. Contribución de Código Abierto: Licencia MIT y documentación completa soportan desarrollo comunitario

Insuficiencias

  1. Profundidad Experimental Limitada: Solo demuestra controlador PI simple, carece de evaluación profunda de algoritmos RL modernos
  2. Validación Física Insuficiente: Sin comparación con datos de experimentos de plasma real
  3. Escalabilidad No Completamente Demostrada: Aunque diseño soporta extensión, no demuestra proceso completo de crear nuevo entorno
  4. Análisis de Rendimiento Faltante: Sin análisis cuantitativo de rendimiento computacional y escalabilidad

Impacto

  1. Valor Académico: Proporciona plataforma estandarizada para aplicación de RL en control de plasma
  2. Valor de Ingeniería: Promueve colaboración interdisciplinaria, acelera desarrollo de tecnología de control de fusión
  3. Valor Educativo: Reduce barrera de aprendizaje, ayuda cultivar talento interdisciplinario
  4. Reproducibilidad: Diseño de código abierto y documentación detallada soportan reproducibilidad de investigación

Escenarios Aplicables

  1. Investigación de Algoritmos RL: Prueba y comparación de diferentes algoritmos RL en control de plasma
  2. Desarrollo de Estrategias de Control: Prototipado rápido y evaluación de nuevas estrategias de control de plasma
  3. Capacitación Educativa: Como herramienta educativa ayudando estudiantes entender aplicación de RL en sistemas físicos
  4. Investigación Preliminar: Validación de algoritmos antes de invertir en experimentos reales costosos

Referencias

Este artículo cita trabajos importantes de múltiples campos incluyendo física de plasma, aprendizaje por refuerzo y tecnología de simulación, particularmente:

  • Documentación técnica principal del simulador TORAX
  • Trabajos de avance reciente en RL para control de plasma publicados en revistas de alto nivel como Nature
  • Especificaciones técnicas de marcos de entorno RL estándar como Gymnasium

Evaluación General: Gym-TORAX es una contribución de software de código abierto con importante valor práctico. Aunque es relativamente conservador en innovación técnica, posee valor significativo en promover colaboración interdisciplinaria y herramientas estandarizadas. Este trabajo proporciona infraestructura importante para aplicación de RL en control de plasma, con potencial para impulsar desarrollo rápido en este campo interdisciplinario.