Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX: Software de código abierto para integrar RL con simuladores de control de plasma
Este artículo presenta Gym-TORAX, un paquete de Python que implementa entornos de aprendizaje por refuerzo (RL) para simulación y control de dinámica de plasma en tokamaks. Los usuarios pueden definir de manera concisa un conjunto de acciones de control y observaciones, así como objetivos de control; Gym-TORAX crea un entorno Gymnasium que envuelve TORAX para simular la dinámica del plasma. Los objetivos se formulan mediante funciones de recompensa que dependen del estado de la simulación del plasma y las acciones de control, para optimizar características específicas del plasma, como el rendimiento y la estabilidad. Las instancias de entorno generadas son compatibles con una amplia gama de algoritmos y bibliotecas de RL, lo que facilitará la investigación de RL en control de plasma. En la versión actual, basada en el escenario de aumento de potencia del Reactor Termonuclear Experimental Internacional (ITER), hay un entorno disponible para su uso.
Desafíos de la Energía de Fusión Nuclear: La optimización de la estabilidad y el rendimiento de los reactores de fusión nuclear es un problema central en la investigación de energía de fusión; la configuración de tokamak como dirección principal de investigación enfrenta desafíos de control de alta dimensionalidad y fuerte no linealidad.
Limitaciones de las Herramientas de Simulación Existentes:
Muchos simuladores de plasma (como RAPTOR, JOREK) no son de código abierto y requieren licencias restrictivas
Las herramientas existentes están diseñadas principalmente para físicos de plasma, con una barrera de entrada elevada para investigadores de RL
Falta de diseño de interfaz orientado a aplicaciones de control
Necesidad de Colaboración Interdisciplinaria: La aplicación de RL en control de plasma requiere reducir la barrera de entrada para investigadores de RL y promover la colaboración entre dos campos.
Proporcionar un marco de simulación de control de plasma de código abierto, ligero y compatible con RL
Encapsular la física del plasma a través de la API clásica de Gymnasium, permitiendo que los investigadores de RL se enfoquen en la optimización de estrategias de control
Apoyar la investigación de nuevas estrategias de control de plasma y el descubrimiento de algoritmos
Marco de Software de Código Abierto: Desarrollo del paquete Python Gym-TORAX, que proporciona una interfaz de entorno RL estandarizada para investigación de control de plasma
Integración de TORAX: Creación de un envoltorio Gymnasium para el simulador TORAX, implementando un entorno de control en bucle cerrado
Diseño Modular: Proporciona un mecanismo flexible de creación de entornos; los usuarios pueden definir escenarios de control personalizados heredando la clase BaseEnv
Entorno de Referencia ITER: Implementación de un entorno completo basado en el escenario de aumento de potencia híbrido de ITER, incluyendo estrategias de control de referencia
Puente Interdisciplinario: Reduce la barrera técnica de entrada para investigadores de RL en el campo del control de plasma
Los usuarios deben implementar cuatro métodos abstractos:
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# Definir archivo de configuración TORAX y parámetros de simulación
pass
def _define_action_space(self):
# Especificar subconjunto de variables TORAX controladas por el agente
pass
def _define_observation_space(self):
# Seleccionar variables incluidas en la observación
pass
def _compute_reward(self):
# Definir función de recompensa relacionada con la tarea
pass
Integración Fluida de Simulación Física y RL: Encapsulación de simulación de plasma compleja a través de la interfaz estándar de Gymnasium
Manejo Flexible de Escalas de Tiempo: Mecanismo de discretización de dos capas para manejar diferencias entre frecuencia de decisión de RL y paso de tiempo de simulación física
Diseño Modular: Diseño de clase abstracta que soporta creación rápida de nuevos escenarios de control
Mecanismos de Robustez: Manejo automático de errores de simulación y estados no viables, proporcionando condiciones de terminación y penalizaciones apropiadas
Estrategia de Bucle Abierto π_OL: Uso de trayectoria de acción preestablecida en TORAX
Estrategia Aleatoria π_R: Selección uniforme aleatoria dentro del espacio de acciones
Estrategia de Control PI π_PI: Uso de controlador proporcional-integral para controlar corriente total; otras variables siguen trayectoria preestablecida
Ventaja del Controlador PI: La estrategia de control PI optimizada (kp*=0.700, ki*=34.257) muestra una mejora del 11.5% en comparación con la estrategia de bucle abierto
Estrategia de Control de Corriente: La estrategia PI tiende a aumentar la corriente total al límite superior de 15MA, consistente con el principio físico de que corriente más alta mejora el rendimiento de confinamiento
Sensibilidad de Parámetros: El retorno esperado presenta una distribución no lineal compleja en el espacio de parámetros, requiriendo optimización cuidadosa
Estrategia Aleatoria: Presenta oscilaciones irregulares, con restricciones parcialmente mitigadas
Estrategia PI: Crecimiento estable hasta el valor máximo permitido, reflejando lógica de control impulsada por física
Seguimiento de Objetivos: El controlador PI se optimiza para retorno esperado en lugar de seguimiento de trayectoria, demostrando la flexibilidad del marco RL
Este artículo cita trabajos importantes de múltiples campos incluyendo física de plasma, aprendizaje por refuerzo y tecnología de simulación, particularmente:
Documentación técnica principal del simulador TORAX
Trabajos de avance reciente en RL para control de plasma publicados en revistas de alto nivel como Nature
Especificaciones técnicas de marcos de entorno RL estándar como Gymnasium
Evaluación General: Gym-TORAX es una contribución de software de código abierto con importante valor práctico. Aunque es relativamente conservador en innovación técnica, posee valor significativo en promover colaboración interdisciplinaria y herramientas estandarizadas. Este trabajo proporciona infraestructura importante para aplicación de RL en control de plasma, con potencial para impulsar desarrollo rápido en este campo interdisciplinario.