Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX : Logiciel open-source pour l'intégration de l'RL avec les simulateurs de contrôle du plasma
Cet article présente Gym-TORAX, un package Python capable de mettre en œuvre des environnements d'apprentissage par renforcement (RL) pour la simulation et le contrôle de la dynamique du plasma des tokamaks. Les utilisateurs peuvent définir de manière concise un ensemble d'actions de contrôle et d'observations, ainsi que des objectifs de contrôle. Gym-TORAX crée alors un environnement Gymnasium encapsulant TORAX pour simuler la dynamique du plasma. Les objectifs sont formulés via des récompenses dépendant de l'état de la simulation du plasma et des actions de contrôle, afin d'optimiser des caractéristiques spécifiques du plasma, telles que la performance et la stabilité. L'instance d'environnement générée est compatible avec un large éventail d'algorithmes et de bibliothèques RL, ce qui favorisera la recherche en RL pour le contrôle du plasma. Dans la version actuelle, un environnement basé sur le scénario de montée en puissance du Réacteur Thermonucléaire Expérimental International (ITER) est disponible.
Défis de l'énergie de fusion nucléaire : La stabilité et l'optimisation des performances des réacteurs de fusion nucléaire constituent un problème central de la recherche en énergie de fusion. La configuration tokamak, en tant que direction de recherche principale, fait face à des défis de contrôle hautement dimensionnels et fortement non-linéaires.
Limitations des outils de simulation existants :
De nombreux simulateurs de plasma (tels que RAPTOR, JOREK) ne sont pas open-source et nécessitent des licences restrictives
Les outils existants sont principalement conçus pour les physiciens du plasma, ce qui crée une barrière d'entrée élevée pour les chercheurs en RL
Absence d'interfaces conçues pour les applications de contrôle
Besoin de collaboration interdisciplinaire : L'application du RL au contrôle du plasma nécessite de réduire la barrière d'entrée pour les chercheurs en RL et de promouvoir la collaboration entre les deux domaines.
Fournir un cadre de simulation du contrôle du plasma open-source, léger et compatible avec le RL
Encapsuler la physique du plasma via l'API Gymnasium classique, permettant aux chercheurs en RL de se concentrer sur l'optimisation des stratégies de contrôle
Soutenir la recherche de nouvelles stratégies de contrôle du plasma et la découverte d'algorithmes
Cadre logiciel open-source : Développement du package Python Gym-TORAX, fournissant une interface d'environnement RL standardisée pour la recherche en contrôle du plasma
Intégration TORAX : Création d'un wrapper Gymnasium pour le simulateur TORAX, réalisant un environnement de contrôle en boucle fermée
Conception modulaire : Fourniture d'un mécanisme flexible de création d'environnement, permettant aux utilisateurs de définir des scénarios de contrôle personnalisés via l'héritage de la classe BaseEnv
Environnement de référence ITER : Implémentation d'un environnement complet basé sur le scénario de montée en puissance hybride d'ITER, incluant des stratégies de contrôle de référence
Pont interdisciplinaire : Réduction de la barrière technique pour les chercheurs en RL entrant dans le domaine du contrôle du plasma
Les utilisateurs doivent implémenter quatre méthodes abstraites :
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# Définir le fichier de configuration TORAX et les paramètres de simulation
pass
def _define_action_space(self):
# Spécifier le sous-ensemble de variables TORAX contrôlées par l'agent
pass
def _define_observation_space(self):
# Sélectionner les variables à inclure dans l'observation
pass
def _compute_reward(self):
# Définir la fonction de récompense liée à la tâche
pass
Intégration transparente de la simulation physique et du RL : Encapsulation de la simulation complexe de la physique du plasma via l'interface Gymnasium standard
Gestion flexible des échelles de temps : Mécanisme de discrétisation à deux niveaux traitant la différence entre la fréquence de décision du RL et le pas de temps de la simulation physique
Conception modulaire : La conception par classes abstraites supporte la création rapide de nouveaux scénarios de contrôle
Mécanismes de robustesse : Gestion automatique des erreurs de simulation et des états non réalisables, fournissant des conditions de terminaison appropriées et des pénalités
r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98
correspondant respectivement au gain de fusion Q, au facteur de sécurité minimum, au facteur de sécurité en bordure et au facteur de qualité de confinement en mode H.
Stratégie en boucle ouverte π_OL : Utilisation de la trajectoire d'action prédéfinie de TORAX
Stratégie aléatoire π_R : Sélection uniforme aléatoire dans l'espace d'action
Stratégie de contrôle PI π_PI : Utilisation d'un contrôleur proportionnel-intégral pour contrôler le courant total, les autres variables suivant les trajectoires prédéfinies
Avantage du contrôleur PI : La stratégie de contrôle PI optimisée (kp*=0.700, ki*=34.257) améliore de 11,5% par rapport à la stratégie en boucle ouverte
Stratégie de contrôle du courant : La stratégie PI tend à augmenter le courant total jusqu'à la limite de 15 MA, ce qui est conforme au principe physique selon lequel un courant élevé améliore les performances de confinement
Sensibilité des paramètres : Le rendement attendu présente une distribution non-linéaire complexe dans l'espace des paramètres, nécessitant une optimisation minutieuse
Stratégie aléatoire : Présente des oscillations irrégulières, avec un soulagement partiel des contraintes
Stratégie PI : Croissance stable jusqu'à la valeur maximale autorisée, reflétant une logique de contrôle guidée par la physique
Suivi d'objectif : Le contrôleur PI est optimisé pour le rendement attendu plutôt que pour le suivi de trajectoire, démontrant la flexibilité du cadre RL
Limitations du modèle physique : Basé sur l'hypothèse axisymétrique de TORAX, limitant la modélisation des effets tridimensionnels complexes
Précision de simulation : Applicable aux études préliminaires, les applications haute précision nécessitent des modèles physiques plus complexes
Couverture des scénarios : Actuellement principalement supporté pour les scénarios ITER, nécessitant une extension à plus de configurations de réacteurs
Profondeur expérimentale limitée : Démonstration uniquement d'un simple contrôleur PI, manquant d'évaluation approfondie des algorithmes RL modernes
Validation physique insuffisante : Absence de comparaison avec les données d'expériences réelles de plasma
Extensibilité insuffisamment démontrée : Bien que la conception supporte l'extension, le processus complet de création d'un nouvel environnement n'est pas démontré
Analyse de performance manquante : Absence d'analyse quantitative des performances de calcul et de l'extensibilité
Cet article cite des travaux importants dans plusieurs domaines, notamment la physique du plasma, l'apprentissage par renforcement et la technologie de simulation, en particulier :
Documentation technique fondamentale du simulateur TORAX
Travaux révolutionnaires récents en contrôle du plasma par RL publiés dans des revues prestigieuses telles que Nature
Spécifications techniques des cadres d'environnement RL standard tels que Gymnasium
Évaluation générale : Gym-TORAX est une contribution logicielle open-source d'une valeur pratique importante. Bien que relativement conservatrice en matière d'innovation technique, elle possède une valeur significative dans la promotion de la collaboration interdisciplinaire et des outils standardisés. Ce travail fournit une infrastructure importante pour l'application du RL au contrôle du plasma et devrait promouvoir le développement rapide de ce domaine interdisciplinaire.