2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.

This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).

academic

Gym-TORAX : Logiciel open-source pour l'intégration de l'RL avec les simulateurs de contrôle du plasma

Informations de base

ID de l'article : 2510.11283
Titre : Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Auteurs : Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Institut Montefiore, Université de Liège, Belgique)
Classification : cs.LG (Apprentissage automatique)
Date de publication : 13 octobre 2025
Lien de l'article : https://arxiv.org/abs/2510.11283v1

Résumé

Cet article présente Gym-TORAX, un package Python capable de mettre en œuvre des environnements d'apprentissage par renforcement (RL) pour la simulation et le contrôle de la dynamique du plasma des tokamaks. Les utilisateurs peuvent définir de manière concise un ensemble d'actions de contrôle et d'observations, ainsi que des objectifs de contrôle. Gym-TORAX crée alors un environnement Gymnasium encapsulant TORAX pour simuler la dynamique du plasma. Les objectifs sont formulés via des récompenses dépendant de l'état de la simulation du plasma et des actions de contrôle, afin d'optimiser des caractéristiques spécifiques du plasma, telles que la performance et la stabilité. L'instance d'environnement générée est compatible avec un large éventail d'algorithmes et de bibliothèques RL, ce qui favorisera la recherche en RL pour le contrôle du plasma. Dans la version actuelle, un environnement basé sur le scénario de montée en puissance du Réacteur Thermonucléaire Expérimental International (ITER) est disponible.

Contexte de recherche et motivation

Contexte du problème

Défis de l'énergie de fusion nucléaire : La stabilité et l'optimisation des performances des réacteurs de fusion nucléaire constituent un problème central de la recherche en énergie de fusion. La configuration tokamak, en tant que direction de recherche principale, fait face à des défis de contrôle hautement dimensionnels et fortement non-linéaires.
Limitations des outils de simulation existants :
- De nombreux simulateurs de plasma (tels que RAPTOR, JOREK) ne sont pas open-source et nécessitent des licences restrictives
- Les outils existants sont principalement conçus pour les physiciens du plasma, ce qui crée une barrière d'entrée élevée pour les chercheurs en RL
- Absence d'interfaces conçues pour les applications de contrôle
Besoin de collaboration interdisciplinaire : L'application du RL au contrôle du plasma nécessite de réduire la barrière d'entrée pour les chercheurs en RL et de promouvoir la collaboration entre les deux domaines.

Motivation de la recherche

Fournir un cadre de simulation du contrôle du plasma open-source, léger et compatible avec le RL
Encapsuler la physique du plasma via l'API Gymnasium classique, permettant aux chercheurs en RL de se concentrer sur l'optimisation des stratégies de contrôle
Soutenir la recherche de nouvelles stratégies de contrôle du plasma et la découverte d'algorithmes

Contributions principales

Cadre logiciel open-source : Développement du package Python Gym-TORAX, fournissant une interface d'environnement RL standardisée pour la recherche en contrôle du plasma
Intégration TORAX : Création d'un wrapper Gymnasium pour le simulateur TORAX, réalisant un environnement de contrôle en boucle fermée
Conception modulaire : Fourniture d'un mécanisme flexible de création d'environnement, permettant aux utilisateurs de définir des scénarios de contrôle personnalisés via l'héritage de la classe BaseEnv
Environnement de référence ITER : Implémentation d'un environnement complet basé sur le scénario de montée en puissance hybride d'ITER, incluant des stratégies de contrôle de référence
Pont interdisciplinaire : Réduction de la barrière technique pour les chercheurs en RL entrant dans le domaine du contrôle du plasma

Détails de la méthode

Définition des tâches

Modélisation du problème de contrôle du plasma comme un processus de décision markovien (MDP) déterministe de durée finie :

Espace d'état 𝒮 : État du plasma (température, densité, flux magnétique, etc.)
Espace d'action 𝒜 : Variables de contrôle (courant total, tension de boucle, sources d'énergie, etc.)
Fonction de transition f : 𝒮 × 𝒜 → 𝒮 (implémentée via la simulation TORAX)
Fonction de récompense r : 𝒮 × 𝒜 → ℝ (objectifs liés aux tâches définis par l'utilisateur)

Architecture du système

Discrétisation temporelle à deux niveaux

Couche d'interaction RL : Pas de temps pour l'interaction agent-environnement
Couche de simulation physique : Pas de temps pour la résolution des équations aux dérivées partielles par TORAX (modes auto ou fixed optionnels)

Composants principaux

Classe BaseEnv : Classe de base abstraite définissant l'interface standard de création d'environnement
Classe Action : Classe abstraite de définition d'action configurable
Classe Observation : Classe de définition du contenu d'observation
Fonctions auxiliaires de récompense : Outils de conception de fonctions de récompense dédiées

Processus de création d'environnement

Les utilisateurs doivent implémenter quatre méthodes abstraites :

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Définir le fichier de configuration TORAX et les paramètres de simulation
        pass
    
    def _define_action_space(self):
        # Spécifier le sous-ensemble de variables TORAX contrôlées par l'agent
        pass
    
    def _define_observation_space(self):
        # Sélectionner les variables à inclure dans l'observation
        pass
    
    def _compute_reward(self):
        # Définir la fonction de récompense liée à la tâche
        pass

Points d'innovation technique

Intégration transparente de la simulation physique et du RL : Encapsulation de la simulation complexe de la physique du plasma via l'interface Gymnasium standard
Gestion flexible des échelles de temps : Mécanisme de discrétisation à deux niveaux traitant la différence entre la fréquence de décision du RL et le pas de temps de la simulation physique
Conception modulaire : La conception par classes abstraites supporte la création rapide de nouveaux scénarios de contrôle
Mécanismes de robustesse : Gestion automatique des erreurs de simulation et des états non réalisables, fournissant des conditions de terminaison appropriées et des pénalités

Configuration expérimentale

Environnement de simulation : Scénario de montée en puissance hybride ITER

Contexte physique : Mode de fonctionnement hybride basé sur le réacteur ITER
Durée : 100 secondes de phase de montée en puissance (mode L) + 50 secondes de phase stationnaire (mode H)
Variables de contrôle :
- IpAction : Contrôle du courant total
- NbiAction : Puissance d'injection de faisceau neutre
- EcrhAction : Puissance de chauffage par résonance cyclotronique électronique

Conception de la fonction de récompense

Combinaison linéaire de quatre termes :

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

correspondant respectivement au gain de fusion Q, au facteur de sécurité minimum, au facteur de sécurité en bordure et au facteur de qualité de confinement en mode H.

Stratégies de comparaison

Stratégie en boucle ouverte π_OL : Utilisation de la trajectoire d'action prédéfinie de TORAX
Stratégie aléatoire π_R : Sélection uniforme aléatoire dans l'espace d'action
Stratégie de contrôle PI π_PI : Utilisation d'un contrôleur proportionnel-intégral pour contrôler le courant total, les autres variables suivant les trajectoires prédéfinies

Détails d'implémentation

Optimisation des paramètres PI : Recherche en grille optimisant les gains proportionnel kp et intégral ki
Espace de recherche : kp ∈ -10, 0, ki ∈ 0, 40
Densité de grille : 20×60 = 1200 combinaisons de paramètres
Fonction objectif : Maximisation du rendement attendu J(π)

Résultats expérimentaux

Résultats principaux

Stratégie	Rendement attendu
π_OL (boucle ouverte)	3.40
π_R (aléatoire)	-10.79
π_PI (contrôle PI)	3.79

Découvertes clés

Avantage du contrôleur PI : La stratégie de contrôle PI optimisée (kp*=0.700, ki*=34.257) améliore de 11,5% par rapport à la stratégie en boucle ouverte
Stratégie de contrôle du courant : La stratégie PI tend à augmenter le courant total jusqu'à la limite de 15 MA, ce qui est conforme au principe physique selon lequel un courant élevé améliore les performances de confinement
Sensibilité des paramètres : Le rendement attendu présente une distribution non-linéaire complexe dans l'espace des paramètres, nécessitant une optimisation minutieuse

Analyse des trajectoires de contrôle

Stratégie aléatoire : Présente des oscillations irrégulières, avec un soulagement partiel des contraintes
Stratégie PI : Croissance stable jusqu'à la valeur maximale autorisée, reflétant une logique de contrôle guidée par la physique
Suivi d'objectif : Le contrôleur PI est optimisé pour le rendement attendu plutôt que pour le suivi de trajectoire, démontrant la flexibilité du cadre RL

Travaux connexes

Applications du RL au contrôle du plasma

Contrôle magnétique : Degrave et al. (Nature 2022) utilisant le RL profond pour contrôler la forme du plasma tokamak
Contrôle de stabilité : Char et al. (2023) étudiant le contrôle de βN, Seo et al. (Nature 2024) évitant les instabilités de déchirement
Outils de simulation : Les outils existants tels que RAPTOR, JOREK manquent d'open-source et d'interfaces RL

Avantages de cet article

Premier cadre de simulation du contrôle du plasma open-source spécialement conçu pour le RL
Interface standardisée réduisant la barrière de recherche interdisciplinaire
Basé sur la pile technologique JAX moderne, supportant la différenciation automatique rapide

Conclusion et discussion

Conclusions principales

Gym-TORAX fournit avec succès une solution standardisée d'intégration du RL et de la simulation du plasma
L'analyse comparative du contrôleur PI démontre l'efficacité du cadre et l'espace d'amélioration potentiel
La conception modulaire supporte l'extension rapide vers de nouveaux scénarios de contrôle

Limitations

Limitations du modèle physique : Basé sur l'hypothèse axisymétrique de TORAX, limitant la modélisation des effets tridimensionnels complexes
Précision de simulation : Applicable aux études préliminaires, les applications haute précision nécessitent des modèles physiques plus complexes
Couverture des scénarios : Actuellement principalement supporté pour les scénarios ITER, nécessitant une extension à plus de configurations de réacteurs

Directions futures

Paramétrisation géométrique : Support de la paramétrisation directe de la géométrie du plasma et du tokamak
Gestion des événements physiques : Ajout d'outils de traitement dédiés pour les événements physiques clés tels que la transition L-H
Extension des fonctionnalités TORAX : Extension des capacités avec l'amélioration des fonctionnalités du simulateur TORAX

Évaluation approfondie

Points forts

Combler une lacune : Premier cadre d'intégration open-source RL-contrôle du plasma, comblant une lacune importante en matière d'outils
Conception élégante : La discrétisation temporelle à deux niveaux et la conception modulaire reflètent les bonnes pratiques d'ingénierie logicielle
Valeur pratique : Réduction de la barrière d'entrée pour les chercheurs en RL entrant dans le domaine du contrôle du plasma
Analyse comparative complète : Implémentation complète du scénario ITER et comparaison de plusieurs stratégies de référence
Contribution open-source : Licence MIT et documentation complète soutenant le développement communautaire

Insuffisances

Profondeur expérimentale limitée : Démonstration uniquement d'un simple contrôleur PI, manquant d'évaluation approfondie des algorithmes RL modernes
Validation physique insuffisante : Absence de comparaison avec les données d'expériences réelles de plasma
Extensibilité insuffisamment démontrée : Bien que la conception supporte l'extension, le processus complet de création d'un nouvel environnement n'est pas démontré
Analyse de performance manquante : Absence d'analyse quantitative des performances de calcul et de l'extensibilité

Impact

Valeur académique : Fournit une plateforme standardisée pour l'application du RL au contrôle du plasma
Valeur d'ingénierie : Favorise la collaboration interdisciplinaire, accélérant le développement de la technologie de contrôle de fusion
Valeur éducative : Réduction de la barrière d'apprentissage, aidant à former des talents interdisciplinaires
Reproductibilité : La conception open-source et la documentation détaillée soutiennent la reproductibilité de la recherche

Scénarios applicables

Recherche en algorithmes RL : Test et comparaison de différents algorithmes RL dans le contrôle du plasma
Développement de stratégies de contrôle : Prototypage rapide et évaluation de nouvelles stratégies de contrôle du plasma
Formation éducative : Utilisation comme outil pédagogique aidant les étudiants à comprendre l'application du RL aux systèmes physiques
Recherche préliminaire : Validation d'algorithmes avant d'investir dans des expériences réelles coûteuses

Références

Cet article cite des travaux importants dans plusieurs domaines, notamment la physique du plasma, l'apprentissage par renforcement et la technologie de simulation, en particulier :

Documentation technique fondamentale du simulateur TORAX
Travaux révolutionnaires récents en contrôle du plasma par RL publiés dans des revues prestigieuses telles que Nature
Spécifications techniques des cadres d'environnement RL standard tels que Gymnasium

Évaluation générale : Gym-TORAX est une contribution logicielle open-source d'une valeur pratique importante. Bien que relativement conservatrice en matière d'innovation technique, elle possède une valeur significative dans la promotion de la collaboration interdisciplinaire et des outils standardisés. Ce travail fournit une infrastructure importante pour l'application du RL au contrôle du plasma et devrait promouvoir le développement rapide de ce domaine interdisciplinaire.