2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic

Gym-TORAX : Logiciel open-source pour l'intégration de l'RL avec les simulateurs de contrôle du plasma

Informations de base

  • ID de l'article : 2510.11283
  • Titre : Gym-TORAX: Open-source software for integrating RL with plasma control simulators
  • Auteurs : Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Institut Montefiore, Université de Liège, Belgique)
  • Classification : cs.LG (Apprentissage automatique)
  • Date de publication : 13 octobre 2025
  • Lien de l'article : https://arxiv.org/abs/2510.11283v1

Résumé

Cet article présente Gym-TORAX, un package Python capable de mettre en œuvre des environnements d'apprentissage par renforcement (RL) pour la simulation et le contrôle de la dynamique du plasma des tokamaks. Les utilisateurs peuvent définir de manière concise un ensemble d'actions de contrôle et d'observations, ainsi que des objectifs de contrôle. Gym-TORAX crée alors un environnement Gymnasium encapsulant TORAX pour simuler la dynamique du plasma. Les objectifs sont formulés via des récompenses dépendant de l'état de la simulation du plasma et des actions de contrôle, afin d'optimiser des caractéristiques spécifiques du plasma, telles que la performance et la stabilité. L'instance d'environnement générée est compatible avec un large éventail d'algorithmes et de bibliothèques RL, ce qui favorisera la recherche en RL pour le contrôle du plasma. Dans la version actuelle, un environnement basé sur le scénario de montée en puissance du Réacteur Thermonucléaire Expérimental International (ITER) est disponible.

Contexte de recherche et motivation

Contexte du problème

  1. Défis de l'énergie de fusion nucléaire : La stabilité et l'optimisation des performances des réacteurs de fusion nucléaire constituent un problème central de la recherche en énergie de fusion. La configuration tokamak, en tant que direction de recherche principale, fait face à des défis de contrôle hautement dimensionnels et fortement non-linéaires.
  2. Limitations des outils de simulation existants :
    • De nombreux simulateurs de plasma (tels que RAPTOR, JOREK) ne sont pas open-source et nécessitent des licences restrictives
    • Les outils existants sont principalement conçus pour les physiciens du plasma, ce qui crée une barrière d'entrée élevée pour les chercheurs en RL
    • Absence d'interfaces conçues pour les applications de contrôle
  3. Besoin de collaboration interdisciplinaire : L'application du RL au contrôle du plasma nécessite de réduire la barrière d'entrée pour les chercheurs en RL et de promouvoir la collaboration entre les deux domaines.

Motivation de la recherche

  • Fournir un cadre de simulation du contrôle du plasma open-source, léger et compatible avec le RL
  • Encapsuler la physique du plasma via l'API Gymnasium classique, permettant aux chercheurs en RL de se concentrer sur l'optimisation des stratégies de contrôle
  • Soutenir la recherche de nouvelles stratégies de contrôle du plasma et la découverte d'algorithmes

Contributions principales

  1. Cadre logiciel open-source : Développement du package Python Gym-TORAX, fournissant une interface d'environnement RL standardisée pour la recherche en contrôle du plasma
  2. Intégration TORAX : Création d'un wrapper Gymnasium pour le simulateur TORAX, réalisant un environnement de contrôle en boucle fermée
  3. Conception modulaire : Fourniture d'un mécanisme flexible de création d'environnement, permettant aux utilisateurs de définir des scénarios de contrôle personnalisés via l'héritage de la classe BaseEnv
  4. Environnement de référence ITER : Implémentation d'un environnement complet basé sur le scénario de montée en puissance hybride d'ITER, incluant des stratégies de contrôle de référence
  5. Pont interdisciplinaire : Réduction de la barrière technique pour les chercheurs en RL entrant dans le domaine du contrôle du plasma

Détails de la méthode

Définition des tâches

Modélisation du problème de contrôle du plasma comme un processus de décision markovien (MDP) déterministe de durée finie :

  • Espace d'état 𝒮 : État du plasma (température, densité, flux magnétique, etc.)
  • Espace d'action 𝒜 : Variables de contrôle (courant total, tension de boucle, sources d'énergie, etc.)
  • Fonction de transition f : 𝒮 × 𝒜 → 𝒮 (implémentée via la simulation TORAX)
  • Fonction de récompense r : 𝒮 × 𝒜 → ℝ (objectifs liés aux tâches définis par l'utilisateur)

Architecture du système

Discrétisation temporelle à deux niveaux

  1. Couche d'interaction RL : Pas de temps pour l'interaction agent-environnement
  2. Couche de simulation physique : Pas de temps pour la résolution des équations aux dérivées partielles par TORAX (modes auto ou fixed optionnels)

Composants principaux

  1. Classe BaseEnv : Classe de base abstraite définissant l'interface standard de création d'environnement
  2. Classe Action : Classe abstraite de définition d'action configurable
  3. Classe Observation : Classe de définition du contenu d'observation
  4. Fonctions auxiliaires de récompense : Outils de conception de fonctions de récompense dédiées

Processus de création d'environnement

Les utilisateurs doivent implémenter quatre méthodes abstraites :

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Définir le fichier de configuration TORAX et les paramètres de simulation
        pass
    
    def _define_action_space(self):
        # Spécifier le sous-ensemble de variables TORAX contrôlées par l'agent
        pass
    
    def _define_observation_space(self):
        # Sélectionner les variables à inclure dans l'observation
        pass
    
    def _compute_reward(self):
        # Définir la fonction de récompense liée à la tâche
        pass

Points d'innovation technique

  1. Intégration transparente de la simulation physique et du RL : Encapsulation de la simulation complexe de la physique du plasma via l'interface Gymnasium standard
  2. Gestion flexible des échelles de temps : Mécanisme de discrétisation à deux niveaux traitant la différence entre la fréquence de décision du RL et le pas de temps de la simulation physique
  3. Conception modulaire : La conception par classes abstraites supporte la création rapide de nouveaux scénarios de contrôle
  4. Mécanismes de robustesse : Gestion automatique des erreurs de simulation et des états non réalisables, fournissant des conditions de terminaison appropriées et des pénalités

Configuration expérimentale

Environnement de simulation : Scénario de montée en puissance hybride ITER

  • Contexte physique : Mode de fonctionnement hybride basé sur le réacteur ITER
  • Durée : 100 secondes de phase de montée en puissance (mode L) + 50 secondes de phase stationnaire (mode H)
  • Variables de contrôle :
    • IpAction : Contrôle du courant total
    • NbiAction : Puissance d'injection de faisceau neutre
    • EcrhAction : Puissance de chauffage par résonance cyclotronique électronique

Conception de la fonction de récompense

Combinaison linéaire de quatre termes :

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

correspondant respectivement au gain de fusion Q, au facteur de sécurité minimum, au facteur de sécurité en bordure et au facteur de qualité de confinement en mode H.

Stratégies de comparaison

  1. Stratégie en boucle ouverte π_OL : Utilisation de la trajectoire d'action prédéfinie de TORAX
  2. Stratégie aléatoire π_R : Sélection uniforme aléatoire dans l'espace d'action
  3. Stratégie de contrôle PI π_PI : Utilisation d'un contrôleur proportionnel-intégral pour contrôler le courant total, les autres variables suivant les trajectoires prédéfinies

Détails d'implémentation

  • Optimisation des paramètres PI : Recherche en grille optimisant les gains proportionnel kp et intégral ki
  • Espace de recherche : kp ∈ -10, 0, ki ∈ 0, 40
  • Densité de grille : 20×60 = 1200 combinaisons de paramètres
  • Fonction objectif : Maximisation du rendement attendu J(π)

Résultats expérimentaux

Résultats principaux

StratégieRendement attendu
π_OL (boucle ouverte)3.40
π_R (aléatoire)-10.79
π_PI (contrôle PI)3.79

Découvertes clés

  1. Avantage du contrôleur PI : La stratégie de contrôle PI optimisée (kp*=0.700, ki*=34.257) améliore de 11,5% par rapport à la stratégie en boucle ouverte
  2. Stratégie de contrôle du courant : La stratégie PI tend à augmenter le courant total jusqu'à la limite de 15 MA, ce qui est conforme au principe physique selon lequel un courant élevé améliore les performances de confinement
  3. Sensibilité des paramètres : Le rendement attendu présente une distribution non-linéaire complexe dans l'espace des paramètres, nécessitant une optimisation minutieuse

Analyse des trajectoires de contrôle

  • Stratégie aléatoire : Présente des oscillations irrégulières, avec un soulagement partiel des contraintes
  • Stratégie PI : Croissance stable jusqu'à la valeur maximale autorisée, reflétant une logique de contrôle guidée par la physique
  • Suivi d'objectif : Le contrôleur PI est optimisé pour le rendement attendu plutôt que pour le suivi de trajectoire, démontrant la flexibilité du cadre RL

Travaux connexes

Applications du RL au contrôle du plasma

  1. Contrôle magnétique : Degrave et al. (Nature 2022) utilisant le RL profond pour contrôler la forme du plasma tokamak
  2. Contrôle de stabilité : Char et al. (2023) étudiant le contrôle de βN, Seo et al. (Nature 2024) évitant les instabilités de déchirement
  3. Outils de simulation : Les outils existants tels que RAPTOR, JOREK manquent d'open-source et d'interfaces RL

Avantages de cet article

  • Premier cadre de simulation du contrôle du plasma open-source spécialement conçu pour le RL
  • Interface standardisée réduisant la barrière de recherche interdisciplinaire
  • Basé sur la pile technologique JAX moderne, supportant la différenciation automatique rapide

Conclusion et discussion

Conclusions principales

  1. Gym-TORAX fournit avec succès une solution standardisée d'intégration du RL et de la simulation du plasma
  2. L'analyse comparative du contrôleur PI démontre l'efficacité du cadre et l'espace d'amélioration potentiel
  3. La conception modulaire supporte l'extension rapide vers de nouveaux scénarios de contrôle

Limitations

  1. Limitations du modèle physique : Basé sur l'hypothèse axisymétrique de TORAX, limitant la modélisation des effets tridimensionnels complexes
  2. Précision de simulation : Applicable aux études préliminaires, les applications haute précision nécessitent des modèles physiques plus complexes
  3. Couverture des scénarios : Actuellement principalement supporté pour les scénarios ITER, nécessitant une extension à plus de configurations de réacteurs

Directions futures

  1. Paramétrisation géométrique : Support de la paramétrisation directe de la géométrie du plasma et du tokamak
  2. Gestion des événements physiques : Ajout d'outils de traitement dédiés pour les événements physiques clés tels que la transition L-H
  3. Extension des fonctionnalités TORAX : Extension des capacités avec l'amélioration des fonctionnalités du simulateur TORAX

Évaluation approfondie

Points forts

  1. Combler une lacune : Premier cadre d'intégration open-source RL-contrôle du plasma, comblant une lacune importante en matière d'outils
  2. Conception élégante : La discrétisation temporelle à deux niveaux et la conception modulaire reflètent les bonnes pratiques d'ingénierie logicielle
  3. Valeur pratique : Réduction de la barrière d'entrée pour les chercheurs en RL entrant dans le domaine du contrôle du plasma
  4. Analyse comparative complète : Implémentation complète du scénario ITER et comparaison de plusieurs stratégies de référence
  5. Contribution open-source : Licence MIT et documentation complète soutenant le développement communautaire

Insuffisances

  1. Profondeur expérimentale limitée : Démonstration uniquement d'un simple contrôleur PI, manquant d'évaluation approfondie des algorithmes RL modernes
  2. Validation physique insuffisante : Absence de comparaison avec les données d'expériences réelles de plasma
  3. Extensibilité insuffisamment démontrée : Bien que la conception supporte l'extension, le processus complet de création d'un nouvel environnement n'est pas démontré
  4. Analyse de performance manquante : Absence d'analyse quantitative des performances de calcul et de l'extensibilité

Impact

  1. Valeur académique : Fournit une plateforme standardisée pour l'application du RL au contrôle du plasma
  2. Valeur d'ingénierie : Favorise la collaboration interdisciplinaire, accélérant le développement de la technologie de contrôle de fusion
  3. Valeur éducative : Réduction de la barrière d'apprentissage, aidant à former des talents interdisciplinaires
  4. Reproductibilité : La conception open-source et la documentation détaillée soutiennent la reproductibilité de la recherche

Scénarios applicables

  1. Recherche en algorithmes RL : Test et comparaison de différents algorithmes RL dans le contrôle du plasma
  2. Développement de stratégies de contrôle : Prototypage rapide et évaluation de nouvelles stratégies de contrôle du plasma
  3. Formation éducative : Utilisation comme outil pédagogique aidant les étudiants à comprendre l'application du RL aux systèmes physiques
  4. Recherche préliminaire : Validation d'algorithmes avant d'investir dans des expériences réelles coûteuses

Références

Cet article cite des travaux importants dans plusieurs domaines, notamment la physique du plasma, l'apprentissage par renforcement et la technologie de simulation, en particulier :

  • Documentation technique fondamentale du simulateur TORAX
  • Travaux révolutionnaires récents en contrôle du plasma par RL publiés dans des revues prestigieuses telles que Nature
  • Spécifications techniques des cadres d'environnement RL standard tels que Gymnasium

Évaluation générale : Gym-TORAX est une contribution logicielle open-source d'une valeur pratique importante. Bien que relativement conservatrice en matière d'innovation technique, elle possède une valeur significative dans la promotion de la collaboration interdisciplinaire et des outils standardisés. Ce travail fournit une infrastructure importante pour l'application du RL au contrôle du plasma et devrait promouvoir le développement rapide de ce domaine interdisciplinaire.