2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic

Gym-TORAX: Software open-source per l'integrazione del RL con simulatori di controllo del plasma

Informazioni Fondamentali

  • ID Articolo: 2510.11283
  • Titolo: Gym-TORAX: Open-source software for integrating RL with plasma control simulators
  • Autori: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Istituto Montefiore, Università di Liegi, Belgio)
  • Classificazione: cs.LG (Machine Learning)
  • Data di Pubblicazione: 13 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.11283v1

Riassunto

Questo articolo presenta Gym-TORAX, un pacchetto Python che consente l'implementazione di ambienti di apprendimento per rinforzo (RL) per la simulazione e il controllo della dinamica del plasma nei tokamak. Gli utenti possono definire in modo conciso un insieme di azioni di controllo e osservazioni, nonché obiettivi di controllo; Gym-TORAX crea quindi un ambiente Gymnasium che avvolge TORAX per simulare la dinamica del plasma. Gli obiettivi vengono formulati attraverso funzioni di ricompensa che dipendono dallo stato della simulazione del plasma e dalle azioni di controllo, al fine di ottimizzare caratteristiche specifiche del plasma, come le prestazioni e la stabilità. L'istanza di ambiente generata è compatibile con un'ampia gamma di algoritmi e librerie RL, facilitando la ricerca nel controllo del plasma basato su RL. Nella versione attuale, è disponibile un ambiente basato sullo scenario di ramp-up ad alta potenza del Reattore Termonucleare Sperimentale Internazionale (ITER).

Contesto di Ricerca e Motivazione

Contesto del Problema

  1. Sfide nella Fusione Nucleare: L'ottimizzazione della stabilità e delle prestazioni dei reattori a fusione nucleare rappresenta un problema centrale nella ricerca sulla fusione, e la configurazione tokamak, come direzione di ricerca principale, affronta sfide di controllo ad alta dimensionalità e altamente non lineari.
  2. Limitazioni degli Strumenti di Simulazione Esistenti:
    • Molti simulatori di plasma (come RAPTOR, JOREK) non sono open-source e richiedono licenze restrittive
    • Gli strumenti esistenti sono principalmente progettati per fisici del plasma, con barriere di ingresso elevate per i ricercatori di RL
    • Mancanza di interfacce progettate per applicazioni di controllo
  3. Necessità di Collaborazione Interdisciplinare: L'applicazione del RL nel controllo del plasma richiede di abbassare le barriere di ingresso per i ricercatori di RL, promuovendo la collaborazione tra i due campi.

Motivazione della Ricerca

  • Fornire un framework di simulazione del controllo del plasma open-source, leggero e compatibile con RL
  • Incapsulare la fisica del plasma attraverso l'API classica di Gymnasium, permettendo ai ricercatori di RL di concentrarsi sull'ottimizzazione delle strategie di controllo
  • Supportare la ricerca su nuove strategie di controllo del plasma e la scoperta di algoritmi

Contributi Principali

  1. Framework Software Open-source: Sviluppo del pacchetto Python Gym-TORAX, fornendo un'interfaccia di ambiente RL standardizzata per la ricerca sul controllo del plasma
  2. Integrazione TORAX: Creazione di un wrapper Gymnasium per il simulatore TORAX, implementando un ambiente di controllo ad anello chiuso
  3. Progettazione Modulare: Fornitura di un meccanismo flessibile di creazione dell'ambiente, consentendo agli utenti di definire scenari di controllo personalizzati ereditando la classe BaseEnv
  4. Ambiente di Riferimento ITER: Implementazione di un ambiente completo basato sullo scenario di ramp-up ibrido di ITER, includendo strategie di controllo di riferimento
  5. Ponte Interdisciplinare: Riduzione delle barriere tecniche per i ricercatori di RL che entrano nel campo del controllo del plasma

Dettagli Metodologici

Definizione del Compito

Modellazione del problema di controllo del plasma come un Processo Decisionale di Markov (MDP) deterministico a tempo finito:

  • Spazio degli Stati 𝒮: Stato del plasma (temperatura, densità, flusso magnetico, ecc.)
  • Spazio delle Azioni 𝒜: Variabili di controllo (corrente totale, tensione di loop, sorgenti energetiche, ecc.)
  • Funzione di Transizione f: 𝒮 × 𝒜 → 𝒮 (implementata tramite simulazione TORAX)
  • Funzione di Ricompensa r: 𝒮 × 𝒜 → ℝ (obiettivi specifici del compito definiti dall'utente)

Architettura del Sistema

Discretizzazione Temporale Bilivello

  1. Livello di Interazione RL: Passo temporale dell'interazione agente-ambiente
  2. Livello di Simulazione Fisica: Passo temporale della risoluzione delle equazioni differenziali parziali di TORAX (modalità auto o fixed opzionale)

Componenti Principali

  1. Classe BaseEnv: Classe base astratta che definisce l'interfaccia standard per la creazione dell'ambiente
  2. Classe Action: Classe astratta per la definizione configurabile delle azioni
  3. Classe Observation: Classe per la definizione del contenuto delle osservazioni
  4. Funzioni Ausiliarie di Ricompensa: Strumenti specializzati per la progettazione di funzioni di ricompensa

Flusso di Creazione dell'Ambiente

L'utente deve implementare quattro metodi astratti:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Definire il file di configurazione TORAX e i parametri di simulazione
        pass
    
    def _define_action_space(self):
        # Specificare il sottoinsieme di variabili TORAX controllate dall'agente
        pass
    
    def _define_observation_space(self):
        # Selezionare le variabili da includere nell'osservazione
        pass
    
    def _compute_reward(self):
        # Definire la funzione di ricompensa specifica del compito
        pass

Punti di Innovazione Tecnica

  1. Integrazione Senza Soluzione di Continuità tra Simulazione Fisica e RL: Incapsulamento della complessa simulazione della fisica del plasma attraverso l'interfaccia standard di Gymnasium
  2. Gestione Flessibile delle Scale Temporali: Meccanismo di discretizzazione bilivello per gestire le differenze tra la frequenza decisionale del RL e il passo temporale della simulazione fisica
  3. Progettazione Modulare: La progettazione della classe astratta supporta la creazione rapida di nuovi scenari di controllo
  4. Meccanismi di Robustezza: Gestione automatica degli errori di simulazione e degli stati non fattibili, fornendo condizioni di terminazione appropriate e penalità

Configurazione Sperimentale

Ambiente di Simulazione: Scenario di Ramp-up Ibrido ITER

  • Contesto Fisico: Basato sulla modalità di funzionamento ibrido del reattore ITER
  • Intervallo Temporale: 100 secondi di fase di ramp-up (modalità L) + 50 secondi di fase stazionaria (modalità H)
  • Variabili di Controllo:
    • IpAction: Controllo della corrente totale
    • NbiAction: Potenza di iniezione di fascio neutro
    • EcrhAction: Potenza di riscaldamento per risonanza ciclotronale elettronica

Progettazione della Funzione di Ricompensa

Combinazione lineare di quattro termini:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

Corrispondenti rispettivamente al guadagno di fusione Q, al fattore di sicurezza minimo, al fattore di sicurezza al bordo e al fattore di qualità della massa vincolata in modalità H.

Strategie di Confronto

  1. Strategia ad Anello Aperto π_OL: Utilizzo della traiettoria di azione preimpostata di TORAX
  2. Strategia Casuale π_R: Selezione uniforme casuale all'interno dello spazio delle azioni
  3. Strategia di Controllo PI π_PI: Utilizzo di un controllore proporzionale-integrale per controllare la corrente totale, con altre variabili che seguono la traiettoria preimpostata

Dettagli di Implementazione

  • Ottimizzazione dei Parametri PI: Ricerca in griglia per ottimizzare il guadagno proporzionale kp e il guadagno integrale ki
  • Spazio di Ricerca: kp ∈ -10, 0, ki ∈ 0, 40
  • Densità della Griglia: 20×60 = 1200 combinazioni di parametri
  • Funzione Obiettivo: Massimizzazione del rendimento atteso J(π)

Risultati Sperimentali

Risultati Principali

StrategiaRendimento Atteso
π_OL (Anello Aperto)3.40
π_R (Casuale)-10.79
π_PI (Controllo PI)3.79

Scoperte Chiave

  1. Vantaggi del Controllore PI: La strategia di controllo PI ottimizzata (kp*=0.700, ki*=34.257) mostra un miglioramento dell'11.5% rispetto alla strategia ad anello aperto
  2. Strategia di Controllo della Corrente: La strategia PI tende a elevare la corrente totale al limite superiore di 15MA, in accordo con il principio fisico che l'alta corrente migliora le prestazioni di confinamento
  3. Sensibilità dei Parametri: Il rendimento atteso mostra una distribuzione non lineare complessa nello spazio dei parametri, richiedendo un'ottimizzazione attenta

Analisi delle Traiettorie di Controllo

  • Strategia Casuale: Presenta oscillazioni irregolari, con mitigazione parziale dei vincoli di confinamento
  • Strategia PI: Crescita stabile fino al valore massimo consentito, riflettendo una logica di controllo guidata dalla fisica
  • Inseguimento dell'Obiettivo: Il controllore PI è ottimizzato per il rendimento atteso piuttosto che per l'inseguimento della traiettoria, dimostrando la flessibilità del framework RL

Lavori Correlati

Applicazioni del RL nel Controllo del Plasma

  1. Controllo Magnetico: Degrave et al. (Nature 2022) utilizzano il RL profondo per controllare la forma del plasma nei tokamak
  2. Controllo della Stabilità: Char et al. (2023) studiano il controllo di βN, Seo et al. (Nature 2024) evitano l'instabilità di strappo
  3. Strumenti di Simulazione: Gli strumenti esistenti come RAPTOR e JOREK mancano di open-source e interfacce RL

Vantaggi di Questo Lavoro

  • Primo framework open-source di simulazione del controllo del plasma appositamente progettato per il RL
  • Interfaccia standardizzata che riduce le barriere di ricerca interdisciplinare
  • Basato sulla moderna stack tecnologica JAX, supportando la differenziazione automatica veloce

Conclusioni e Discussione

Conclusioni Principali

  1. Gym-TORAX fornisce con successo una soluzione standardizzata di integrazione tra RL e simulazione del plasma
  2. Il benchmark del controllore PI dimostra l'efficacia del framework e lo spazio di miglioramento potenziale
  3. La progettazione modulare supporta l'estensione rapida a nuovi scenari di controllo

Limitazioni

  1. Limitazioni del Modello Fisico: Basato sull'ipotesi assialsimmetrica di TORAX, limitando la modellazione di effetti tridimensionali complessi
  2. Precisione della Simulazione: Applicabile per ricerche preliminari; le applicazioni ad alta precisione richiedono modelli fisici più complessi
  3. Copertura degli Scenari: Attualmente supporta principalmente scenari ITER, necessitando estensione a più configurazioni di reattori

Direzioni Future

  1. Parametrizzazione Geometrica: Supporto della parametrizzazione diretta della geometria del plasma e del tokamak
  2. Gestione degli Eventi Fisici: Aggiunta di strumenti di gestione specializzati per eventi fisici chiave come la transizione L-H
  3. Estensione delle Funzionalità TORAX: Estensione delle capacità con l'aumento delle funzionalità del simulatore TORAX

Valutazione Approfondita

Punti di Forza

  1. Colmare un Vuoto: Primo framework open-source di integrazione RL-controllo del plasma, colmando un importante vuoto di strumenti
  2. Progettazione Elegante: La discretizzazione temporale bilivello e la progettazione modulare riflettono buone pratiche di ingegneria del software
  3. Valore Pratico: Riduzione delle barriere di ingresso per i ricercatori di RL nel campo del controllo del plasma
  4. Benchmark Completo: Implementazione completa dello scenario ITER e confronto di molteplici strategie di riferimento
  5. Contributo Open-source: Licenza MIT e documentazione completa supportano lo sviluppo della comunità

Insufficienze

  1. Profondità Sperimentale Limitata: Mostra solo un semplice controllore PI, mancando di una valutazione approfondita degli algoritmi RL moderni
  2. Verifica Fisica Insufficiente: Mancanza di confronto con dati di esperimenti di plasma reali
  3. Estensibilità Non Completamente Dimostrata: Sebbene la progettazione supporti l'estensione, non mostra il processo completo di creazione di nuovi ambienti
  4. Analisi delle Prestazioni Mancante: Mancanza di analisi quantitativa delle prestazioni computazionali e della scalabilità

Impatto

  1. Valore Accademico: Fornisce una piattaforma standardizzata per l'applicazione del RL nel controllo del plasma
  2. Valore Ingegneristico: Promuove la collaborazione interdisciplinare, accelerando lo sviluppo della tecnologia di controllo della fusione
  3. Valore Educativo: Riduce le barriere di apprendimento, facilitando la formazione di talenti interdisciplinari
  4. Riproducibilità: La progettazione open-source e la documentazione dettagliata supportano la riproducibilità della ricerca

Scenari Applicabili

  1. Ricerca su Algoritmi RL: Test e confronto di diversi algoritmi RL nelle prestazioni del controllo del plasma
  2. Sviluppo di Strategie di Controllo: Prototipazione rapida e valutazione di nuove strategie di controllo del plasma
  3. Formazione Educativa: Utilizzo come strumento didattico per aiutare gli studenti a comprendere l'applicazione del RL nei sistemi fisici
  4. Ricerca Preliminare: Verifica dell'algoritmo prima di investire in costosi esperimenti reali

Bibliografia

Questo articolo cita importanti lavori da più campi, inclusi la fisica del plasma, l'apprendimento per rinforzo e la tecnologia di simulazione, in particolare:

  • Documentazione tecnica principale del simulatore TORAX
  • Lavori rivoluzionari sul controllo del plasma basato su RL pubblicati di recente su riviste di alto livello come Nature
  • Specifiche tecniche di framework standard di ambienti RL come Gymnasium

Valutazione Complessiva: Gym-TORAX è un contributo software open-source di importante valore pratico. Sebbene relativamente conservatore nell'innovazione tecnica, possiede un valore significativo nel promuovere la collaborazione interdisciplinare e gli strumenti standardizzati. Questo lavoro fornisce un'infrastruttura importante per l'applicazione del RL nel campo del controllo del plasma, promettendo di promuovere lo sviluppo rapido di questo campo interdisciplinare.