Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX: Software open-source per l'integrazione del RL con simulatori di controllo del plasma
Questo articolo presenta Gym-TORAX, un pacchetto Python che consente l'implementazione di ambienti di apprendimento per rinforzo (RL) per la simulazione e il controllo della dinamica del plasma nei tokamak. Gli utenti possono definire in modo conciso un insieme di azioni di controllo e osservazioni, nonché obiettivi di controllo; Gym-TORAX crea quindi un ambiente Gymnasium che avvolge TORAX per simulare la dinamica del plasma. Gli obiettivi vengono formulati attraverso funzioni di ricompensa che dipendono dallo stato della simulazione del plasma e dalle azioni di controllo, al fine di ottimizzare caratteristiche specifiche del plasma, come le prestazioni e la stabilità. L'istanza di ambiente generata è compatibile con un'ampia gamma di algoritmi e librerie RL, facilitando la ricerca nel controllo del plasma basato su RL. Nella versione attuale, è disponibile un ambiente basato sullo scenario di ramp-up ad alta potenza del Reattore Termonucleare Sperimentale Internazionale (ITER).
Sfide nella Fusione Nucleare: L'ottimizzazione della stabilità e delle prestazioni dei reattori a fusione nucleare rappresenta un problema centrale nella ricerca sulla fusione, e la configurazione tokamak, come direzione di ricerca principale, affronta sfide di controllo ad alta dimensionalità e altamente non lineari.
Limitazioni degli Strumenti di Simulazione Esistenti:
Molti simulatori di plasma (come RAPTOR, JOREK) non sono open-source e richiedono licenze restrittive
Gli strumenti esistenti sono principalmente progettati per fisici del plasma, con barriere di ingresso elevate per i ricercatori di RL
Mancanza di interfacce progettate per applicazioni di controllo
Necessità di Collaborazione Interdisciplinare: L'applicazione del RL nel controllo del plasma richiede di abbassare le barriere di ingresso per i ricercatori di RL, promuovendo la collaborazione tra i due campi.
Fornire un framework di simulazione del controllo del plasma open-source, leggero e compatibile con RL
Incapsulare la fisica del plasma attraverso l'API classica di Gymnasium, permettendo ai ricercatori di RL di concentrarsi sull'ottimizzazione delle strategie di controllo
Supportare la ricerca su nuove strategie di controllo del plasma e la scoperta di algoritmi
Framework Software Open-source: Sviluppo del pacchetto Python Gym-TORAX, fornendo un'interfaccia di ambiente RL standardizzata per la ricerca sul controllo del plasma
Integrazione TORAX: Creazione di un wrapper Gymnasium per il simulatore TORAX, implementando un ambiente di controllo ad anello chiuso
Progettazione Modulare: Fornitura di un meccanismo flessibile di creazione dell'ambiente, consentendo agli utenti di definire scenari di controllo personalizzati ereditando la classe BaseEnv
Ambiente di Riferimento ITER: Implementazione di un ambiente completo basato sullo scenario di ramp-up ibrido di ITER, includendo strategie di controllo di riferimento
Ponte Interdisciplinare: Riduzione delle barriere tecniche per i ricercatori di RL che entrano nel campo del controllo del plasma
L'utente deve implementare quattro metodi astratti:
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# Definire il file di configurazione TORAX e i parametri di simulazione
pass
def _define_action_space(self):
# Specificare il sottoinsieme di variabili TORAX controllate dall'agente
pass
def _define_observation_space(self):
# Selezionare le variabili da includere nell'osservazione
pass
def _compute_reward(self):
# Definire la funzione di ricompensa specifica del compito
pass
Integrazione Senza Soluzione di Continuità tra Simulazione Fisica e RL: Incapsulamento della complessa simulazione della fisica del plasma attraverso l'interfaccia standard di Gymnasium
Gestione Flessibile delle Scale Temporali: Meccanismo di discretizzazione bilivello per gestire le differenze tra la frequenza decisionale del RL e il passo temporale della simulazione fisica
Progettazione Modulare: La progettazione della classe astratta supporta la creazione rapida di nuovi scenari di controllo
Meccanismi di Robustezza: Gestione automatica degli errori di simulazione e degli stati non fattibili, fornendo condizioni di terminazione appropriate e penalità
r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98
Corrispondenti rispettivamente al guadagno di fusione Q, al fattore di sicurezza minimo, al fattore di sicurezza al bordo e al fattore di qualità della massa vincolata in modalità H.
Strategia ad Anello Aperto π_OL: Utilizzo della traiettoria di azione preimpostata di TORAX
Strategia Casuale π_R: Selezione uniforme casuale all'interno dello spazio delle azioni
Strategia di Controllo PI π_PI: Utilizzo di un controllore proporzionale-integrale per controllare la corrente totale, con altre variabili che seguono la traiettoria preimpostata
Vantaggi del Controllore PI: La strategia di controllo PI ottimizzata (kp*=0.700, ki*=34.257) mostra un miglioramento dell'11.5% rispetto alla strategia ad anello aperto
Strategia di Controllo della Corrente: La strategia PI tende a elevare la corrente totale al limite superiore di 15MA, in accordo con il principio fisico che l'alta corrente migliora le prestazioni di confinamento
Sensibilità dei Parametri: Il rendimento atteso mostra una distribuzione non lineare complessa nello spazio dei parametri, richiedendo un'ottimizzazione attenta
Strategia Casuale: Presenta oscillazioni irregolari, con mitigazione parziale dei vincoli di confinamento
Strategia PI: Crescita stabile fino al valore massimo consentito, riflettendo una logica di controllo guidata dalla fisica
Inseguimento dell'Obiettivo: Il controllore PI è ottimizzato per il rendimento atteso piuttosto che per l'inseguimento della traiettoria, dimostrando la flessibilità del framework RL
Profondità Sperimentale Limitata: Mostra solo un semplice controllore PI, mancando di una valutazione approfondita degli algoritmi RL moderni
Verifica Fisica Insufficiente: Mancanza di confronto con dati di esperimenti di plasma reali
Estensibilità Non Completamente Dimostrata: Sebbene la progettazione supporti l'estensione, non mostra il processo completo di creazione di nuovi ambienti
Analisi delle Prestazioni Mancante: Mancanza di analisi quantitativa delle prestazioni computazionali e della scalabilità
Questo articolo cita importanti lavori da più campi, inclusi la fisica del plasma, l'apprendimento per rinforzo e la tecnologia di simulazione, in particolare:
Documentazione tecnica principale del simulatore TORAX
Lavori rivoluzionari sul controllo del plasma basato su RL pubblicati di recente su riviste di alto livello come Nature
Specifiche tecniche di framework standard di ambienti RL come Gymnasium
Valutazione Complessiva: Gym-TORAX è un contributo software open-source di importante valore pratico. Sebbene relativamente conservatore nell'innovazione tecnica, possiede un valore significativo nel promuovere la collaborazione interdisciplinare e gli strumenti standardizzati. Questo lavoro fornisce un'infrastruttura importante per l'applicazione del RL nel campo del controllo del plasma, promettendo di promuovere lo sviluppo rapido di questo campo interdisciplinare.