2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.

This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).

academic

Gym-TORAX: Open-Source-Software zur Integration von RL mit Plasmakontroll-Simulatoren

Grundinformationen

Paper-ID: 2510.11283
Titel: Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Autoren: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Montefiore Institut, Universität Lüttich, Belgien)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 13. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.11283v1

Zusammenfassung

Dieser Artikel stellt Gym-TORAX vor, ein Python-Softwarepaket, das Reinforcement-Learning-(RL-)Umgebungen für Tokamak-Plasmadynamik-Simulationen und -Kontrolle implementiert. Benutzer können prägnant eine Reihe von Kontrollaktionen und Beobachtungen sowie Kontrollziele definieren, woraufhin Gym-TORAX eine Gymnasium-Umgebung erstellt, die TORAX umhüllt, um die Plasmadynamik zu simulieren. Ziele werden durch Belohnungen formuliert, die vom Plasmamulationszustand und den Kontrollaktionen abhängen, um spezifische Plasmaeigenschaften wie Leistung und Stabilität zu optimieren. Die generierten Umgebungsinstanzen sind mit einer breiten Palette von RL-Algorithmen und -Bibliotheken kompatibel und werden RL-Forschung in der Plasmakontrolle fördern. In der aktuellen Version ist basierend auf dem Hochfahrszenario des International Thermonuclear Experimental Reactor (ITER) eine Umgebung verfügbar.

Forschungshintergrund und Motivation

Problemhintergrund

Herausforderungen der Kernfusionsenergie: Die Stabilität und Leistungsoptimierung von Kernfusionsreaktoren ist ein zentrales Problem der Fusionsenergieforschung. Die Tokamak-Konfiguration als Hauptforschungsrichtung steht vor Kontrollherausforderungen mit hoher Dimensionalität und starker Nichtlinearität.
Einschränkungen bestehender Simulationswerkzeuge:
- Viele Plasmasimulator (wie RAPTOR, JOREK) sind nicht quelloffen und erfordern restriktive Lizenzen
- Bestehende Werkzeuge sind hauptsächlich für Plasmaphysiker konzipiert und haben hohe Einstiegshürden für RL-Forscher
- Es fehlen Schnittstellendesigns für Kontrollapplikationen
Bedarf an interdisziplinärer Zusammenarbeit: Die Anwendung von RL in der Plasmakontrolle erfordert die Senkung der Einstiegshürden für RL-Forscher und die Förderung der Zusammenarbeit zwischen den beiden Bereichen.

Forschungsmotivation

Bereitstellung eines quelloffenen, leichtgewichtigen und RL-kompatiblen Plasmakontroll-Simulationsrahmens
Durch die klassische Gymnasium-API wird die Plasmaphysik gekapselt, sodass sich RL-Forscher auf die Optimierung von Kontrollstrategien konzentrieren können
Unterstützung neuer Plasmakontrollstrategien-Forschung und Algorithmusentdeckung

Kernbeiträge

Open-Source-Software-Framework: Entwicklung des Gym-TORAX Python-Pakets mit standardisierter RL-Umgebungsschnittstelle für Plasmakontrollforschung
TORAX-Integration: Erstellung eines Gymnasium-Wrappers für den TORAX-Simulator zur Implementierung von Closed-Loop-Kontrollumgebungen
Modulares Design: Bereitstellung eines flexiblen Umgebungserstellungsmechanismus, bei dem Benutzer durch Vererbung der BaseEnv-Klasse benutzerdefinierte Kontrollszenarien definieren können
ITER-Benchmark-Umgebung: Implementierung einer vollständigen Umgebung basierend auf dem ITER-Hybrid-Hochfahrszenario mit Benchmark-Kontrollstrategien
Interdisziplinäre Brücke: Senkung der technischen Einstiegshürden für RL-Forscher in das Plasmakontrollfeld

Methodische Details

Aufgabendefinition

Modellierung des Plasmakontrollproblems als endlich-zeitlicher deterministischer Markov-Entscheidungsprozess (MDP):

Zustandsraum 𝒮: Plasmazustand (Temperatur, Dichte, Magnetfluss usw.)
Aktionsraum 𝒜: Kontrollvariablen (Gesamtstrom, Schleifenspannung, Energiequellen usw.)
Übergangsfunktion f: 𝒮 × 𝒜 → 𝒮 (implementiert durch TORAX-Simulation)
Belohnungsfunktion r: 𝒮 × 𝒜 → ℝ (benutzerdefinierte aufgabenbezogene Ziele)

Systemarchitektur

Zweischichtige Zeitdiskretisierung

RL-Interaktionsschicht: Zeitschritte für Agent-Umgebungs-Interaktion
Physikalische Simulationsschicht: TORAX-Zeitschritte zur Lösung partieller Differentialgleichungen (optionaler Auto- oder Fixed-Modus)

Kernkomponenten

BaseEnv-Klasse: Abstrakte Basisklasse, die die Standardschnittstelle für die Umgebungserstellung definiert
Action-Klasse: Konfigurierbare abstrakte Klasse zur Aktionsdefinition
Observation-Klasse: Klasse zur Definition von Beobachtungsinhalten
Belohnungs-Hilfsfunktionen: Spezialisierte Werkzeuge zur Belohnungsfunktionsgestaltung

Umgebungserstellungsprozess

Benutzer müssen vier abstrakte Methoden implementieren:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Definieren Sie die TORAX-Konfigurationsdatei und Simulationsparameter
        pass
    
    def _define_action_space(self):
        # Geben Sie die Teilmenge der TORAX-Variablen an, die vom Agent kontrolliert werden
        pass
    
    def _define_observation_space(self):
        # Wählen Sie die in der Beobachtung enthaltenen Variablen aus
        pass
    
    def _compute_reward(self):
        # Definieren Sie die aufgabenbezogene Belohnungsfunktion
        pass

Technische Innovationen

Nahtlose Integration von physikalischer Simulation und RL: Kapselung komplexer Plasmaphysik-Simulationen über die standardmäßige Gymnasium-Schnittstelle
Flexible Zeitskalen-Behandlung: Zweischichtiger Diskretisierungsmechanismus zur Behandlung von Unterschieden zwischen RL-Entscheidungsfrequenz und physikalischem Simulationszeitschritt
Modulares Design: Abstraktes Klassendesign unterstützt schnelle Erstellung neuer Kontrollszenarien
Robustheitsmechanismen: Automatische Behandlung von Simulationsfehlern und nicht realisierbaren Zuständen mit angemessenen Abbruchbedingungen und Strafen

Experimentelle Einrichtung

Simulationsumgebung: ITER-Hybrid-Hochfahrszenario

Physikalischer Hintergrund: Basierend auf dem Hybrid-Betriebsmodus des ITER-Reaktors
Zeitspanne: 100-Sekunden-Hochfahrphase (L-Modus) + 50-Sekunden-Stationärphase (H-Modus)
Kontrollvariablen:
- IpAction: Gesamtstromkontrolle
- NbiAction: Neutralstrahlinjektion-Leistung
- EcrhAction: Elektronenzyklotron-Resonanzheiz-Leistung

Belohnungsfunktionsgestaltung

Verwendung einer vierteiligen linearen Kombination:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

entsprechend dem Fusionsverstärkungsfaktor Q, dem minimalen Sicherheitsfaktor, dem Rand-Sicherheitsfaktor und dem H-Modus-Constraint-Qualitätsfaktor.

Vergleichsstrategien

Offenschleifenstrategie π_OL: Verwendung voreingestellter Aktionstrajektorien von TORAX
Zufallsstrategie π_R: Gleichmäßige zufällige Auswahl innerhalb des Aktionsraums
PI-Kontrollstrategie π_PI: Verwendung eines Proportional-Integral-Reglers zur Gesamtstromkontrolle mit voreingestellten Trajektorien für andere Variablen

Implementierungsdetails

PI-Parameteroptimierung: Gittersuche zur Optimierung des proportionalen Verstärkung kp und der Integralverstärkung ki
Suchraum: kp ∈ -10, 0, ki ∈ 0, 40
Gitterdichte: 20×60 = 1200 Parameterkombinationen
Zielfunktion: Maximierung der erwarteten Rendite J(π)

Experimentelle Ergebnisse

Hauptergebnisse

Strategie	Erwartete Rendite
π_OL (Offenschleife)	3.40
π_R (Zufall)	-10.79
π_PI (PI-Kontrolle)	3.79

Wichtigste Erkenntnisse

PI-Regler-Vorteil: Die optimierte PI-Kontrollstrategie (kp*=0.700, ki*=34.257) zeigt eine Verbesserung von 11,5% gegenüber der Offenschleifenstrategie
Stromkontrollstrategie: Die PI-Strategie neigt dazu, den Gesamtstrom auf die 15-MA-Obergrenze zu erhöhen, was dem physikalischen Prinzip entspricht, dass höhere Ströme die Constraint-Leistung verbessern
Parameterempfindlichkeit: Die erwartete Rendite zeigt eine komplexe nichtlineare Verteilung im Parameterraum und erfordert sorgfältige Optimierung

Kontrolltrajektor-Analyse

Zufallsstrategie: Zeigt unregelmäßige Schwingungen mit teilweise gemilderter Constraint-Begrenzung
PI-Strategie: Stabiler Anstieg bis zum maximal zulässigen Wert, der die physikalisch gesteuerte Kontrolllogik widerspiegelt
Zieltracking: Der PI-Regler wird für die erwartete Rendite und nicht für das Trajektorie-Tracking optimiert, was die Flexibilität des RL-Rahmens demonstriert

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Gym-TORAX bietet erfolgreich eine standardisierte Integrationslösung für RL und Plasmassimulation
Der PI-Regler-Benchmark demonstriert die Effektivität des Rahmens und das Verbesserungspotenzial
Das modulare Design unterstützt schnelle Erweiterung auf neue Kontrollszenarien

Einschränkungen

Physikalische Modellbeschränkungen: Basierend auf TORAX-Axialsymmetrie-Annahmen, begrenzt die Modellierung komplexer 3D-Effekte
Simulationsgenauigkeit: Geeignet für vorläufige Forschung; hochpräzise Anwendungen erfordern komplexere physikalische Modelle
Szenario-Abdeckung: Derzeit hauptsächlich ITER-Szenarien unterstützend, Erweiterung auf weitere Reaktorkonfigurationen erforderlich

Zukünftige Richtungen

Geometrieparametrisierung: Unterstützung direkter Parametrisierung von Plasma- und Tokamak-Geometrie
Physikalische Ereignisbehandlung: Hinzufügen spezialisierter Behandlungswerkzeuge für kritische physikalische Ereignisse wie L-H-Übergänge
TORAX-Funktionserweiterung: Erweiterung der Fähigkeiten mit Verbesserungen des TORAX-Simulators

Tiefgreifende Bewertung

Stärken

Schließung einer Lücke: Erstes quelloffenes RL-Plasmakontroll-Integrations-Framework, das eine wichtige Werkzeuglücke schließt
Elegantes Design: Zweischichtige Zeitdiskretisierung und modulares Design spiegeln gute Softwareentwicklungspraktiken wider
Praktischer Wert: Senkt Einstiegshürden für RL-Forscher in das Plasmakontrollfeld
Vollständiger Benchmark: Bietet vollständige ITER-Szenario-Implementierung und Vergleich mehrerer Benchmark-Strategien
Open-Source-Beitrag: MIT-Lizenz und umfassende Dokumentation unterstützen Gemeinschaftsentwicklung

Mängel

Begrenzte Experimentiertiefe: Zeigt nur einfache PI-Regler-Implementierung, mangelnde tiefgreifende Bewertung moderner RL-Algorithmen
Unzureichende physikalische Validierung: Keine Vergleiche mit tatsächlichen Plasmamessungsdaten
Unzureichend demonstrierte Skalierbarkeit: Obwohl das Design Erweiterungen unterstützt, wird der vollständige Prozess der Umgebungserstellung nicht demonstriert
Fehlende Leistungsanalyse: Keine quantitative Analyse von Rechenleistung und Skalierbarkeit

Auswirkungen

Akademischer Wert: Bietet standardisierte Plattform für RL-Anwendungen in der Plasmakontrolle
Ingenieurwert: Fördert interdisziplinäre Zusammenarbeit und beschleunigt Fusionskontroll-Technologieentwicklung
Bildungswert: Senkt Lernhürden und unterstützt Ausbildung von Fachkräften mit interdisziplinärem Hintergrund
Reproduzierbarkeit: Quelloffenes Design und detaillierte Dokumentation unterstützen Forschungsreproduzierbarkeit

Anwendungsszenarien

RL-Algorithmusforschung: Testen und Vergleichen verschiedener RL-Algorithmen in der Plasmakontrolle
Kontrollstrategieentwicklung: Schnelle Prototypisierung und Bewertung neuer Plasmakontrollstrategien
Bildung und Training: Als Lehrmittel zur Unterstützung des Verständnisses von RL-Anwendungen in physikalischen Systemen
Vorläufige Forschung: Algorithmus-Validierung vor Investition in teure praktische Experimente

Referenzen

Dieser Artikel zitiert wichtige Arbeiten aus mehreren Bereichen wie Plasmaphysik, Reinforcement Learning und Simulationstechnik, insbesondere:

Kernentechnologie-Dokumentation des TORAX-Simulators
Bahnbrechende Arbeiten zu RL-Plasmakontrolle in Top-Zeitschriften wie Nature
Technische Spezifikationen von Standard-RL-Umgebungsframeworks wie Gymnasium

Gesamtbewertung: Gym-TORAX ist ein quelloffener Softwarebeitrag mit wichtigem praktischem Wert. Obwohl die technische Innovation relativ konservativ ist, hat diese Arbeit erhebliche Bedeutung für die Förderung interdisziplinärer Zusammenarbeit und Standardisierung von Werkzeugen. Sie bietet wichtige Infrastruktur für RL-Anwendungen in der Plasmakontrolle und wird voraussichtlich die schnelle Entwicklung dieses Querschnittsbereichs vorantreiben.