2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic

Gym-TORAX: Open-Source-Software zur Integration von RL mit Plasmakontroll-Simulatoren

Grundinformationen

  • Paper-ID: 2510.11283
  • Titel: Gym-TORAX: Open-source software for integrating RL with plasma control simulators
  • Autoren: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Montefiore Institut, Universität Lüttich, Belgien)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 13. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.11283v1

Zusammenfassung

Dieser Artikel stellt Gym-TORAX vor, ein Python-Softwarepaket, das Reinforcement-Learning-(RL-)Umgebungen für Tokamak-Plasmadynamik-Simulationen und -Kontrolle implementiert. Benutzer können prägnant eine Reihe von Kontrollaktionen und Beobachtungen sowie Kontrollziele definieren, woraufhin Gym-TORAX eine Gymnasium-Umgebung erstellt, die TORAX umhüllt, um die Plasmadynamik zu simulieren. Ziele werden durch Belohnungen formuliert, die vom Plasmamulationszustand und den Kontrollaktionen abhängen, um spezifische Plasmaeigenschaften wie Leistung und Stabilität zu optimieren. Die generierten Umgebungsinstanzen sind mit einer breiten Palette von RL-Algorithmen und -Bibliotheken kompatibel und werden RL-Forschung in der Plasmakontrolle fördern. In der aktuellen Version ist basierend auf dem Hochfahrszenario des International Thermonuclear Experimental Reactor (ITER) eine Umgebung verfügbar.

Forschungshintergrund und Motivation

Problemhintergrund

  1. Herausforderungen der Kernfusionsenergie: Die Stabilität und Leistungsoptimierung von Kernfusionsreaktoren ist ein zentrales Problem der Fusionsenergieforschung. Die Tokamak-Konfiguration als Hauptforschungsrichtung steht vor Kontrollherausforderungen mit hoher Dimensionalität und starker Nichtlinearität.
  2. Einschränkungen bestehender Simulationswerkzeuge:
    • Viele Plasmasimulator (wie RAPTOR, JOREK) sind nicht quelloffen und erfordern restriktive Lizenzen
    • Bestehende Werkzeuge sind hauptsächlich für Plasmaphysiker konzipiert und haben hohe Einstiegshürden für RL-Forscher
    • Es fehlen Schnittstellendesigns für Kontrollapplikationen
  3. Bedarf an interdisziplinärer Zusammenarbeit: Die Anwendung von RL in der Plasmakontrolle erfordert die Senkung der Einstiegshürden für RL-Forscher und die Förderung der Zusammenarbeit zwischen den beiden Bereichen.

Forschungsmotivation

  • Bereitstellung eines quelloffenen, leichtgewichtigen und RL-kompatiblen Plasmakontroll-Simulationsrahmens
  • Durch die klassische Gymnasium-API wird die Plasmaphysik gekapselt, sodass sich RL-Forscher auf die Optimierung von Kontrollstrategien konzentrieren können
  • Unterstützung neuer Plasmakontrollstrategien-Forschung und Algorithmusentdeckung

Kernbeiträge

  1. Open-Source-Software-Framework: Entwicklung des Gym-TORAX Python-Pakets mit standardisierter RL-Umgebungsschnittstelle für Plasmakontrollforschung
  2. TORAX-Integration: Erstellung eines Gymnasium-Wrappers für den TORAX-Simulator zur Implementierung von Closed-Loop-Kontrollumgebungen
  3. Modulares Design: Bereitstellung eines flexiblen Umgebungserstellungsmechanismus, bei dem Benutzer durch Vererbung der BaseEnv-Klasse benutzerdefinierte Kontrollszenarien definieren können
  4. ITER-Benchmark-Umgebung: Implementierung einer vollständigen Umgebung basierend auf dem ITER-Hybrid-Hochfahrszenario mit Benchmark-Kontrollstrategien
  5. Interdisziplinäre Brücke: Senkung der technischen Einstiegshürden für RL-Forscher in das Plasmakontrollfeld

Methodische Details

Aufgabendefinition

Modellierung des Plasmakontrollproblems als endlich-zeitlicher deterministischer Markov-Entscheidungsprozess (MDP):

  • Zustandsraum 𝒮: Plasmazustand (Temperatur, Dichte, Magnetfluss usw.)
  • Aktionsraum 𝒜: Kontrollvariablen (Gesamtstrom, Schleifenspannung, Energiequellen usw.)
  • Übergangsfunktion f: 𝒮 × 𝒜 → 𝒮 (implementiert durch TORAX-Simulation)
  • Belohnungsfunktion r: 𝒮 × 𝒜 → ℝ (benutzerdefinierte aufgabenbezogene Ziele)

Systemarchitektur

Zweischichtige Zeitdiskretisierung

  1. RL-Interaktionsschicht: Zeitschritte für Agent-Umgebungs-Interaktion
  2. Physikalische Simulationsschicht: TORAX-Zeitschritte zur Lösung partieller Differentialgleichungen (optionaler Auto- oder Fixed-Modus)

Kernkomponenten

  1. BaseEnv-Klasse: Abstrakte Basisklasse, die die Standardschnittstelle für die Umgebungserstellung definiert
  2. Action-Klasse: Konfigurierbare abstrakte Klasse zur Aktionsdefinition
  3. Observation-Klasse: Klasse zur Definition von Beobachtungsinhalten
  4. Belohnungs-Hilfsfunktionen: Spezialisierte Werkzeuge zur Belohnungsfunktionsgestaltung

Umgebungserstellungsprozess

Benutzer müssen vier abstrakte Methoden implementieren:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # Definieren Sie die TORAX-Konfigurationsdatei und Simulationsparameter
        pass
    
    def _define_action_space(self):
        # Geben Sie die Teilmenge der TORAX-Variablen an, die vom Agent kontrolliert werden
        pass
    
    def _define_observation_space(self):
        # Wählen Sie die in der Beobachtung enthaltenen Variablen aus
        pass
    
    def _compute_reward(self):
        # Definieren Sie die aufgabenbezogene Belohnungsfunktion
        pass

Technische Innovationen

  1. Nahtlose Integration von physikalischer Simulation und RL: Kapselung komplexer Plasmaphysik-Simulationen über die standardmäßige Gymnasium-Schnittstelle
  2. Flexible Zeitskalen-Behandlung: Zweischichtiger Diskretisierungsmechanismus zur Behandlung von Unterschieden zwischen RL-Entscheidungsfrequenz und physikalischem Simulationszeitschritt
  3. Modulares Design: Abstraktes Klassendesign unterstützt schnelle Erstellung neuer Kontrollszenarien
  4. Robustheitsmechanismen: Automatische Behandlung von Simulationsfehlern und nicht realisierbaren Zuständen mit angemessenen Abbruchbedingungen und Strafen

Experimentelle Einrichtung

Simulationsumgebung: ITER-Hybrid-Hochfahrszenario

  • Physikalischer Hintergrund: Basierend auf dem Hybrid-Betriebsmodus des ITER-Reaktors
  • Zeitspanne: 100-Sekunden-Hochfahrphase (L-Modus) + 50-Sekunden-Stationärphase (H-Modus)
  • Kontrollvariablen:
    • IpAction: Gesamtstromkontrolle
    • NbiAction: Neutralstrahlinjektion-Leistung
    • EcrhAction: Elektronenzyklotron-Resonanzheiz-Leistung

Belohnungsfunktionsgestaltung

Verwendung einer vierteiligen linearen Kombination:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

entsprechend dem Fusionsverstärkungsfaktor Q, dem minimalen Sicherheitsfaktor, dem Rand-Sicherheitsfaktor und dem H-Modus-Constraint-Qualitätsfaktor.

Vergleichsstrategien

  1. Offenschleifenstrategie π_OL: Verwendung voreingestellter Aktionstrajektorien von TORAX
  2. Zufallsstrategie π_R: Gleichmäßige zufällige Auswahl innerhalb des Aktionsraums
  3. PI-Kontrollstrategie π_PI: Verwendung eines Proportional-Integral-Reglers zur Gesamtstromkontrolle mit voreingestellten Trajektorien für andere Variablen

Implementierungsdetails

  • PI-Parameteroptimierung: Gittersuche zur Optimierung des proportionalen Verstärkung kp und der Integralverstärkung ki
  • Suchraum: kp ∈ -10, 0, ki ∈ 0, 40
  • Gitterdichte: 20×60 = 1200 Parameterkombinationen
  • Zielfunktion: Maximierung der erwarteten Rendite J(π)

Experimentelle Ergebnisse

Hauptergebnisse

StrategieErwartete Rendite
π_OL (Offenschleife)3.40
π_R (Zufall)-10.79
π_PI (PI-Kontrolle)3.79

Wichtigste Erkenntnisse

  1. PI-Regler-Vorteil: Die optimierte PI-Kontrollstrategie (kp*=0.700, ki*=34.257) zeigt eine Verbesserung von 11,5% gegenüber der Offenschleifenstrategie
  2. Stromkontrollstrategie: Die PI-Strategie neigt dazu, den Gesamtstrom auf die 15-MA-Obergrenze zu erhöhen, was dem physikalischen Prinzip entspricht, dass höhere Ströme die Constraint-Leistung verbessern
  3. Parameterempfindlichkeit: Die erwartete Rendite zeigt eine komplexe nichtlineare Verteilung im Parameterraum und erfordert sorgfältige Optimierung

Kontrolltrajektor-Analyse

  • Zufallsstrategie: Zeigt unregelmäßige Schwingungen mit teilweise gemilderter Constraint-Begrenzung
  • PI-Strategie: Stabiler Anstieg bis zum maximal zulässigen Wert, der die physikalisch gesteuerte Kontrolllogik widerspiegelt
  • Zieltracking: Der PI-Regler wird für die erwartete Rendite und nicht für das Trajektorie-Tracking optimiert, was die Flexibilität des RL-Rahmens demonstriert

Verwandte Arbeiten

RL-Anwendungen in der Plasmakontrolle

  1. Magnetkontrolle: Degrave et al. (Nature 2022) verwendeten tiefes RL zur Kontrolle der Tokamak-Plasmaform
  2. Stabilitätskontrolle: Char et al. (2023) untersuchten βN-Kontrolle, Seo et al. (Nature 2024) vermieden Reiß-Instabilität
  3. Simulationswerkzeuge: Bestehende Werkzeuge wie RAPTOR, JOREK mangelt es an Quelloffenheit und RL-Schnittstellen

Vorteile dieses Artikels

  • Erstes speziell für RL konzipiertes quelloffenes Plasmakontroll-Simulationsframework
  • Standardisierte Schnittstelle senkt Einstiegshürden für interdisziplinäre Forschung
  • Basierend auf moderner JAX-Technologie mit Unterstützung für schnelle automatische Differenziation

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Gym-TORAX bietet erfolgreich eine standardisierte Integrationslösung für RL und Plasmassimulation
  2. Der PI-Regler-Benchmark demonstriert die Effektivität des Rahmens und das Verbesserungspotenzial
  3. Das modulare Design unterstützt schnelle Erweiterung auf neue Kontrollszenarien

Einschränkungen

  1. Physikalische Modellbeschränkungen: Basierend auf TORAX-Axialsymmetrie-Annahmen, begrenzt die Modellierung komplexer 3D-Effekte
  2. Simulationsgenauigkeit: Geeignet für vorläufige Forschung; hochpräzise Anwendungen erfordern komplexere physikalische Modelle
  3. Szenario-Abdeckung: Derzeit hauptsächlich ITER-Szenarien unterstützend, Erweiterung auf weitere Reaktorkonfigurationen erforderlich

Zukünftige Richtungen

  1. Geometrieparametrisierung: Unterstützung direkter Parametrisierung von Plasma- und Tokamak-Geometrie
  2. Physikalische Ereignisbehandlung: Hinzufügen spezialisierter Behandlungswerkzeuge für kritische physikalische Ereignisse wie L-H-Übergänge
  3. TORAX-Funktionserweiterung: Erweiterung der Fähigkeiten mit Verbesserungen des TORAX-Simulators

Tiefgreifende Bewertung

Stärken

  1. Schließung einer Lücke: Erstes quelloffenes RL-Plasmakontroll-Integrations-Framework, das eine wichtige Werkzeuglücke schließt
  2. Elegantes Design: Zweischichtige Zeitdiskretisierung und modulares Design spiegeln gute Softwareentwicklungspraktiken wider
  3. Praktischer Wert: Senkt Einstiegshürden für RL-Forscher in das Plasmakontrollfeld
  4. Vollständiger Benchmark: Bietet vollständige ITER-Szenario-Implementierung und Vergleich mehrerer Benchmark-Strategien
  5. Open-Source-Beitrag: MIT-Lizenz und umfassende Dokumentation unterstützen Gemeinschaftsentwicklung

Mängel

  1. Begrenzte Experimentiertiefe: Zeigt nur einfache PI-Regler-Implementierung, mangelnde tiefgreifende Bewertung moderner RL-Algorithmen
  2. Unzureichende physikalische Validierung: Keine Vergleiche mit tatsächlichen Plasmamessungsdaten
  3. Unzureichend demonstrierte Skalierbarkeit: Obwohl das Design Erweiterungen unterstützt, wird der vollständige Prozess der Umgebungserstellung nicht demonstriert
  4. Fehlende Leistungsanalyse: Keine quantitative Analyse von Rechenleistung und Skalierbarkeit

Auswirkungen

  1. Akademischer Wert: Bietet standardisierte Plattform für RL-Anwendungen in der Plasmakontrolle
  2. Ingenieurwert: Fördert interdisziplinäre Zusammenarbeit und beschleunigt Fusionskontroll-Technologieentwicklung
  3. Bildungswert: Senkt Lernhürden und unterstützt Ausbildung von Fachkräften mit interdisziplinärem Hintergrund
  4. Reproduzierbarkeit: Quelloffenes Design und detaillierte Dokumentation unterstützen Forschungsreproduzierbarkeit

Anwendungsszenarien

  1. RL-Algorithmusforschung: Testen und Vergleichen verschiedener RL-Algorithmen in der Plasmakontrolle
  2. Kontrollstrategieentwicklung: Schnelle Prototypisierung und Bewertung neuer Plasmakontrollstrategien
  3. Bildung und Training: Als Lehrmittel zur Unterstützung des Verständnisses von RL-Anwendungen in physikalischen Systemen
  4. Vorläufige Forschung: Algorithmus-Validierung vor Investition in teure praktische Experimente

Referenzen

Dieser Artikel zitiert wichtige Arbeiten aus mehreren Bereichen wie Plasmaphysik, Reinforcement Learning und Simulationstechnik, insbesondere:

  • Kernentechnologie-Dokumentation des TORAX-Simulators
  • Bahnbrechende Arbeiten zu RL-Plasmakontrolle in Top-Zeitschriften wie Nature
  • Technische Spezifikationen von Standard-RL-Umgebungsframeworks wie Gymnasium

Gesamtbewertung: Gym-TORAX ist ein quelloffener Softwarebeitrag mit wichtigem praktischem Wert. Obwohl die technische Innovation relativ konservativ ist, hat diese Arbeit erhebliche Bedeutung für die Förderung interdisziplinärer Zusammenarbeit und Standardisierung von Werkzeugen. Sie bietet wichtige Infrastruktur für RL-Anwendungen in der Plasmakontrolle und wird voraussichtlich die schnelle Entwicklung dieses Querschnittsbereichs vorantreiben.