Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX: Open-Source-Software zur Integration von RL mit Plasmakontroll-Simulatoren
Dieser Artikel stellt Gym-TORAX vor, ein Python-Softwarepaket, das Reinforcement-Learning-(RL-)Umgebungen für Tokamak-Plasmadynamik-Simulationen und -Kontrolle implementiert. Benutzer können prägnant eine Reihe von Kontrollaktionen und Beobachtungen sowie Kontrollziele definieren, woraufhin Gym-TORAX eine Gymnasium-Umgebung erstellt, die TORAX umhüllt, um die Plasmadynamik zu simulieren. Ziele werden durch Belohnungen formuliert, die vom Plasmamulationszustand und den Kontrollaktionen abhängen, um spezifische Plasmaeigenschaften wie Leistung und Stabilität zu optimieren. Die generierten Umgebungsinstanzen sind mit einer breiten Palette von RL-Algorithmen und -Bibliotheken kompatibel und werden RL-Forschung in der Plasmakontrolle fördern. In der aktuellen Version ist basierend auf dem Hochfahrszenario des International Thermonuclear Experimental Reactor (ITER) eine Umgebung verfügbar.
Herausforderungen der Kernfusionsenergie: Die Stabilität und Leistungsoptimierung von Kernfusionsreaktoren ist ein zentrales Problem der Fusionsenergieforschung. Die Tokamak-Konfiguration als Hauptforschungsrichtung steht vor Kontrollherausforderungen mit hoher Dimensionalität und starker Nichtlinearität.
Einschränkungen bestehender Simulationswerkzeuge:
Viele Plasmasimulator (wie RAPTOR, JOREK) sind nicht quelloffen und erfordern restriktive Lizenzen
Bestehende Werkzeuge sind hauptsächlich für Plasmaphysiker konzipiert und haben hohe Einstiegshürden für RL-Forscher
Es fehlen Schnittstellendesigns für Kontrollapplikationen
Bedarf an interdisziplinärer Zusammenarbeit: Die Anwendung von RL in der Plasmakontrolle erfordert die Senkung der Einstiegshürden für RL-Forscher und die Förderung der Zusammenarbeit zwischen den beiden Bereichen.
Bereitstellung eines quelloffenen, leichtgewichtigen und RL-kompatiblen Plasmakontroll-Simulationsrahmens
Durch die klassische Gymnasium-API wird die Plasmaphysik gekapselt, sodass sich RL-Forscher auf die Optimierung von Kontrollstrategien konzentrieren können
Unterstützung neuer Plasmakontrollstrategien-Forschung und Algorithmusentdeckung
Open-Source-Software-Framework: Entwicklung des Gym-TORAX Python-Pakets mit standardisierter RL-Umgebungsschnittstelle für Plasmakontrollforschung
TORAX-Integration: Erstellung eines Gymnasium-Wrappers für den TORAX-Simulator zur Implementierung von Closed-Loop-Kontrollumgebungen
Modulares Design: Bereitstellung eines flexiblen Umgebungserstellungsmechanismus, bei dem Benutzer durch Vererbung der BaseEnv-Klasse benutzerdefinierte Kontrollszenarien definieren können
ITER-Benchmark-Umgebung: Implementierung einer vollständigen Umgebung basierend auf dem ITER-Hybrid-Hochfahrszenario mit Benchmark-Kontrollstrategien
Interdisziplinäre Brücke: Senkung der technischen Einstiegshürden für RL-Forscher in das Plasmakontrollfeld
Benutzer müssen vier abstrakte Methoden implementieren:
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# Definieren Sie die TORAX-Konfigurationsdatei und Simulationsparameter
pass
def _define_action_space(self):
# Geben Sie die Teilmenge der TORAX-Variablen an, die vom Agent kontrolliert werden
pass
def _define_observation_space(self):
# Wählen Sie die in der Beobachtung enthaltenen Variablen aus
pass
def _compute_reward(self):
# Definieren Sie die aufgabenbezogene Belohnungsfunktion
pass
Nahtlose Integration von physikalischer Simulation und RL: Kapselung komplexer Plasmaphysik-Simulationen über die standardmäßige Gymnasium-Schnittstelle
Flexible Zeitskalen-Behandlung: Zweischichtiger Diskretisierungsmechanismus zur Behandlung von Unterschieden zwischen RL-Entscheidungsfrequenz und physikalischem Simulationszeitschritt
Robustheitsmechanismen: Automatische Behandlung von Simulationsfehlern und nicht realisierbaren Zuständen mit angemessenen Abbruchbedingungen und Strafen
Offenschleifenstrategie π_OL: Verwendung voreingestellter Aktionstrajektorien von TORAX
Zufallsstrategie π_R: Gleichmäßige zufällige Auswahl innerhalb des Aktionsraums
PI-Kontrollstrategie π_PI: Verwendung eines Proportional-Integral-Reglers zur Gesamtstromkontrolle mit voreingestellten Trajektorien für andere Variablen
PI-Regler-Vorteil: Die optimierte PI-Kontrollstrategie (kp*=0.700, ki*=34.257) zeigt eine Verbesserung von 11,5% gegenüber der Offenschleifenstrategie
Stromkontrollstrategie: Die PI-Strategie neigt dazu, den Gesamtstrom auf die 15-MA-Obergrenze zu erhöhen, was dem physikalischen Prinzip entspricht, dass höhere Ströme die Constraint-Leistung verbessern
Parameterempfindlichkeit: Die erwartete Rendite zeigt eine komplexe nichtlineare Verteilung im Parameterraum und erfordert sorgfältige Optimierung
Zufallsstrategie: Zeigt unregelmäßige Schwingungen mit teilweise gemilderter Constraint-Begrenzung
PI-Strategie: Stabiler Anstieg bis zum maximal zulässigen Wert, der die physikalisch gesteuerte Kontrolllogik widerspiegelt
Zieltracking: Der PI-Regler wird für die erwartete Rendite und nicht für das Trajektorie-Tracking optimiert, was die Flexibilität des RL-Rahmens demonstriert
Begrenzte Experimentiertiefe: Zeigt nur einfache PI-Regler-Implementierung, mangelnde tiefgreifende Bewertung moderner RL-Algorithmen
Unzureichende physikalische Validierung: Keine Vergleiche mit tatsächlichen Plasmamessungsdaten
Unzureichend demonstrierte Skalierbarkeit: Obwohl das Design Erweiterungen unterstützt, wird der vollständige Prozess der Umgebungserstellung nicht demonstriert
Fehlende Leistungsanalyse: Keine quantitative Analyse von Rechenleistung und Skalierbarkeit
Dieser Artikel zitiert wichtige Arbeiten aus mehreren Bereichen wie Plasmaphysik, Reinforcement Learning und Simulationstechnik, insbesondere:
Kernentechnologie-Dokumentation des TORAX-Simulators
Bahnbrechende Arbeiten zu RL-Plasmakontrolle in Top-Zeitschriften wie Nature
Technische Spezifikationen von Standard-RL-Umgebungsframeworks wie Gymnasium
Gesamtbewertung: Gym-TORAX ist ein quelloffener Softwarebeitrag mit wichtigem praktischem Wert. Obwohl die technische Innovation relativ konservativ ist, hat diese Arbeit erhebliche Bedeutung für die Förderung interdisziplinärer Zusammenarbeit und Standardisierung von Werkzeugen. Sie bietet wichtige Infrastruktur für RL-Anwendungen in der Plasmakontrolle und wird voraussichtlich die schnelle Entwicklung dieses Querschnittsbereichs vorantreiben.