2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.

This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).

academic

Gym-TORAX: RL को प्लाज्मा नियंत्रण सिमुलेटर के साथ एकीकृत करने के लिए ओपन-सोर्स सॉफ्टवेयर

मूल जानकारी

पेपर ID: 2510.11283
शीर्षक: Gym-TORAX: RL को प्लाज्मा नियंत्रण सिमुलेटर के साथ एकीकृत करने के लिए ओपन-सोर्स सॉफ्टवेयर
लेखक: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Montefiore Institute, University of Liège, Belgium)
वर्गीकरण: cs.LG (मशीन लर्निंग)
प्रकाशन तिथि: 13 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.11283v1

सारांश

यह पेपर Gym-TORAX प्रस्तुत करता है, एक Python सॉफ्टवेयर पैकेज जो टोकामक प्लाज्मा गतिशीलता सिमुलेशन और नियंत्रण के लिए सुदृढ़ शिक्षा (RL) वातावरण को लागू करता है। उपयोगकर्ता सरलता से नियंत्रण कार्यों और अवलोकनों का एक समूह, साथ ही नियंत्रण उद्देश्यों को परिभाषित कर सकते हैं, और Gym-TORAX TORAX को लपेटने वाला एक Gymnasium वातावरण बनाता है जो प्लाज्मा गतिशीलता का सिमुलेशन करता है। उद्देश्यों को पुरस्कार के माध्यम से तैयार किया जाता है जो प्लाज्मा सिमुलेशन स्थिति और नियंत्रण कार्यों पर निर्भर करते हैं, प्लाज्मा की विशिष्ट विशेषताओं जैसे प्रदर्शन और स्थिरता को अनुकूलित करने के लिए। उत्पन्न वातावरण उदाहरण व्यापक RL एल्गोरिदम और पुस्तकालयों के साथ संगत हैं, जो प्लाज्मा नियंत्रण में RL अनुसंधान को बढ़ावा देंगे। वर्तमान संस्करण में, अंतर्राष्ट्रीय थर्मोन्यूक्लियर प्रायोगिक रिएक्टर (ITER) के आधार पर अपशक्ति शक्ति परिदृश्य के आधार पर, एक वातावरण उपलब्ध है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

नाभिकीय संलयन ऊर्जा चुनौतियाँ: नाभिकीय संलयन रिएक्टर की स्थिरता और प्रदर्शन अनुकूलन संलयन ऊर्जा अनुसंधान की मूल समस्या है, टोकामक कॉन्फ़िगरेशन मुख्य अनुसंधान दिशा के रूप में उच्च-आयामी और दृढ़ता से अरैखिक नियंत्रण चुनौतियों का सामना करता है।
मौजूदा सिमुलेशन उपकरणों की सीमाएं:
- कई प्लाज्मा सिमुलेटर (जैसे RAPTOR, JOREK) ओपन-सोर्स नहीं हैं और प्रतिबंधात्मक लाइसेंस की आवश्यकता है
- मौजूदा उपकरण मुख्य रूप से प्लाज्मा भौतिकविदों के लिए डिज़ाइन किए गए हैं, RL शोधकर्ताओं के लिए प्रवेश बाधा अधिक है
- नियंत्रण अनुप्रयोगों के लिए डिज़ाइन किए गए इंटरफेस की कमी है
अंतःविषय सहयोग की आवश्यकता: RL का प्लाज्मा नियंत्रण में अनुप्रयोग RL शोधकर्ताओं के लिए प्रवेश बाधा को कम करने और दोनों क्षेत्रों के सहयोग को बढ़ावा देने की आवश्यकता है।

अनुसंधान प्रेरणा

ओपन-सोर्स, हल्के-फुल्के, RL-संगत प्लाज्मा नियंत्रण सिमुलेशन ढांचा प्रदान करना
शास्त्रीय Gymnasium API के माध्यम से प्लाज्मा भौतिकी को एनकैप्सुलेट करके, RL शोधकर्ताओं को नियंत्रण रणनीति अनुकूलन पर ध्यान केंद्रित करने दें
नई प्लाज्मा नियंत्रण रणनीति अनुसंधान और एल्गोरिदम खोज का समर्थन करें

मुख्य योगदान

ओपन-सोर्स सॉफ्टवेयर ढांचा: प्लाज्मा नियंत्रण अनुसंधान के लिए मानकीकृत RL वातावरण इंटरफेस प्रदान करने वाला Gym-TORAX Python पैकेज विकसित किया
TORAX एकीकरण: TORAX सिमुलेटर का Gymnasium रैपर बनाया, बंद-लूप नियंत्रण वातावरण को लागू किया
मॉड्यूलर डिज़ाइन: लचीली वातावरण निर्माण तंत्र प्रदान करता है, उपयोगकर्ता BaseEnv क्लास को विरासत में देकर कस्टम नियंत्रण परिदृश्य परिभाषित कर सकते हैं
ITER बेंचमार्क वातावरण: ITER मिश्रित अपशक्ति परिदृश्य के आधार पर पूर्ण वातावरण को लागू किया, बेंचमार्क नियंत्रण रणनीति सहित
अंतःविषय पुल: RL शोधकर्ताओं के लिए प्लाज्मा नियंत्रण क्षेत्र में प्रवेश की तकनीकी बाधा को कम करता है

विधि विवरण

कार्य परिभाषा

प्लाज्मा नियंत्रण समस्या को सीमित समय निर्धारक मार्कोव निर्णय प्रक्रिया (MDP) के रूप में मॉडल करना:

स्थिति स्पेस 𝒮: प्लाज्मा स्थिति (तापमान, घनत्व, चुंबकीय प्रवाह आदि)
कार्य स्पेस 𝒜: नियंत्रण चर (कुल विद्युत धारा, लूप वोल्टेज, ऊर्जा स्रोत आदि)
संक्रमण फ़ंक्शन f: 𝒮 × 𝒜 → 𝒮 (TORAX सिमुलेशन के माध्यम से लागू)
पुरस्कार फ़ंक्शन r: 𝒮 × 𝒜 → ℝ (उपयोगकर्ता-परिभाषित कार्य-संबंधित उद्देश्य)

सिस्टम आर्किटेक्चर

दोहरी-स्तरीय समय विवेकीकरण

RL इंटरैक्शन परत: एजेंट-वातावरण इंटरैक्शन का समय चरण
भौतिकी सिमुलेशन परत: TORAX आंशिक अवकल समीकरणों को हल करने का समय चरण (वैकल्पिक auto या fixed मोड)

मुख्य घटक

BaseEnv क्लास: अमूर्त आधार वर्ग, वातावरण निर्माण के लिए मानक इंटरफेस को परिभाषित करता है
Action क्लास: कॉन्फ़िगरेबल कार्य परिभाषा अमूर्त वर्ग
Observation क्लास: अवलोकन सामग्री परिभाषा वर्ग
पुरस्कार सहायक फ़ंक्शन: विशेष पुरस्कार फ़ंक्शन डिज़ाइन उपकरण

वातावरण निर्माण प्रवाह

उपयोगकर्ता को चार अमूर्त विधियों को लागू करने की आवश्यकता है:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # TORAX कॉन्फ़िगरेशन फ़ाइल और सिमुलेशन पैरामीटर परिभाषित करें
        pass
    
    def _define_action_space(self):
        # एजेंट द्वारा नियंत्रित TORAX चर के सबसेट को निर्दिष्ट करें
        pass
    
    def _define_observation_space(self):
        # अवलोकन में शामिल चर चुनें
        pass
    
    def _compute_reward(self):
        # कार्य-संबंधित पुरस्कार फ़ंक्शन परिभाषित करें
        pass

तकनीकी नवाचार बिंदु

भौतिकी सिमुलेशन और RL का निर्बाध एकीकरण: मानक Gymnasium इंटरफेस के माध्यम से जटिल प्लाज्मा भौतिकी सिमुलेशन को एनकैप्सुलेट करना
लचीली समय पैमाने हैंडलिंग: दोहरी-स्तरीय विवेकीकरण तंत्र RL निर्णय आवृत्ति और भौतिकी सिमुलेशन समय चरण के अंतर को संभालता है
मॉड्यूलर डिज़ाइन: अमूर्त वर्ग डिज़ाइन नई नियंत्रण परिदृश्य के तेजी से निर्माण का समर्थन करता है
मजबूती तंत्र: स्वचालित रूप से सिमुलेशन त्रुटियों और अव्यवहार्य स्थितियों को संभालता है, उपयुक्त समाप्ति शर्तें और दंड प्रदान करता है

प्रायोगिक सेटअप

सिमुलेशन वातावरण: ITER मिश्रित अपशक्ति परिदृश्य

भौतिकी पृष्ठभूमि: ITER रिएक्टर के मिश्रित ऑपरेटिंग मोड के आधार पर
समय अवधि: 100 सेकंड अपशक्ति चरण (L मोड) + 50 सेकंड स्थिर-अवस्था चरण (H मोड)
नियंत्रण चर:
- IpAction: कुल विद्युत धारा नियंत्रण
- NbiAction: तटस्थ बीम इंजेक्शन शक्ति
- EcrhAction: इलेक्ट्रॉन साइक्लोट्रॉन अनुनाद हीटिंग शक्ति

पुरस्कार फ़ंक्शन डिज़ाइन

चार-पद रैखिक संयोजन का उपयोग करता है:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

क्रमशः संलयन लाभ Q, न्यूनतम सुरक्षा कारक, सीमा सुरक्षा कारक और H मोड बाधा गुणवत्ता कारक के अनुरूप।

तुलनात्मक रणनीतियाँ

ओपन-लूप रणनीति π_OL: TORAX पूर्वनिर्धारित कार्य प्रक्षेपवक्र का उपयोग करना
यादृच्छिक रणनीति π_R: कार्य स्पेस के भीतर समान रूप से यादृच्छिक चयन
PI नियंत्रण रणनीति π_PI: कुल विद्युत धारा को नियंत्रित करने के लिए आनुपातिक-अभिन्न नियंत्रक का उपयोग, अन्य चर पूर्वनिर्धारित प्रक्षेपवक्र का पालन करते हैं

कार्यान्वयन विवरण

PI पैरामीटर अनुकूलन: आनुपातिक लाभ kp और अभिन्न लाभ ki को अनुकूलित करने के लिए ग्रिड खोज
खोज स्पेस: kp ∈ -10, 0, ki ∈ 0, 40
ग्रिड घनत्व: 20×60 = 1200 पैरामीटर संयोजन
उद्देश्य फ़ंक्शन: अपेक्षित रिटर्न J(π) को अधिकतम करें

प्रायोगिक परिणाम

मुख्य परिणाम

रणनीति	अपेक्षित रिटर्न
π_OL (ओपन-लूप)	3.40
π_R (यादृच्छिक)	-10.79
π_PI (PI नियंत्रण)	3.79

मुख्य निष्कर्ष

PI नियंत्रक लाभ: अनुकूलित PI नियंत्रण रणनीति (kp*=0.700, ki*=34.257) ओपन-लूप रणनीति की तुलना में 11.5% सुधार दिखाती है
विद्युत धारा नियंत्रण रणनीति: PI रणनीति कुल विद्युत धारा को 15MA ऊपरी सीमा तक बढ़ाने की प्रवृत्ति दिखाती है, जो उच्च विद्युत धारा बाधा प्रदर्शन में सुधार के भौतिक सिद्धांत के अनुरूप है
पैरामीटर संवेदनशीलता: अपेक्षित रिटर्न पैरामीटर स्पेस में जटिल अरैखिक वितरण प्रदर्शित करता है, सावधानीपूर्वक अनुकूलन की आवश्यकता है

नियंत्रण प्रक्षेपवक्र विश्लेषण

यादृच्छिक रणनीति: अनियमित कंपन प्रदर्शित करता है, प्रतिबंधित बाधा आंशिक रूप से कम होती है
PI रणनीति: अधिकतम अनुमत मान तक स्थिर वृद्धि, भौतिकी-संचालित नियंत्रण तर्क को प्रदर्शित करता है
लक्ष्य ट्रैकिंग: PI नियंत्रक प्रक्षेपवक्र ट्रैकिंग के बजाय अपेक्षित रिटर्न के लिए अनुकूलित है, RL ढांचे की लचीलापन प्रदर्शित करता है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

Gym-TORAX RL और प्लाज्मा सिमुलेशन के मानकीकृत एकीकरण समाधान को सफलतापूर्वक प्रदान करता है
PI नियंत्रक बेंचमार्क ढांचे की प्रभावशीलता और संभावित सुधार स्पेस को प्रदर्शित करता है
मॉड्यूलर डिज़ाइन नई नियंत्रण परिदृश्य के लिए तेजी से विस्तार का समर्थन करता है

सीमाएं

भौतिकी मॉडल सीमाएं: TORAX के अक्षीय-सममितीय धारणा के आधार पर, जटिल त्रि-आयामी प्रभावों के मॉडलिंग को सीमित करता है
सिमुलेशन सटीकता: प्रारंभिक अनुसंधान के लिए उपयुक्त, उच्च सटीकता अनुप्रयोगों के लिए अधिक जटिल भौतिकी मॉडल की आवश्यकता है
परिदृश्य कवरेज: वर्तमान में मुख्य रूप से ITER परिदृश्य का समर्थन करता है, अधिक रिएक्टर कॉन्फ़िगरेशन तक विस्तार की आवश्यकता है

भविष्य की दिशाएं

ज्यामितीय पैरामीटरकरण: प्लाज्मा और टोकामक ज्यामिति के सीधे पैरामीटरकरण का समर्थन करें
भौतिकी घटना हैंडलिंग: L-H संक्रमण जैसी मुख्य भौतिकी घटनाओं के लिए विशेष हैंडलिंग उपकरण जोड़ें
TORAX कार्यक्षमता विस्तार: TORAX सिमुलेटर कार्यक्षमता वृद्धि के साथ क्षमता का विस्तार करें

गहन मूल्यांकन

लाभ

अंतराल भरना: RL-प्लाज्मा नियंत्रण एकीकरण का पहला ओपन-सोर्स ढांचा, महत्वपूर्ण उपकरण अंतराल को भरता है
सुरुचिपूर्ण डिज़ाइन: दोहरी-स्तरीय समय विवेकीकरण और मॉड्यूलर डिज़ाइन अच्छी सॉफ्टवेयर इंजीनियरिंग प्रथाओं को प्रदर्शित करता है
व्यावहारिक मूल्य: RL शोधकर्ताओं के लिए प्लाज्मा नियंत्रण क्षेत्र में प्रवेश बाधा को कम करता है
बेंचमार्क पूर्ण: पूर्ण ITER परिदृश्य कार्यान्वयन और कई बेंचमार्क रणनीति तुलना प्रदान करता है
ओपन-सोर्स योगदान: MIT लाइसेंस और पूर्ण दस्तावेज सामुदायिक विकास का समर्थन करते हैं

कमियाँ

प्रायोगिक गहराई सीमित: केवल सरल PI नियंत्रक प्रदर्शित करता है, आधुनिक RL एल्गोरिदम के गहन मूल्यांकन की कमी है
भौतिकी सत्यापन अपर्याप्त: वास्तविक प्लाज्मा प्रयोग डेटा के साथ तुलना नहीं की गई है
स्केलेबिलिटी अपर्याप्त रूप से प्रदर्शित: हालांकि डिज़ाइन विस्तार का समर्थन करता है, नई वातावरण बनाने की पूर्ण प्रक्रिया प्रदर्शित नहीं की गई है
प्रदर्शन विश्लेषण अनुपस्थित: कम्प्यूटेशनल प्रदर्शन और स्केलेबिलिटी का मात्रात्मक विश्लेषण प्रदान नहीं करता है

प्रभाव

शैक्षणिक मूल्य: प्लाज्मा नियंत्रण में RL के अनुप्रयोग के लिए मानकीकृत मंच प्रदान करता है
इंजीनियरिंग मूल्य: अंतःविषय सहयोग को बढ़ावा देता है, संलयन नियंत्रण तकनीक विकास को तेजी देता है
शिक्षा मूल्य: सीखने की बाधा को कम करता है, अंतःविषय प्रतिभा पालन में सहायता करता है
पुनरुत्पादनशीलता: ओपन-सोर्स डिज़ाइन और विस्तृत दस्तावेज अनुसंधान पुनरुत्पादनशीलता का समर्थन करते हैं

लागू परिदृश्य

RL एल्गोरिदम अनुसंधान: प्लाज्मा नियंत्रण में विभिन्न RL एल्गोरिदम के प्रदर्शन का परीक्षण और तुलना करना
नियंत्रण रणनीति विकास: नई प्लाज्मा नियंत्रण रणनीति का तेजी से प्रोटोटाइप और मूल्यांकन करना
शिक्षा प्रशिक्षण: RL के भौतिक प्रणालियों में अनुप्रयोग को समझने में सहायता के लिए शिक्षण उपकरण के रूप में
प्रारंभिक अनुसंधान: महंगे वास्तविक प्रयोगों में निवेश से पहले एल्गोरिदम सत्यापन के लिए

संदर्भ

यह पेपर प्लाज्मा भौतिकी, सुदृढ़ शिक्षा और सिमुलेशन तकनीक सहित कई क्षेत्रों के महत्वपूर्ण कार्यों का उद्धरण देता है, विशेष रूप से:

TORAX सिमुलेटर की मूल तकनीकी दस्तावेज
Nature जैसी शीर्ष पत्रिकाओं में प्रकाशित RL प्लाज्मा नियंत्रण में हाल के सफलता कार्य
Gymnasium जैसी मानक RL वातावरण ढांचे की तकनीकी विशिष्टताएं

समग्र मूल्यांकन: Gym-TORAX एक महत्वपूर्ण व्यावहारिक मूल्य का ओपन-सोर्स सॉफ्टवेयर योगदान है, हालांकि तकनीकी नवाचार में अपेक्षाकृत रूढ़िवादी है, लेकिन अंतःविषय सहयोग और मानकीकृत उपकरणों को बढ़ावा देने में महत्वपूर्ण मूल्य है। यह कार्य प्लाज्मा नियंत्रण क्षेत्र में RL के अनुप्रयोग के लिए महत्वपूर्ण बुनियादी ढांचा प्रदान करता है, इस अंतःविषय क्षेत्र के तेजी से विकास को बढ़ावा देने की संभावना है।

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Gym-TORAX: RL को प्लाज्मा नियंत्रण सिमुलेटर के साथ एकीकृत करने के लिए ओपन-सोर्स सॉफ्टवेयर

मूल जानकारी

सारांश

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

अनुसंधान प्रेरणा

मुख्य योगदान

विधि विवरण

कार्य परिभाषा

सिस्टम आर्किटेक्चर

दोहरी-स्तरीय समय विवेकीकरण

मुख्य घटक

वातावरण निर्माण प्रवाह

तकनीकी नवाचार बिंदु

प्रायोगिक सेटअप

सिमुलेशन वातावरण: ITER मिश्रित अपशक्ति परिदृश्य

पुरस्कार फ़ंक्शन डिज़ाइन

तुलनात्मक रणनीतियाँ

कार्यान्वयन विवरण

प्रायोगिक परिणाम

मुख्य परिणाम

मुख्य निष्कर्ष

नियंत्रण प्रक्षेपवक्र विश्लेषण

संबंधित कार्य

प्लाज्मा नियंत्रण में RL अनुप्रयोग

इस पेपर के लाभ

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमाएं

भविष्य की दिशाएं

गहन मूल्यांकन

लाभ

कमियाँ

प्रभाव

लागू परिदृश्य

संदर्भ