Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX: RL को प्लाज्मा नियंत्रण सिमुलेटर के साथ एकीकृत करने के लिए ओपन-सोर्स सॉफ्टवेयर
यह पेपर Gym-TORAX प्रस्तुत करता है, एक Python सॉफ्टवेयर पैकेज जो टोकामक प्लाज्मा गतिशीलता सिमुलेशन और नियंत्रण के लिए सुदृढ़ शिक्षा (RL) वातावरण को लागू करता है। उपयोगकर्ता सरलता से नियंत्रण कार्यों और अवलोकनों का एक समूह, साथ ही नियंत्रण उद्देश्यों को परिभाषित कर सकते हैं, और Gym-TORAX TORAX को लपेटने वाला एक Gymnasium वातावरण बनाता है जो प्लाज्मा गतिशीलता का सिमुलेशन करता है। उद्देश्यों को पुरस्कार के माध्यम से तैयार किया जाता है जो प्लाज्मा सिमुलेशन स्थिति और नियंत्रण कार्यों पर निर्भर करते हैं, प्लाज्मा की विशिष्ट विशेषताओं जैसे प्रदर्शन और स्थिरता को अनुकूलित करने के लिए। उत्पन्न वातावरण उदाहरण व्यापक RL एल्गोरिदम और पुस्तकालयों के साथ संगत हैं, जो प्लाज्मा नियंत्रण में RL अनुसंधान को बढ़ावा देंगे। वर्तमान संस्करण में, अंतर्राष्ट्रीय थर्मोन्यूक्लियर प्रायोगिक रिएक्टर (ITER) के आधार पर अपशक्ति शक्ति परिदृश्य के आधार पर, एक वातावरण उपलब्ध है।
नाभिकीय संलयन ऊर्जा चुनौतियाँ: नाभिकीय संलयन रिएक्टर की स्थिरता और प्रदर्शन अनुकूलन संलयन ऊर्जा अनुसंधान की मूल समस्या है, टोकामक कॉन्फ़िगरेशन मुख्य अनुसंधान दिशा के रूप में उच्च-आयामी और दृढ़ता से अरैखिक नियंत्रण चुनौतियों का सामना करता है।
मौजूदा सिमुलेशन उपकरणों की सीमाएं:
कई प्लाज्मा सिमुलेटर (जैसे RAPTOR, JOREK) ओपन-सोर्स नहीं हैं और प्रतिबंधात्मक लाइसेंस की आवश्यकता है
मौजूदा उपकरण मुख्य रूप से प्लाज्मा भौतिकविदों के लिए डिज़ाइन किए गए हैं, RL शोधकर्ताओं के लिए प्रवेश बाधा अधिक है
नियंत्रण अनुप्रयोगों के लिए डिज़ाइन किए गए इंटरफेस की कमी है
अंतःविषय सहयोग की आवश्यकता: RL का प्लाज्मा नियंत्रण में अनुप्रयोग RL शोधकर्ताओं के लिए प्रवेश बाधा को कम करने और दोनों क्षेत्रों के सहयोग को बढ़ावा देने की आवश्यकता है।
ओपन-लूप रणनीति π_OL: TORAX पूर्वनिर्धारित कार्य प्रक्षेपवक्र का उपयोग करना
यादृच्छिक रणनीति π_R: कार्य स्पेस के भीतर समान रूप से यादृच्छिक चयन
PI नियंत्रण रणनीति π_PI: कुल विद्युत धारा को नियंत्रित करने के लिए आनुपातिक-अभिन्न नियंत्रक का उपयोग, अन्य चर पूर्वनिर्धारित प्रक्षेपवक्र का पालन करते हैं
PI नियंत्रक लाभ: अनुकूलित PI नियंत्रण रणनीति (kp*=0.700, ki*=34.257) ओपन-लूप रणनीति की तुलना में 11.5% सुधार दिखाती है
विद्युत धारा नियंत्रण रणनीति: PI रणनीति कुल विद्युत धारा को 15MA ऊपरी सीमा तक बढ़ाने की प्रवृत्ति दिखाती है, जो उच्च विद्युत धारा बाधा प्रदर्शन में सुधार के भौतिक सिद्धांत के अनुरूप है
पैरामीटर संवेदनशीलता: अपेक्षित रिटर्न पैरामीटर स्पेस में जटिल अरैखिक वितरण प्रदर्शित करता है, सावधानीपूर्वक अनुकूलन की आवश्यकता है
यह पेपर प्लाज्मा भौतिकी, सुदृढ़ शिक्षा और सिमुलेशन तकनीक सहित कई क्षेत्रों के महत्वपूर्ण कार्यों का उद्धरण देता है, विशेष रूप से:
TORAX सिमुलेटर की मूल तकनीकी दस्तावेज
Nature जैसी शीर्ष पत्रिकाओं में प्रकाशित RL प्लाज्मा नियंत्रण में हाल के सफलता कार्य
Gymnasium जैसी मानक RL वातावरण ढांचे की तकनीकी विशिष्टताएं
समग्र मूल्यांकन: Gym-TORAX एक महत्वपूर्ण व्यावहारिक मूल्य का ओपन-सोर्स सॉफ्टवेयर योगदान है, हालांकि तकनीकी नवाचार में अपेक्षाकृत रूढ़िवादी है, लेकिन अंतःविषय सहयोग और मानकीकृत उपकरणों को बढ़ावा देने में महत्वपूर्ण मूल्य है। यह कार्य प्लाज्मा नियंत्रण क्षेत्र में RL के अनुप्रयोग के लिए महत्वपूर्ण बुनियादी ढांचा प्रदान करता है, इस अंतःविषय क्षेत्र के तेजी से विकास को बढ़ावा देने की संभावना है।