Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX: RL এবং প্লাজমা নিয়ন্ত্রণ সিমুলেটরদের একীকরণের জন্য ওপেন-সোর্স সফটওয়্যার
এই পেপারটি Gym-TORAX উপস্থাপন করে, একটি Python প্যাকেজ যা টোকামাক প্লাজমা গতিশীলতা সিমুলেশন এবং নিয়ন্ত্রণের জন্য শক্তিশালী শেখার (RL) পরিবেশ বাস্তবায়ন করতে পারে। ব্যবহারকারীরা সহজেই নিয়ন্ত্রণ ক্রিয়া এবং পর্যবেক্ষণের একটি সেট, সেইসাথে নিয়ন্ত্রণ উদ্দেশ্যগুলি সংজ্ঞায়িত করতে পারেন, এবং Gym-TORAX প্লাজমা গতিশীলতা সিমুলেট করার জন্য TORAX মোড়ানো একটি Gymnasium পরিবেশ তৈরি করে। লক্ষ্যগুলি প্লাজমা সিমুলেশন অবস্থা এবং নিয়ন্ত্রণ ক্রিয়াগুলির উপর নির্ভরশীল পুরস্কারের মাধ্যমে প্রণয়ন করা হয়, প্লাজমার নির্দিষ্ট বৈশিষ্ট্যগুলি অপ্টিমাইজ করার জন্য যেমন কর্মক্ষমতা এবং স্থিতিশীলতা। উৎপাদিত পরিবেশ উদাহরণগুলি বিস্তৃত RL অ্যালগরিদম এবং লাইব্রেরির সাথে সামঞ্জস্যপূর্ণ, যা প্লাজমা নিয়ন্ত্রণে RL গবেষণা সহজতর করবে। বর্তমান সংস্করণে, আন্তর্জাতিক থার্মোনিউক্লিয়ার পরীক্ষামূলক রিঅ্যাক্টর (ITER) এর উপর ভিত্তি করে একটি আপগ্রেড পাওয়ার পরিস্থিতি, একটি পরিবেশ ব্যবহারের জন্য উপলব্ধ।
পারমাণবিক সংমিশ্রণ শক্তির চ্যালেঞ্জ: পারমাণবিক সংমিশ্রণ রিঅ্যাক্টরের স্থিতিশীলতা এবং কর্মক্ষমতা অপ্টিমাইজেশন সংমিশ্রণ শক্তি গবেষণার মূল সমস্যা, টোকামাক কনফিগারেশন প্রধান গবেষণা দিক হিসাবে উচ্চ-মাত্রিক এবং শক্তিশালী অরৈখিক নিয়ন্ত্রণ চ্যালেঞ্জের সম্মুখীন।
বিদ্যমান সিমুলেশন সরঞ্জামের সীমাবদ্ধতা:
অনেক প্লাজমা সিমুলেটর (যেমন RAPTOR, JOREK) ওপেন-সোর্স নয় এবং সীমাবদ্ধ লাইসেন্সের প্রয়োজন
বিদ্যমান সরঞ্জামগুলি প্রধানত প্লাজমা পদার্থবিজ্ঞানীদের জন্য ডিজাইন করা হয়েছে, RL গবেষকদের জন্য প্রবেশের বাধা বেশি
নিয়ন্ত্রণ প্রয়োগের জন্য ডিজাইন করা ইন্টারফেসের অভাব
আন্তঃশৃঙ্খলাবদ্ধ সহযোগিতার প্রয়োজন: প্লাজমা নিয়ন্ত্রণে RL এর প্রয়োগের জন্য RL গবেষকদের প্রবেশের বাধা হ্রাস করা এবং দুটি ক্ষেত্রের সহযোগিতা প্রচার করা প্রয়োজন।
ওপেন-সোর্স সফটওয়্যার ফ্রেমওয়ার্ক: Gym-TORAX Python প্যাকেজ বিকাশ করা হয়েছে, প্লাজমা নিয়ন্ত্রণ গবেষণার জন্য মানসম্মত RL পরিবেশ ইন্টারফেস প্রদান করে
TORAX একীকরণ: TORAX সিমুলেটরের Gymnasium র্যাপার তৈরি করা, বন্ধ-লুপ নিয়ন্ত্রণ পরিবেশ বাস্তবায়ন করা
মডুলার ডিজাইন: নমনীয় পরিবেশ সৃষ্টির প্রক্রিয়া প্রদান করা, ব্যবহারকারীরা BaseEnv ক্লাস উত্তরাধিকার করে কাস্টম নিয়ন্ত্রণ পরিস্থিতি সংজ্ঞায়িত করতে পারেন
ITER বেঞ্চমার্ক পরিবেশ: ITER হাইব্রিড আপগ্রেড পাওয়ার পরিস্থিতির উপর ভিত্তি করে একটি সম্পূর্ণ পরিবেশ বাস্তবায়ন করা, বেঞ্চমার্ক নিয়ন্ত্রণ কৌশল সহ
আন্তঃশৃঙ্খলাবদ্ধ সেতু: RL গবেষকদের প্লাজমা নিয়ন্ত্রণ ক্ষেত্রে প্রবেশের প্রযুক্তিগত বাধা হ্রাস করা
ব্যবহারকারীদের চারটি বিমূর্ত পদ্ধতি বাস্তবায়ন করতে হবে:
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# TORAX কনফিগারেশন ফাইল এবং সিমুলেশন পরামিতি সংজ্ঞায়িত করুন
pass
def _define_action_space(self):
# এজেন্ট নিয়ন্ত্রণ করে এমন TORAX ভেরিয়েবলের সাবসেট নির্দিষ্ট করুন
pass
def _define_observation_space(self):
# পর্যবেক্ষণে অন্তর্ভুক্ত ভেরিয়েবল নির্বাচন করুন
pass
def _compute_reward(self):
# কাজ-সম্পর্কিত পুরস্কার ফাংশন সংজ্ঞায়িত করুন
pass
পদার্থবিজ্ঞান সিমুলেশন এবং RL এর নিরবচ্ছিন্ন একীকরণ: মানসম্মত Gymnasium ইন্টারফেসের মাধ্যমে জটিল প্লাজমা পদার্থবিজ্ঞান সিমুলেশন এনক্যাপসুলেট করা
নমনীয় সময় স্কেল পরিচালনা: দ্বৈত-স্তরের বিচ্ছিন্নকরণ প্রক্রিয়া RL সিদ্ধান্ত ফ্রিকোয়েন্সি এবং পদার্থবিজ্ঞান সিমুলেশন সময় পদক্ষেপের পার্থক্য পরিচালনা করে
মডুলার ডিজাইন: বিমূর্ত শ্রেণী ডিজাইন নতুন নিয়ন্ত্রণ পরিস্থিতির দ্রুত সৃষ্টি সমর্থন করে
শক্তিশালীতা প্রক্রিয়া: স্বয়ংক্রিয়ভাবে সিমুলেশন ত্রুটি এবং অসম্ভব অবস্থা পরিচালনা করে, উপযুক্ত সমাপ্তি শর্ত এবং শাস্তি প্রদান করে
ওপেন-লুপ কৌশল π_OL: TORAX প্রাক-নির্ধারিত ক্রিয়া ট্র্যাজেক্টরি ব্যবহার করে
র্যান্ডম কৌশল π_R: ক্রিয়া স্থানের মধ্যে সমানভাবে র্যান্ডমভাবে নির্বাচন করে
PI নিয়ন্ত্রণ কৌশল π_PI: মোট বর্তমান নিয়ন্ত্রণ করতে অনুপাত-অবিচ্ছেদ্য নিয়ন্ত্রক ব্যবহার করে, অন্যান্য ভেরিয়েবল প্রাক-নির্ধারিত ট্র্যাজেক্টরি অনুসরণ করে
PI নিয়ন্ত্রকের সুবিধা: অপ্টিমাইজড PI নিয়ন্ত্রণ কৌশল (kp*=0.700, ki*=34.257) ওপেন-লুপ কৌশলের তুলনায় ১১.৫% উন্নতি
বর্তমান নিয়ন্ত্রণ কৌশল: PI কৌশল মোট বর্তমানকে ১৫MA উপরের সীমায় উন্নীত করার প্রবণতা দেখায়, উচ্চ বর্তমান সীমাবদ্ধতা কর্মক্ষমতা উন্নত করার পদার্থবিজ্ঞান নীতির সাথে সামঞ্জস্যপূর্ণ
পরামিতি সংবেদনশীলতা: প্রত্যাশিত রিটার্ন পরামিতি স্থানে জটিল অরৈখিক বিতরণ উপস্থাপন করে, সাবধানে অপ্টিমাইজেশন প্রয়োজন
এই পেপারটি প্লাজমা পদার্থবিজ্ঞান, শক্তিশালী শেখা এবং সিমুলেশন প্রযুক্তি সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, বিশেষত:
TORAX সিমুলেটরের মূল প্রযুক্তি ডকুমেন্টেশন
Nature এর মতো শীর্ষ-স্তরের জার্নালে প্রকাশিত RL প্লাজমা নিয়ন্ত্রণ যুগান্তকারী কাজ
Gymnasium এর মতো মানসম্মত RL পরিবেশ ফ্রেমওয়ার্কের প্রযুক্তি বিশেষ
সামগ্রিক মূল্যায়ন: Gym-TORAX একটি গুরুত্বপূর্ণ ব্যবহারিক মূল্যের ওপেন-সোর্স সফটওয়্যার অবদান, যদিও প্রযুক্তিগত উদ্ভাবনে তুলনামূলকভাবে রক্ষণশীল, আন্তঃশৃঙ্খলাবদ্ধ সহযোগিতা প্রচার এবং সরঞ্জাম মানসম্মতকরণে উল্লেখযোগ্য মূল্য রয়েছে। এই কাজটি প্লাজমা নিয়ন্ত্রণ ক্ষেত্রে RL প্রয়োগের জন্য গুরুত্বপূর্ণ অবকাঠামো প্রদান করে, এই আন্তঃক্ষেত্রীয় ক্ষেত্রের দ্রুত উন্নয়ন চালিত করার সম্ভাবনা রাখে।