2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.

This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).

academic

Gym-TORAX: RL এবং প্লাজমা নিয়ন্ত্রণ সিমুলেটরদের একীকরণের জন্য ওপেন-সোর্স সফটওয়্যার

মৌলিক তথ্য

পেপার আইডি: 2510.11283
শিরোনাম: Gym-TORAX: RL এবং প্লাজমা নিয়ন্ত্রণ সিমুলেটরদের একীকরণের জন্য ওপেন-সোর্স সফটওয়্যার
লেখক: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (Montefiore Institute, University of Liège, বেলজিয়াম)
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং)
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর
পেপার লিঙ্ক: https://arxiv.org/abs/2510.11283v1

সারসংক্ষেপ

এই পেপারটি Gym-TORAX উপস্থাপন করে, একটি Python প্যাকেজ যা টোকামাক প্লাজমা গতিশীলতা সিমুলেশন এবং নিয়ন্ত্রণের জন্য শক্তিশালী শেখার (RL) পরিবেশ বাস্তবায়ন করতে পারে। ব্যবহারকারীরা সহজেই নিয়ন্ত্রণ ক্রিয়া এবং পর্যবেক্ষণের একটি সেট, সেইসাথে নিয়ন্ত্রণ উদ্দেশ্যগুলি সংজ্ঞায়িত করতে পারেন, এবং Gym-TORAX প্লাজমা গতিশীলতা সিমুলেট করার জন্য TORAX মোড়ানো একটি Gymnasium পরিবেশ তৈরি করে। লক্ষ্যগুলি প্লাজমা সিমুলেশন অবস্থা এবং নিয়ন্ত্রণ ক্রিয়াগুলির উপর নির্ভরশীল পুরস্কারের মাধ্যমে প্রণয়ন করা হয়, প্লাজমার নির্দিষ্ট বৈশিষ্ট্যগুলি অপ্টিমাইজ করার জন্য যেমন কর্মক্ষমতা এবং স্থিতিশীলতা। উৎপাদিত পরিবেশ উদাহরণগুলি বিস্তৃত RL অ্যালগরিদম এবং লাইব্রেরির সাথে সামঞ্জস্যপূর্ণ, যা প্লাজমা নিয়ন্ত্রণে RL গবেষণা সহজতর করবে। বর্তমান সংস্করণে, আন্তর্জাতিক থার্মোনিউক্লিয়ার পরীক্ষামূলক রিঅ্যাক্টর (ITER) এর উপর ভিত্তি করে একটি আপগ্রেড পাওয়ার পরিস্থিতি, একটি পরিবেশ ব্যবহারের জন্য উপলব্ধ।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার পটভূমি

পারমাণবিক সংমিশ্রণ শক্তির চ্যালেঞ্জ: পারমাণবিক সংমিশ্রণ রিঅ্যাক্টরের স্থিতিশীলতা এবং কর্মক্ষমতা অপ্টিমাইজেশন সংমিশ্রণ শক্তি গবেষণার মূল সমস্যা, টোকামাক কনফিগারেশন প্রধান গবেষণা দিক হিসাবে উচ্চ-মাত্রিক এবং শক্তিশালী অরৈখিক নিয়ন্ত্রণ চ্যালেঞ্জের সম্মুখীন।
বিদ্যমান সিমুলেশন সরঞ্জামের সীমাবদ্ধতা:
- অনেক প্লাজমা সিমুলেটর (যেমন RAPTOR, JOREK) ওপেন-সোর্স নয় এবং সীমাবদ্ধ লাইসেন্সের প্রয়োজন
- বিদ্যমান সরঞ্জামগুলি প্রধানত প্লাজমা পদার্থবিজ্ঞানীদের জন্য ডিজাইন করা হয়েছে, RL গবেষকদের জন্য প্রবেশের বাধা বেশি
- নিয়ন্ত্রণ প্রয়োগের জন্য ডিজাইন করা ইন্টারফেসের অভাব
আন্তঃশৃঙ্খলাবদ্ধ সহযোগিতার প্রয়োজন: প্লাজমা নিয়ন্ত্রণে RL এর প্রয়োগের জন্য RL গবেষকদের প্রবেশের বাধা হ্রাস করা এবং দুটি ক্ষেত্রের সহযোগিতা প্রচার করা প্রয়োজন।

গবেষণা প্রেরণা

ওপেন-সোর্স, হালকা-ওজনের, RL-সামঞ্জস্যপূর্ণ প্লাজমা নিয়ন্ত্রণ সিমুলেশন ফ্রেমওয়ার্ক প্রদান করা
ক্লাসিক Gymnasium API এর মাধ্যমে প্লাজমা পদার্থবিজ্ঞানকে এনক্যাপসুলেট করে, RL গবেষকদের নিয়ন্ত্রণ কৌশল অপ্টিমাইজেশনে মনোনিবেশ করতে দেওয়া
নতুন প্লাজমা নিয়ন্ত্রণ কৌশল গবেষণা এবং অ্যালগরিদম আবিষ্কার সমর্থন করা

মূল অবদান

ওপেন-সোর্স সফটওয়্যার ফ্রেমওয়ার্ক: Gym-TORAX Python প্যাকেজ বিকাশ করা হয়েছে, প্লাজমা নিয়ন্ত্রণ গবেষণার জন্য মানসম্মত RL পরিবেশ ইন্টারফেস প্রদান করে
TORAX একীকরণ: TORAX সিমুলেটরের Gymnasium র্যাপার তৈরি করা, বন্ধ-লুপ নিয়ন্ত্রণ পরিবেশ বাস্তবায়ন করা
মডুলার ডিজাইন: নমনীয় পরিবেশ সৃষ্টির প্রক্রিয়া প্রদান করা, ব্যবহারকারীরা BaseEnv ক্লাস উত্তরাধিকার করে কাস্টম নিয়ন্ত্রণ পরিস্থিতি সংজ্ঞায়িত করতে পারেন
ITER বেঞ্চমার্ক পরিবেশ: ITER হাইব্রিড আপগ্রেড পাওয়ার পরিস্থিতির উপর ভিত্তি করে একটি সম্পূর্ণ পরিবেশ বাস্তবায়ন করা, বেঞ্চমার্ক নিয়ন্ত্রণ কৌশল সহ
আন্তঃশৃঙ্খলাবদ্ধ সেতু: RL গবেষকদের প্লাজমা নিয়ন্ত্রণ ক্ষেত্রে প্রবেশের প্রযুক্তিগত বাধা হ্রাস করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

প্লাজমা নিয়ন্ত্রণ সমস্যাকে সীমিত সময়ের নির্ধারণীয় মার্কভ সিদ্ধান্ত প্রক্রিয়া (MDP) হিসাবে মডেল করা:

অবস্থা স্থান 𝒮: প্লাজমা অবস্থা (তাপমাত্রা, ঘনত্ব, চৌম্বক প্রবাহ ইত্যাদি)
ক্রিয়া স্থান 𝒜: নিয়ন্ত্রণ ভেরিয়েবল (মোট বর্তমান, লুপ ভোল্টেজ, শক্তি উৎস ইত্যাদি)
রূপান্তর ফাংশন f: 𝒮 × 𝒜 → 𝒮 (TORAX সিমুলেশনের মাধ্যমে বাস্তবায়িত)
পুরস্কার ফাংশন r: 𝒮 × 𝒜 → ℝ (ব্যবহারকারী-সংজ্ঞায়িত কাজ-সম্পর্কিত উদ্দেশ্য)

সিস্টেম আর্কিটেকচার

দ্বৈত-স্তরের সময় বিচ্ছিন্নকরণ

RL ইন্টারঅ্যাকশন স্তর: এজেন্ট-পরিবেশ ইন্টারঅ্যাকশনের সময় পদক্ষেপ
পদার্থবিজ্ঞান সিমুলেশন স্তর: TORAX আংশিক ডিফারেনশিয়াল সমীকরণ সমাধানের সময় পদক্ষেপ (ঐচ্ছিক auto বা fixed মোড)

মূল উপাদান

BaseEnv ক্লাস: বিমূর্ত ভিত্তি শ্রেণী, পরিবেশ সৃষ্টির মানসম্মত ইন্টারফেস সংজ্ঞায়িত করে
Action ক্লাস: কনফিগারযোগ্য ক্রিয়া সংজ্ঞা বিমূর্ত শ্রেণী
Observation ক্লাস: পর্যবেক্ষণ সামগ্রী সংজ্ঞা শ্রেণী
পুরস্কার সহায়ক ফাংশন: বিশেষায়িত পুরস্কার ফাংশন ডিজাইন সরঞ্জাম

পরিবেশ সৃষ্টির প্রক্রিয়া

ব্যবহারকারীদের চারটি বিমূর্ত পদ্ধতি বাস্তবায়ন করতে হবে:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # TORAX কনফিগারেশন ফাইল এবং সিমুলেশন পরামিতি সংজ্ঞায়িত করুন
        pass
    
    def _define_action_space(self):
        # এজেন্ট নিয়ন্ত্রণ করে এমন TORAX ভেরিয়েবলের সাবসেট নির্দিষ্ট করুন
        pass
    
    def _define_observation_space(self):
        # পর্যবেক্ষণে অন্তর্ভুক্ত ভেরিয়েবল নির্বাচন করুন
        pass
    
    def _compute_reward(self):
        # কাজ-সম্পর্কিত পুরস্কার ফাংশন সংজ্ঞায়িত করুন
        pass

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

পদার্থবিজ্ঞান সিমুলেশন এবং RL এর নিরবচ্ছিন্ন একীকরণ: মানসম্মত Gymnasium ইন্টারফেসের মাধ্যমে জটিল প্লাজমা পদার্থবিজ্ঞান সিমুলেশন এনক্যাপসুলেট করা
নমনীয় সময় স্কেল পরিচালনা: দ্বৈত-স্তরের বিচ্ছিন্নকরণ প্রক্রিয়া RL সিদ্ধান্ত ফ্রিকোয়েন্সি এবং পদার্থবিজ্ঞান সিমুলেশন সময় পদক্ষেপের পার্থক্য পরিচালনা করে
মডুলার ডিজাইন: বিমূর্ত শ্রেণী ডিজাইন নতুন নিয়ন্ত্রণ পরিস্থিতির দ্রুত সৃষ্টি সমর্থন করে
শক্তিশালীতা প্রক্রিয়া: স্বয়ংক্রিয়ভাবে সিমুলেশন ত্রুটি এবং অসম্ভব অবস্থা পরিচালনা করে, উপযুক্ত সমাপ্তি শর্ত এবং শাস্তি প্রদান করে

পরীক্ষামূলক সেটআপ

সিমুলেশন পরিবেশ: ITER হাইব্রিড আপগ্রেড পাওয়ার পরিস্থিতি

পদার্থবিজ্ঞান পটভূমি: ITER রিঅ্যাক্টরের হাইব্রিড অপারেটিং মোডের উপর ভিত্তি করে
সময় বিস্তৃতি: ১০০ সেকেন্ড আপগ্রেড পাওয়ার পর্যায় (L মোড) + ৫০ সেকেন্ড স্থিতিশীল অবস্থা পর্যায় (H মোড)
নিয়ন্ত্রণ ভেরিয়েবল:
- IpAction: মোট বর্তমান নিয়ন্ত্রণ
- NbiAction: নিরপেক্ষ বিম ইনজেকশন শক্তি
- EcrhAction: ইলেকট্রন সাইক্লোট্রন রেজোন্যান্স হিটিং শক্তি

পুরস্কার ফাংশন ডিজাইন

চারটি পদের রৈখিক সমন্বয় গ্রহণ করা:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

যথাক্রমে সংমিশ্রণ লাভ Q, ন্যূনতম নিরাপত্তা ফ্যাক্টর, সীমানা নিরাপত্তা ফ্যাক্টর এবং H মোড সীমাবদ্ধতা মানের ফ্যাক্টরের সাথে সামঞ্জস্যপূর্ণ।

তুলনামূলক কৌশল

ওপেন-লুপ কৌশল π_OL: TORAX প্রাক-নির্ধারিত ক্রিয়া ট্র্যাজেক্টরি ব্যবহার করে
র্যান্ডম কৌশল π_R: ক্রিয়া স্থানের মধ্যে সমানভাবে র্যান্ডমভাবে নির্বাচন করে
PI নিয়ন্ত্রণ কৌশল π_PI: মোট বর্তমান নিয়ন্ত্রণ করতে অনুপাত-অবিচ্ছেদ্য নিয়ন্ত্রক ব্যবহার করে, অন্যান্য ভেরিয়েবল প্রাক-নির্ধারিত ট্র্যাজেক্টরি অনুসরণ করে

বাস্তবায়ন বিবরণ

PI পরামিতি অপ্টিমাইজেশন: অনুপাত লাভ kp এবং অবিচ্ছেদ্য লাভ ki অপ্টিমাইজ করতে গ্রিড অনুসন্ধান
অনুসন্ধান স্থান: kp ∈ -10, 0, ki ∈ 0, 40
গ্রিড ঘনত্ব: 20×60 = ১২০০ পরামিতি সমন্বয়
উদ্দেশ্য ফাংশন: প্রত্যাশিত রিটার্ন J(π) সর্বাধিক করা

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

কৌশল	প্রত্যাশিত রিটার্ন
π_OL (ওপেন-লুপ)	3.40
π_R (র্যান্ডম)	-10.79
π_PI (PI নিয়ন্ত্রণ)	3.79

মূল আবিষ্কার

PI নিয়ন্ত্রকের সুবিধা: অপ্টিমাইজড PI নিয়ন্ত্রণ কৌশল (kp*=0.700, ki*=34.257) ওপেন-লুপ কৌশলের তুলনায় ১১.৫% উন্নতি
বর্তমান নিয়ন্ত্রণ কৌশল: PI কৌশল মোট বর্তমানকে ১৫MA উপরের সীমায় উন্নীত করার প্রবণতা দেখায়, উচ্চ বর্তমান সীমাবদ্ধতা কর্মক্ষমতা উন্নত করার পদার্থবিজ্ঞান নীতির সাথে সামঞ্জস্যপূর্ণ
পরামিতি সংবেদনশীলতা: প্রত্যাশিত রিটার্ন পরামিতি স্থানে জটিল অরৈখিক বিতরণ উপস্থাপন করে, সাবধানে অপ্টিমাইজেশন প্রয়োজন

নিয়ন্ত্রণ ট্র্যাজেক্টরি বিশ্লেষণ

র্যান্ডম কৌশল: অনিয়মিত দোলন উপস্থাপন করে, সীমাবদ্ধতা অংশ কিছু প্রশমিত
PI কৌশল: সর্বাধিক অনুমোদিত মানে স্থিতিশীল বৃদ্ধি, পদার্থবিজ্ঞান-চালিত নিয়ন্ত্রণ যুক্তি প্রতিফলিত করে
লক্ষ্য ট্র্যাকিং: PI নিয়ন্ত্রক ট্র্যাজেক্টরি ট্র্যাকিং নয় বরং প্রত্যাশিত রিটার্নের জন্য অপ্টিমাইজ করা হয়, RL ফ্রেমওয়ার্কের নমনীয়তা প্রদর্শন করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

Gym-TORAX সফলভাবে RL এবং প্লাজমা সিমুলেশনের মানসম্মত একীকরণ সমাধান প্রদান করে
PI নিয়ন্ত্রক বেঞ্চমার্ক ফ্রেমওয়ার্কের কার্যকারিতা এবং সম্ভাব্য উন্নতি স্থান প্রদর্শন করে
মডুলার ডিজাইন নতুন নিয়ন্ত্রণ পরিস্থিতিতে দ্রুত সম্প্রসারণ সমর্থন করে

সীমাবদ্ধতা

পদার্থবিজ্ঞান মডেল সীমাবদ্ধতা: TORAX এর অক্ষ-সমরূপ অনুমানের উপর ভিত্তি করে, জটিল ত্রিমাত্রিক প্রভাবের মডেলিং সীমিত করে
সিমুলেশন নির্ভুলতা: প্রাথমিক গবেষণার জন্য উপযুক্ত, উচ্চ নির্ভুলতা প্রয়োগের জন্য আরও জটিল পদার্থবিজ্ঞান মডেল প্রয়োজন
পরিস্থিতি কভারেজ: বর্তমানে প্রধানত ITER পরিস্থিতি সমর্থন করে, আরও রিঅ্যাক্টর কনফিগারেশনে সম্প্রসারণ প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

জ্যামিতি পরামিতিকরণ: প্লাজমা এবং টোকামাক জ্যামিতির সরাসরি পরামিতিকরণ সমর্থন করা
পদার্থবিজ্ঞান ইভেন্ট পরিচালনা: L-H রূপান্তরের মতো মূল পদার্থবিজ্ঞান ইভেন্টের জন্য বিশেষায়িত পরিচালনা সরঞ্জাম যোগ করা
TORAX ফাংশন সম্প্রসারণ: TORAX সিমুলেটর ফাংশন বৃদ্ধির সাথে সাথে ক্ষমতা সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

শূন্যতা পূরণ করা: প্রথম ওপেন-সোর্স RL-প্লাজমা নিয়ন্ত্রণ একীকরণ ফ্রেমওয়ার্ক, গুরুত্বপূর্ণ সরঞ্জাম শূন্যতা পূরণ করে
নমনীয় ডিজাইন: দ্বৈত-স্তরের সময় বিচ্ছিন্নকরণ এবং মডুলার ডিজাইন ভাল সফটওয়্যার প্রকৌশল অনুশীলন প্রতিফলিত করে
ব্যবহারিক মূল্য: RL গবেষকদের প্লাজমা নিয়ন্ত্রণ ক্ষেত্রে প্রবেশের বাধা হ্রাস করে
সম্পূর্ণ বেঞ্চমার্ক: সম্পূর্ণ ITER পরিস্থিতি বাস্তবায়ন এবং একাধিক বেঞ্চমার্ক কৌশল তুলনা প্রদান করে
ওপেন-সোর্স অবদান: MIT লাইসেন্স এবং সম্পূর্ণ ডকুমেন্টেশন সম্প্রদায় উন্নয়ন সমর্থন করে

অপূর্ণতা

সীমিত পরীক্ষা গভীরতা: শুধুমাত্র সহজ PI নিয়ন্ত্রক প্রদর্শন করে, আধুনিক RL অ্যালগরিদমের গভীর মূল্যায়নের অভাব
অপর্যাপ্ত পদার্থবিজ্ঞান যাচাইকরণ: প্রকৃত প্লাজমা পরীক্ষামূলক ডেটার সাথে তুলনা যাচাইকরণের অভাব
সম্প্রসারণযোগ্যতা অপর্যাপ্তভাবে প্রদর্শিত: যদিও ডিজাইন সম্প্রসারণ সমর্থন করে, নতুন পরিবেশ সৃষ্টির সম্পূর্ণ প্রক্রিয়া প্রদর্শন করা হয়নি
কর্মক্ষমতা বিশ্লেষণ অনুপস্থিত: গণনা কর্মক্ষমতা এবং স্কেলেবিলিটির পরিমাণগত বিশ্লেষণ প্রদান করা হয়নি

প্রভাব

একাডেমিক মূল্য: প্লাজমা নিয়ন্ত্রণে RL প্রয়োগের জন্য মানসম্মত প্ল্যাটফর্ম প্রদান করে
প্রকৌশল মূল্য: আন্তঃশৃঙ্খলাবদ্ধ সহযোগিতা প্রচার করে, সংমিশ্রণ নিয়ন্ত্রণ প্রযুক্তি উন্নয়ন ত্বরান্বিত করে
শিক্ষামূলক মূল্য: শেখার বাধা হ্রাস করে, আন্তঃক্ষেত্রীয় প্রতিভা প্রশিক্ষণে সহায়তা করে
পুনরুৎপাদনযোগ্যতা: ওপেন-সোর্স ডিজাইন এবং বিস্তারিত ডকুমেন্টেশন গবেষণা পুনরুৎপাদনযোগ্যতা সমর্থন করে

প্রযোজ্য পরিস্থিতি

RL অ্যালগরিদম গবেষণা: প্লাজমা নিয়ন্ত্রণে বিভিন্ন RL অ্যালগরিদমের কর্মক্ষমতা পরীক্ষা এবং তুলনা করা
নিয়ন্ত্রণ কৌশল উন্নয়ন: নতুন প্লাজমা নিয়ন্ত্রণ কৌশল দ্রুত প্রোটোটাইপ এবং মূল্যায়ন করা
শিক্ষা প্রশিক্ষণ: শিক্ষার্থীদের পদার্থবিজ্ঞান সিস্টেমে RL প্রয়োগ বুঝতে সাহায্য করার জন্য শিক্ষা সরঞ্জাম হিসাবে
প্রাথমিক গবেষণা: ব্যয়বহুল প্রকৃত পরীক্ষায় বিনিয়োগ করার আগে অ্যালগরিদম যাচাইকরণ

সংদর্ভ

এই পেপারটি প্লাজমা পদার্থবিজ্ঞান, শক্তিশালী শেখা এবং সিমুলেশন প্রযুক্তি সহ একাধিক ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, বিশেষত:

TORAX সিমুলেটরের মূল প্রযুক্তি ডকুমেন্টেশন
Nature এর মতো শীর্ষ-স্তরের জার্নালে প্রকাশিত RL প্লাজমা নিয়ন্ত্রণ যুগান্তকারী কাজ
Gymnasium এর মতো মানসম্মত RL পরিবেশ ফ্রেমওয়ার্কের প্রযুক্তি বিশেষ

সামগ্রিক মূল্যায়ন: Gym-TORAX একটি গুরুত্বপূর্ণ ব্যবহারিক মূল্যের ওপেন-সোর্স সফটওয়্যার অবদান, যদিও প্রযুক্তিগত উদ্ভাবনে তুলনামূলকভাবে রক্ষণশীল, আন্তঃশৃঙ্খলাবদ্ধ সহযোগিতা প্রচার এবং সরঞ্জাম মানসম্মতকরণে উল্লেখযোগ্য মূল্য রয়েছে। এই কাজটি প্লাজমা নিয়ন্ত্রণ ক্ষেত্রে RL প্রয়োগের জন্য গুরুত্বপূর্ণ অবকাঠামো প্রদান করে, এই আন্তঃক্ষেত্রীয় ক্ষেত্রের দ্রুত উন্নয়ন চালিত করার সম্ভাবনা রাখে।