Gym-TORAX: Open-source software for integrating RL with plasma control simulators
Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic
Gym-TORAX: برنامج مفتوح المصدر لدمج التعلم المعزز مع محاكيات التحكم بالبلازما
تقدم هذه الورقة Gym-TORAX، وهي حزمة Python قادرة على تنفيذ بيئات التعلم المعزز (RL) لمحاكاة ديناميكيات البلازما في التوكاماك والتحكم بها. يمكن للمستخدمين تعريف مجموعة من إجراءات التحكم والملاحظات والأهداف بشكل موجز، وسيقوم Gym-TORAX بإنشاء بيئة Gymnasium تغلف TORAX لمحاكاة ديناميكيات البلازما. يتم صياغة الأهداف من خلال دوال المكافآت التي تعتمد على حالة محاكاة البلازما والإجراءات المتخذة، لتحسين خصائص معينة للبلازما مثل الأداء والاستقرار. تتوافق نسخ البيئة الناتجة مع مجموعة واسعة من خوارزميات ومكتبات التعلم المعزز، مما سيعزز البحث في التعلم المعزز للتحكم بالبلازما. في الإصدار الحالي، توجد بيئة واحدة متاحة بناءً على سيناريو الرفع الهجين للمفاعل النووي الحراري التجريبي الدولي (ITER).
تحديات الطاقة النووية الاندماجية: يعتبر تحسين الاستقرار والأداء في مفاعلات الاندماج النووي من المشاكل الأساسية في أبحاث الطاقة الاندماجية، حيث يواجه تكوين التوكاماك كاتجاه بحثي رئيسي تحديات تحكم عالية الأبعاد وشديدة اللاخطية.
قيود أدوات المحاكاة الموجودة:
العديد من محاكيات البلازما (مثل RAPTOR و JOREK) ليست مفتوحة المصدر وتتطلب تراخيص مقيدة
تم تصميم الأدوات الموجودة بشكل أساسي لفيزيائيي البلازما، مما يرفع حاجز الدخول لباحثي التعلم المعزز
نقص التصميمات الموجهة نحو تطبيقات التحكم
الحاجة إلى التعاون بين التخصصات: يتطلب تطبيق التعلم المعزز في التحكم بالبلازما تقليل حاجز الدخول لباحثي التعلم المعزز وتعزيز التعاون بين المجالين.
class CustomEnv(BaseEnv):
def _get_torax_config(self):
# تعريف ملف إعدادات TORAX ومعاملات المحاكاة
pass
def _define_action_space(self):
# تحديد مجموعة فرعية من متغيرات TORAX التي يتحكم بها الوكيل
pass
def _define_observation_space(self):
# اختيار المتغيرات المضمنة في الملاحظة
pass
def _compute_reward(self):
# تعريف دالة المكافأة ذات الصلة بالمهمة
pass
مزايا وحدة التحكم PI: استراتيجية التحكم PI المحسّنة (kp*=0.700, ki*=34.257) تحقق تحسناً بنسبة 11.5% مقارنة باستراتيجية الحلقة المفتوحة
استراتيجية التحكم بالتيار: تميل استراتيجية PI إلى رفع إجمالي التيار إلى حد أقصى 15MA، وهو ما يتوافق مع المبدأ الفيزيائي بأن التيار العالي يحسن أداء القيود
حساسية المعاملات: يظهر العائد المتوقع توزيعاً معقداً غير خطي عبر فضاء المعاملات، مما يتطلب تحسيناً دقيقاً
تستشهد هذه الورقة بأعمال مهمة من عدة مجالات بما فيها فيزياء البلازما والتعلم المعزز وتكنولوجيا المحاكاة، خاصة:
وثائق التكنولوجيا الأساسية لمحاكي TORAX
الأعمال الرائدة الحديثة في التعلم المعزز للتحكم بالبلازما المنشورة في مجلات مرموقة مثل Nature
المواصفات التقنية لأطر بيئة التعلم المعزز القياسية مثل Gymnasium
التقييم الإجمالي: Gym-TORAX هي مساهمة برنامج مفتوح المصدر ذات قيمة عملية مهمة. على الرغم من أنها محافظة نسبياً من حيث الابتكار التقني، إلا أنها ذات قيمة كبيرة في تعزيز التعاون بين التخصصات والأدوات الموحدة. يوفر هذا العمل بنية تحتية مهمة لتطبيق التعلم المعزز في مجال التحكم بالبلازما، ومن المتوقع أن يدفع التطور السريع لهذا المجال متعدد التخصصات.