2025-11-12T22:22:10.712676

Gym-TORAX: Open-source software for integrating RL with plasma control simulators

Mouchamps, Malherbe, Bolland et al.
This paper presents Gym-TORAX, a Python package enabling the implementation of Reinforcement Learning (RL) environments for simulating plasma dynamics and control in tokamaks. Users define succinctly a set of control actions and observations, and a control objective from which Gym-TORAX creates a Gymnasium environment that wraps TORAX for simulating the plasma dynamics. The objective is formulated through rewards depending on the simulated state of the plasma and control action to optimize specific characteristics of the plasma, such as performance and stability. The resulting environment instance is then compatible with a wide range of RL algorithms and libraries and will facilitate RL research in plasma control. In its current version, one environment is readily available, based on a ramp-up scenario of the International Thermonuclear Experimental Reactor (ITER).
academic

Gym-TORAX: برنامج مفتوح المصدر لدمج التعلم المعزز مع محاكيات التحكم بالبلازما

المعلومات الأساسية

  • معرّف الورقة: 2510.11283
  • العنوان: Gym-TORAX: برنامج مفتوح المصدر لدمج التعلم المعزز مع محاكيات التحكم بالبلازما
  • المؤلفون: Antoine Mouchamps, Arthur Malherbe, Adrien Bolland, Damien Ernst (معهد Montefiore، جامعة Liège، بلجيكا)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 13 أكتوبر 2025
  • رابط الورقة: https://arxiv.org/abs/2510.11283v1

الملخص

تقدم هذه الورقة Gym-TORAX، وهي حزمة Python قادرة على تنفيذ بيئات التعلم المعزز (RL) لمحاكاة ديناميكيات البلازما في التوكاماك والتحكم بها. يمكن للمستخدمين تعريف مجموعة من إجراءات التحكم والملاحظات والأهداف بشكل موجز، وسيقوم Gym-TORAX بإنشاء بيئة Gymnasium تغلف TORAX لمحاكاة ديناميكيات البلازما. يتم صياغة الأهداف من خلال دوال المكافآت التي تعتمد على حالة محاكاة البلازما والإجراءات المتخذة، لتحسين خصائص معينة للبلازما مثل الأداء والاستقرار. تتوافق نسخ البيئة الناتجة مع مجموعة واسعة من خوارزميات ومكتبات التعلم المعزز، مما سيعزز البحث في التعلم المعزز للتحكم بالبلازما. في الإصدار الحالي، توجد بيئة واحدة متاحة بناءً على سيناريو الرفع الهجين للمفاعل النووي الحراري التجريبي الدولي (ITER).

الخلفية البحثية والدافع

خلفية المشكلة

  1. تحديات الطاقة النووية الاندماجية: يعتبر تحسين الاستقرار والأداء في مفاعلات الاندماج النووي من المشاكل الأساسية في أبحاث الطاقة الاندماجية، حيث يواجه تكوين التوكاماك كاتجاه بحثي رئيسي تحديات تحكم عالية الأبعاد وشديدة اللاخطية.
  2. قيود أدوات المحاكاة الموجودة:
    • العديد من محاكيات البلازما (مثل RAPTOR و JOREK) ليست مفتوحة المصدر وتتطلب تراخيص مقيدة
    • تم تصميم الأدوات الموجودة بشكل أساسي لفيزيائيي البلازما، مما يرفع حاجز الدخول لباحثي التعلم المعزز
    • نقص التصميمات الموجهة نحو تطبيقات التحكم
  3. الحاجة إلى التعاون بين التخصصات: يتطلب تطبيق التعلم المعزز في التحكم بالبلازما تقليل حاجز الدخول لباحثي التعلم المعزز وتعزيز التعاون بين المجالين.

الدافع البحثي

  • توفير إطار عمل محاكاة تحكم بلازما مفتوح المصدر وخفيف الوزن وموافق للتعلم المعزز
  • من خلال واجهة Gymnasium الكلاسيكية، تغليف فيزياء البلازما بحيث يركز باحثو التعلم المعزز على تحسين استراتيجيات التحكم
  • دعم أبحاث استراتيجيات التحكم بالبلازما الجديدة واكتشاف الخوارزميات

المساهمات الأساسية

  1. إطار عمل برنامج مفتوح المصدر: تطوير حزمة Gym-TORAX Python التي توفر واجهة بيئة RL موحدة لأبحاث التحكم بالبلازما
  2. تكامل TORAX: إنشاء غلاف Gymnasium لمحاكي TORAX، مما يحقق بيئة تحكم حلقة مغلقة
  3. التصميم المعياري: توفير آلية إنشاء بيئة مرنة، حيث يمكن للمستخدمين تعريف سيناريوهات تحكم مخصصة من خلال وراثة فئة BaseEnv
  4. بيئة معيار ITER: تنفيذ بيئة كاملة بناءً على سيناريو الرفع الهجين المختلط لـ ITER، بما في ذلك استراتيجيات التحكم الأساسية
  5. جسر بين التخصصات: تقليل الحاجز التقني لدخول باحثي التعلم المعزز إلى مجال التحكم بالبلازما

شرح الطريقة

تعريف المهمة

نمذجة مشكلة التحكم بالبلازما كعملية قرار ماركوفية حتمية محدودة الوقت (MDP):

  • فضاء الحالة 𝒮: حالة البلازما (درجة الحرارة والكثافة والتدفق المغناطيسي وغيرها)
  • فضاء الإجراء 𝒜: متغيرات التحكم (إجمالي التيار والجهد الحلقي ومصادر الطاقة وغيرها)
  • دالة الانتقال f: 𝒮 × 𝒜 → 𝒮 (يتم تنفيذها من خلال محاكاة TORAX)
  • دالة المكافأة r: 𝒮 × 𝒜 → ℝ (أهداف محددة من قبل المستخدم ذات صلة بالمهمة)

معمارية النظام

التقسيم الزمني ثنائي الطبقات

  1. طبقة التفاعل مع التعلم المعزز: خطوة زمنية لتفاعل الوكيل مع البيئة
  2. طبقة محاكاة الفيزياء: خطوة زمنية لحل TORAX للمعادلات التفاضلية الجزئية (يمكن أن تكون في وضع auto أو fixed)

المكونات الأساسية

  1. فئة BaseEnv: فئة أساسية مجردة تحدد واجهة قياسية لإنشاء البيئة
  2. فئة Action: فئة مجردة لتعريف الإجراءات القابلة للتكوين
  3. فئة Observation: فئة لتعريف محتوى الملاحظات
  4. دوال مساعدة المكافآت: أدوات متخصصة لتصميم دوال المكافآت

عملية إنشاء البيئة

يحتاج المستخدمون إلى تنفيذ أربع طرق مجردة:

class CustomEnv(BaseEnv):
    def _get_torax_config(self):
        # تعريف ملف إعدادات TORAX ومعاملات المحاكاة
        pass
    
    def _define_action_space(self):
        # تحديد مجموعة فرعية من متغيرات TORAX التي يتحكم بها الوكيل
        pass
    
    def _define_observation_space(self):
        # اختيار المتغيرات المضمنة في الملاحظة
        pass
    
    def _compute_reward(self):
        # تعريف دالة المكافأة ذات الصلة بالمهمة
        pass

نقاط الابتكار التقني

  1. التكامل السلس بين محاكاة الفيزياء والتعلم المعزز: تغليف محاكاة فيزياء البلازما المعقدة من خلال واجهة Gymnasium القياسية
  2. معالجة مرنة للمقاييس الزمنية: آلية التقسيم الزمني ثنائي الطبقات تتعامل مع الفرق بين تكرار قرارات التعلم المعزز وخطوات المحاكاة الفيزيائية
  3. التصميم المعياري: يدعم تصميم الفئات المجردة الإنشاء السريع لسيناريوهات تحكم جديدة
  4. آليات المتانة: معالجة تلقائية لأخطاء المحاكاة والحالات غير الممكنة، مع توفير شروط إنهاء مناسبة وعقوبات

إعداد التجارب

بيئة المحاكاة: سيناريو الرفع الهجين لـ ITER

  • الخلفية الفيزيائية: بناءً على وضع التشغيل الهجين لمفاعل ITER
  • الفترة الزمنية: 100 ثانية من مرحلة الرفع (وضع L) + 50 ثانية من المرحلة المستقرة (وضع H)
  • متغيرات التحكم:
    • IpAction: التحكم في إجمالي التيار
    • NbiAction: قوة حقن الحزمة المحايدة
    • EcrhAction: قوة التسخين بالرنين الدوراني الإلكتروني

تصميم دالة المكافأة

استخدام مزيج خطي من أربع حدود:

r = α_Q·f_Q + α_qmin·f_qmin + α_q95·f_q95 + α_H98·f_H98

تتوافق على التوالي مع كسب الاندماج Q وعامل الأمان الأدنى وعامل الأمان عند الحدود وعامل الجودة المقيد لوضع H.

استراتيجيات المقارنة

  1. استراتيجية الحلقة المفتوحة π_OL: استخدام مسار الإجراء المحدد مسبقاً في TORAX
  2. استراتيجية عشوائية π_R: اختيار عشوائي موحد ضمن فضاء الإجراء
  3. استراتيجية التحكم PI π_PI: استخدام وحدة تحكم تناسبية-تكاملية للتحكم في إجمالي التيار، مع اتباع المسارات المحددة مسبقاً للمتغيرات الأخرى

تفاصيل التنفيذ

  • تحسين معاملات PI: البحث الشبكي لتحسين الكسب التناسبي kp والكسب التكاملي ki
  • فضاء البحث: kp ∈ -10, 0, ki ∈ 0, 40
  • كثافة الشبكة: 20×60 = 1200 مزيج معاملات
  • دالة الهدف: تعظيم العائد المتوقع J(π)

نتائج التجارب

النتائج الرئيسية

الاستراتيجيةالعائد المتوقع
π_OL (حلقة مفتوحة)3.40
π_R (عشوائية)-10.79
π_PI (تحكم PI)3.79

الاكتشافات الرئيسية

  1. مزايا وحدة التحكم PI: استراتيجية التحكم PI المحسّنة (kp*=0.700, ki*=34.257) تحقق تحسناً بنسبة 11.5% مقارنة باستراتيجية الحلقة المفتوحة
  2. استراتيجية التحكم بالتيار: تميل استراتيجية PI إلى رفع إجمالي التيار إلى حد أقصى 15MA، وهو ما يتوافق مع المبدأ الفيزيائي بأن التيار العالي يحسن أداء القيود
  3. حساسية المعاملات: يظهر العائد المتوقع توزيعاً معقداً غير خطي عبر فضاء المعاملات، مما يتطلب تحسيناً دقيقاً

تحليل مسارات التحكم

  • استراتيجية عشوائية: تظهر تذبذبات غير منتظمة، مع تخفيف جزئي للقيود المفروضة
  • استراتيجية PI: نمو مستقر إلى الحد الأقصى المسموح به، مما يعكس منطق التحكم المدفوع بالفيزياء
  • تتبع الأهداف: يتم تحسين وحدة التحكم PI للعائد المتوقع وليس لتتبع المسار، مما يوضح مرونة إطار عمل التعلم المعزز

الأعمال ذات الصلة

تطبيقات التعلم المعزز في التحكم بالبلازما

  1. التحكم المغناطيسي: استخدم Degrave وآخرون (Nature 2022) التعلم العميق المعزز للتحكم في شكل البلازما في التوكاماك
  2. التحكم بالاستقرار: درس Char وآخرون (2023) التحكم في βN، وقام Seo وآخرون (Nature 2024) بتجنب عدم الاستقرار الممزق
  3. أدوات المحاكاة: تفتقر الأدوات الموجودة مثل RAPTOR و JOREK إلى كونها مفتوحة المصدر وواجهات التعلم المعزز

مزايا هذه الورقة

  • أول إطار عمل محاكاة تحكم بلازما مفتوح المصدر مصمم خصيصاً للتعلم المعزز
  • واجهات موحدة تقلل من حاجز البحث بين التخصصات
  • بناءً على مكدس JAX الحديث، يدعم التفاضل التلقائي السريع

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. نجح Gym-TORAX في توفير حل تكامل موحد بين التعلم المعزز ومحاكاة البلازما
  2. يوضح معيار وحدة التحكم PI فعالية الإطار ومساحة التحسين المحتملة
  3. يدعم التصميم المعياري التوسع السريع إلى سيناريوهات تحكم جديدة

القيود

  1. قيود النموذج الفيزيائي: بناءً على افتراضات التماثل المحوري في TORAX، مما يحد من نمذجة التأثيرات ثلاثية الأبعاد المعقدة
  2. دقة المحاكاة: مناسبة للأبحاث الأولية، والتطبيقات عالية الدقة تتطلب نماذج فيزيائية أكثر تعقيداً
  3. تغطية السيناريو: يدعم حالياً بشكل أساسي سيناريوهات ITER، مما يتطلب التوسع إلى تكوينات مفاعلات أخرى

الاتجاهات المستقبلية

  1. معاملات الهندسة: دعم المعاملات المباشرة لهندسة البلازما والتوكاماك
  2. معالجة الأحداث الفيزيائية: إضافة أدوات معالجة متخصصة للأحداث الفيزيائية الرئيسية مثل انتقال L-H
  3. توسيع وظائف TORAX: توسيع القدرات مع تحسن وظائف محاكي TORAX

التقييم المتعمق

المزايا

  1. ملء الفراغ: أول إطار عمل تكامل مفتوح المصدر بين التعلم المعزز والتحكم بالبلازما، يملأ فراغاً أداة مهماً
  2. التصميم الأنيق: يعكس التقسيم الزمني ثنائي الطبقات والتصميم المعياري ممارسات هندسة البرمجيات الجيدة
  3. القيمة العملية: يقلل من حاجز دخول باحثي التعلم المعزز إلى مجال التحكم بالبلازما
  4. معيار كامل: يوفر تنفيذاً كاملاً لسيناريو ITER ومقارنة استراتيجيات أساسية متعددة
  5. المساهمة مفتوحة المصدر: يدعم ترخيص MIT والتوثيق الكامل تطور المجتمع

أوجه القصور

  1. عمق التجارب محدود: يعرض فقط وحدة تحكم PI بسيطة، يفتقر إلى تقييم عميق لخوارزميات التعلم المعزز الحديثة
  2. التحقق الفيزيائي غير كافٍ: لم يتم إجراء مقارنة مع بيانات تجارب البلازما الفعلية
  3. قابلية التوسع لم تُعرض بشكل كافٍ: على الرغم من أن التصميم يدعم التوسع، إلا أنه لم يعرض عملية كاملة لإنشاء بيئة جديدة
  4. تحليل الأداء مفقود: لم يتم توفير تحليل كمي لأداء الحوسبة وقابلية التوسع

التأثير

  1. القيمة الأكاديمية: توفير منصة موحدة لتطبيق التعلم المعزز في التحكم بالبلازما
  2. القيمة الهندسية: تعزيز التعاون بين التخصصات، وتسريع تطور تكنولوجيا التحكم بالاندماج
  3. القيمة التعليمية: تقليل حاجز التعلم، والمساعدة في تدريب المواهب متعددة التخصصات
  4. قابلية التكرار: يدعم التصميم مفتوح المصدر والتوثيق التفصيلي قابلية التكرار البحثي

السيناريوهات المعمول بها

  1. أبحاث خوارزميات التعلم المعزز: اختبار ومقارنة أداء خوارزميات التعلم المعزز المختلفة في التحكم بالبلازما
  2. تطوير استراتيجيات التحكم: النماذج الأولية السريعة وتقييم استراتيجيات التحكم بالبلازما الجديدة
  3. التدريب التعليمي: كأداة تعليمية لمساعدة الطلاب على فهم تطبيق التعلم المعزز في الأنظمة الفيزيائية
  4. الأبحاث الأولية: التحقق من الخوارزميات قبل الاستثمار في التجارب الفعلية المكلفة

المراجع

تستشهد هذه الورقة بأعمال مهمة من عدة مجالات بما فيها فيزياء البلازما والتعلم المعزز وتكنولوجيا المحاكاة، خاصة:

  • وثائق التكنولوجيا الأساسية لمحاكي TORAX
  • الأعمال الرائدة الحديثة في التعلم المعزز للتحكم بالبلازما المنشورة في مجلات مرموقة مثل Nature
  • المواصفات التقنية لأطر بيئة التعلم المعزز القياسية مثل Gymnasium

التقييم الإجمالي: Gym-TORAX هي مساهمة برنامج مفتوح المصدر ذات قيمة عملية مهمة. على الرغم من أنها محافظة نسبياً من حيث الابتكار التقني، إلا أنها ذات قيمة كبيرة في تعزيز التعاون بين التخصصات والأدوات الموحدة. يوفر هذا العمل بنية تحتية مهمة لتطبيق التعلم المعزز في مجال التحكم بالبلازما، ومن المتوقع أن يدفع التطور السريع لهذا المجال متعدد التخصصات.