Convergence of actor-critic for entropy regularised MDPs in general action spaces
Zorba, Šiška, Szpruch
We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.
academic
تقارب طريقة الممثل-الناقد للعمليات الحتمية ماركوفية المنتظمة بالإنتروبيا في فضاءات الفعل العامة
تثبت هذه الورقة الاستقرار والتقارب العام للتدفقات المتدرجة المقترنة للممثل-الناقد لعمليات حتمية ماركوفية (MDPs) منتظمة بالإنتروبيا في الأفق الزمني اللانهائي، مع فضاءات الحالة والفعل المستمرة، والتقريب الخطي للدوال وشروط قابلية تحقق دالة Q. تدرس الورقة متغيراً من تدفقات المتدرجات للممثل-الناقد حيث يقوم الناقد بالتحديث باستخدام التعلم بالفرق الزمني (TD)، بينما يتم تحديث السياسة باستخدام طريقة الانحدار المرآتي للسياسة على مقاييس زمنية مختلفة. تثبت الورقة الاستقرار والتقارب الأسي للتدفق نحو السياسة المثلى، وتحلل تأثير فصل المقاييس الزمنية والتفاعل بين الإنتروبيا على الاستقرار والتقارب.
تتمحور المشكلة الأساسية التي تعالجها هذه الورقة حول تحليل الاستقرار والتقارب لطريقة الممثل-الناقد في عمليات حتمية ماركوفية منتظمة بالإنتروبيا في فضاءات فعل عامة (مستمرة أو لانهائية). بشكل محدد:
مشكلة الاستقرار: هل التحديثات المقترنة للممثل والناقد في الديناميكا الزمنية المستمرة تؤدي إلى عدم استقرار النظام
مشكلة التقارب: هل يمكن للنظام أن يتقارب نحو السياسة المثلى، وما سرعة التقارب
فصل المقاييس الزمنية: تأثير سرعات التحديث المختلفة على أداء النظام
في ظل الشروط المناسبة، يوجد ηt=η0ek1t وثابت k2>0 بحيث:
minr∈[0,t]Vτπr(ρ)−Vτπ∗(ρ)≤2(1−γ)(1−e−2τt)τe−2τt(∫SKL(π∗(⋅∣s)∣π0(⋅∣s))dρπ∗(ds)+2τk2)
الأعمال الكلاسيكية لطريقة الممثل-الناقد (Konda & Tsitsiklis, 1999)
عمليات حتمية ماركوفية منتظمة بالإنتروبيا (Kerimkulov et al., 2024)
طرق متدرج السياسة (Schulman et al., 2015, 2017)
نظرية التقريب الدالي (Bhandari et al., 2021)
التقييم الإجمالي: هذه ورقة نظرية عالية الجودة توفر تحليلاً رياضياً صارماً لطريقة الممثل-الناقد في عمليات حتمية ماركوفية منتظمة بالإنتروبيا. على الرغم من وجود قيود في الجوانب التطبيقية العملية، فإن مساهماتها النظرية وقيمتها المنهجية كبيرة، وتضع أساساً مهماً لمزيد من التطور في هذا المجال.