2025-11-25T16:46:17.731757

Convergence of actor-critic for entropy regularised MDPs in general action spaces

Zorba, Å iÅ¡ka, Szpruch

We prove the stability and global convergence of a coupled actor-critic gradient flow for infinite-horizon and entropy-regularised Markov decision processes (MDPs) in continuous state and action space with linear function approximation under Q-function realisability. We consider a version of the actor critic gradient flow where the critic is updated using temporal difference (TD) learning while the policy is updated using a policy mirror descent method on a separate timescale. We demonstrate stability and exponential convergence of the actor critic flow to the optimal policy. Finally, we address the interplay of the timescale separation and entropy regularisation and its effect on stability and convergence.

academic

تقارب طريقة الممثل-الناقد للعمليات الحتمية ماركوفية المنتظمة بالإنتروبيا في فضاءات الفعل العامة

المعلومات الأساسية

معرّف الورقة: 2510.14898
العنوان: Convergence of actor-critic for entropy regularised MDPs in general action spaces
المؤلفون: Denis Zorba, David Šiška, Lukasz Szpruch
التصنيف: math.OC (التحسين والتحكم)
تاريخ النشر: 16 أكتوبر 2025 (نسخة أولية على arXiv)
رابط الورقة: https://arxiv.org/abs/2510.14898

الملخص

تثبت هذه الورقة الاستقرار والتقارب العام للتدفقات المتدرجة المقترنة للممثل-الناقد لعمليات حتمية ماركوفية (MDPs) منتظمة بالإنتروبيا في الأفق الزمني اللانهائي، مع فضاءات الحالة والفعل المستمرة، والتقريب الخطي للدوال وشروط قابلية تحقق دالة Q. تدرس الورقة متغيراً من تدفقات المتدرجات للممثل-الناقد حيث يقوم الناقد بالتحديث باستخدام التعلم بالفرق الزمني (TD)، بينما يتم تحديث السياسة باستخدام طريقة الانحدار المرآتي للسياسة على مقاييس زمنية مختلفة. تثبت الورقة الاستقرار والتقارب الأسي للتدفق نحو السياسة المثلى، وتحلل تأثير فصل المقاييس الزمنية والتفاعل بين الإنتروبيا على الاستقرار والتقارب.

الخلفية البحثية والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي تعالجها هذه الورقة حول تحليل الاستقرار والتقارب لطريقة الممثل-الناقد في عمليات حتمية ماركوفية منتظمة بالإنتروبيا في فضاءات فعل عامة (مستمرة أو لانهائية). بشكل محدد:

مشكلة الاستقرار: هل التحديثات المقترنة للممثل والناقد في الديناميكا الزمنية المستمرة تؤدي إلى عدم استقرار النظام
مشكلة التقارب: هل يمكن للنظام أن يتقارب نحو السياسة المثلى، وما سرعة التقارب
فصل المقاييس الزمنية: تأثير سرعات التحديث المختلفة على أداء النظام

أهمية البحث

الأساس النظري: توفير ضمانات نظرية صارمة لخوارزميات الممثل-الناقد المستخدمة على نطاق واسع في التطبيقات العملية
التوسع العام: توسيع النتائج الموجودة لفضاءات الفعل المحدودة إلى فضاءات الفعل المستمرة/اللانهائية
الإنتروبيا المنتظمة: تحليل دور الإنتروبيا المنتظمة في تعزيز الاستكشاف وتسريع التقارب

قيود الطرق الموجودة

قيود فضاء الفعل: تقتصر نتائج التقارب الموجودة لعمليات حتمية ماركوفية منتظمة بالإنتروبيا بشكل أساسي على فضاءات الفعل المحدودة
تحديات التقريب الدالي: نقص الحدود المسبقة للتقريب الدالي في فضاءات الحالة والفعل العامة
تعقيد التحليل المقترن: الحاجة إلى دمج أدوات التحليل المحدب على الفضاءات الإقليدية وفضاءات القياس

المساهمات الأساسية

إطار الاستقرار: تطوير إطار استقرار قائم على Lyapunov يلتقط التفاعل بين الإنتروبيا المنتظمة وفصل المقاييس الزمنية
إثبات التقارب: إثبات تقارب ديناميكا الممثل-الناقد في عمليات حتمية ماركوفية منتظمة بالإنتروبيا مع فضاءات فعل لانهائية
معدل التقارب الأسي: إنشاء معدل تقارب أسي نحو السياسة المثلى
التحليل في الزمن المستمر: تحليل التحديثات المقترنة في حد الزمن المستمر، مما يشكل تدفق شبه متدرج للناقد وتدفق متدرج تقريبي Fisher-Rao للممثل

شرح الطريقة

تعريف المهمة

ننظر في عملية حتمية ماركوفية ذات أفق زمني لانهائي $(S,A,P,c,γ)$ ، حيث:

$S$ , $A$ : فضاءات بولندية (فضاءات الحالة والفعل)
$P \in P(S|S \times A)$ : نواة الانتقال بين الحالات
$c$ : دالة التكلفة المحدودة
$γ \in (0,1)$ : عامل الخصم
$τ > 0$ : معامل الانتظام

يتم تعريف دالة القيمة المنتظمة بالإنتروبيا كما يلي: $V^π_τ(s) = E^π_s\left[\sum_{n=0}^∞ γ^n(c(s_n,a_n) + τ \text{KL}(π(·|s_n)|μ))\right]$

معمارية النموذج

1. معاملات السياسة

تنتمي السياسة إلى فئة السياسات المقبولة $Π_μ$ : $π(da|s) = \frac{\exp(f(s,a))}{\int_A \exp(f(s,a))μ(da)}μ(da)$

2. التقريب الخطي لدالة Q

استخدام خريطة الميزات $φ: S \times A → R^N$ : $Q(s,a;θ) = ⟨θ, φ(s,a)⟩$

3. نظام الديناميكا المقترن

تدفق الممثل-الناقد في الزمن المستمر: $\frac{dθ_t}{dt} = -η_t g(θ_t, π_t)$ $∂_t π_t(da|s) = -A_t(s,a)π_t(da|s)$

حيث:

$g(θ,π)$ : التدرج شبه الكامل لمتوسط مربع خطأ بيلمان (MSBE)
$A_t(s,a)$ : دالة الميزة الناعمة التقريبية
$η_t$ : معامل فصل المقاييس الزمنية

نقاط الابتكار التقني

1. تدفق متدرج Fisher-Rao

نمذجة تحديث السياسة كتدفق متدرج Fisher-Rao على فضاء القياسات الاحتمالية: $∂_t \ln\frac{dπ_t}{dμ}(s,a) = -A^{π_t}_τ(s,a)$

2. تحليل ثنائي المقياس الزمني

يتم تحديث الناقد على المقياس الزمني السريع (تعلم TD)
يتم تحديث الممثل على المقياس الزمني البطيء (انحدار مرآتي للسياسة)

3. تحليل استقرار Lyapunov

بناء دالة Lyapunov لتحليل استقرار النظام، مع الجمع بين:

التحليل المحدب على الفضاءات الإقليدية
التحليل المحدب على فضاءات القياس

التحليل النظري

الافتراضات الرئيسية

الافتراض 4.1 (قابلية تحقق $Q^π_τ$ ): لجميع $π ∈ Π_μ$ و $(s,a) ∈ S × A$ ، يوجد $θ^π ∈ R^N$ بحيث: $Q^π(s,a) = ⟨θ^π, φ(s,a)⟩$

الافتراض 4.2: $|φ(s,a)| ≤ 1$ لجميع $(s,a) ∈ S × A$

الافتراض 4.3: أصغر قيمة ذاتية للمصفوفة $\int_{S×A} φ(s,a)φ(s,a)^⊤ β(ds,da)$ هي $λ_β > 0$

النتائج النظرية الرئيسية

نظرية الاستقرار (Theorem 5.1)

إذا كان $η_0 > \frac{τ}{Γ}$ ، حيث $Γ = λ_β(1-γ)(1-\sqrt{γ})$ ، فإنه يوجد ثوابت $a_1, a_2 > 0$ بحيث: $K_t^2 ≤ a_1 + a_2 \int_0^t e^{-τ(t-r)} K_r^2 dr$

حيث $K_t = \sup_{s∈S} \text{KL}(π_t(·|s)|μ)$ .

نظرية التقارب (Theorem 6.1)

لجميع $t > 0$ : $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τ}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(e^{-\frac{τ}{2}t}\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{1}{2τ}\int_0^t e^{-\frac{τ}{2}(t-r)}|θ_r - θ^{π_r}|^2 dr\right)$

التقارب الأسي (Theorem 6.3)

في ظل الشروط المناسبة، يوجد $η_t = η_0 e^{k_1 t}$ وثابت $k_2 > 0$ بحيث: $\min_{r∈[0,t]} V^{π_r}_τ(ρ) - V^{π^*}_τ(ρ) ≤ \frac{τe^{-\frac{τ}{2}t}}{2(1-γ)(1-e^{-\frac{τ}{2}t})}\left(\int_S \text{KL}(π^*(·|s)|π_0(·|s))d^{π^*}_ρ(ds) + \frac{k_2}{2τ}\right)$

الأدوات التقنية الرئيسية

1. لمّة الفرق في الأداء (Performance Difference Lemma)

$V^π_τ(ρ) - V^{π'}_τ(ρ) = \frac{1}{1-γ}\int_S \left[\int_A (Q^{π'}_τ(s,a) + τ\ln\frac{dπ'}{dμ}(a,s))(π-π')(da|s) + τ\text{KL}(π(·|s)|π'(·|s))\right] d^π_ρ(ds)$

2. تطبيق متباينة Gronwall

تُستخدم للتحكم في نمو تباعد Kullback-Leibler ومعايير المعاملات.

3. خصائص قياس الاحتلال للحالة والفعل

اللمّة 5.1: $d^π_{Jπβ}(E) = J_π d^π_β(E)$ $d^π_β(E) - γd^π_{J_π β}(E) = (1-γ)β(E)$

الأعمال ذات الصلة

الإعدادات بدون انتظام

Borkar & Konda (1997): التقريب العشوائي ثنائي المقياس الزمني
Bhandari et al. (2021): التحليل ذو الوقت المحدود للتقريب الخطي للدوال
Zhang et al. (2021): تدفقات Wasserstein والتعلم التمثيلي

الإعدادات المنتظمة بالإنتروبيا

Cayci et al. (2024): متدرج السياسة الطبيعية لفضاءات الفعل المحدودة
توسع هذه الورقة إلى فضاءات الفعل العامة

مقارنة المساهمات التقنية

مزايا هذه الورقة مقارنة بالأعمال الموجودة:

التعامل مع فضاءات الفعل المستمرة/اللانهائية
إثباتات صارمة للاستقرار والتقارب
تحليل التفاعل بين الإنتروبيا المنتظمة وفصل المقاييس الزمنية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

ضمانات الاستقرار: يحافظ النظام على الاستقرار في ظل شروط فصل المقاييس الزمنية المناسبة
التقارب الأسي: معدل تقارب أسي نحو السياسة المثلى
تأثير الإنتروبيا المنتظمة: تضمن الإنتروبيا المنتظمة سياسة مثلى فريدة وتسرع التقارب

القيود

افتراض الزمن المستمر: يقتصر التحليل على الديناميكا في الزمن المستمر، وهو أقل واقعية من الزمن المنفصل
التقريب الخطي للدوال: يستخدم التطبيق العملي عادة شبكات عصبية غير خطية
افتراض التكامل الدقيق: يتطلب التطبيق العملي تقديرات العينات، مما يدخل أخطاء مونت كارلو
قابلية تحقق دالة Q: افتراض قوي قد لا يكون مرضياً في الممارسة العملية

الاتجاهات المستقبلية

تحليل صارم للخوارزميات في الزمن المنفصل
توسيع التقريب غير الخطي للدوال
معالجة أخطاء العينات
شروط قابلية تحقق أضعف

التقييم المتعمق

المزايا

الصرامة النظرية: توفير إثباتات كاملة للاستقرار والتقارب
الابتكار التقني: دمج ذكي لهندسة Fisher-Rao مع تحليل Lyapunov
العمومية: توسيع إلى فضاءات الفعل المستمرة، ملء فجوة نظرية
الوضوح: الاشتقاقات الرياضية مفصلة والمنطق واضح

أوجه القصور

قيود الجدوى العملية: الشروط الافتراضية القوية يصعب تحقيقها في الممارسة العملية
غياب التحقق التجريبي: عمل نظري بحت، يفتقر إلى التحقق العددي
التعقيد الحسابي: لم يتم مناقشة التعقيد الحسابي للخوارزمية
الجدوى المحدودة: افتراض الزمن المستمر يحد من التطبيق العملي

التأثير

المساهمة النظرية: توفير أساس نظري مهم لعمليات حتمية ماركوفية منتظمة بالإنتروبيا
القيمة المنهجية: يمكن تطبيق تقنيات التحليل على خوارزميات تعلم معزز أخرى
البحث اللاحق: وضع أساس لأبحاث الزمن المنفصل والإعدادات الأكثر عمومية

السيناريوهات المعنية

البحث النظري: توفير أدوات نظرية ورؤى لأبحاث أخرى
تصميم الخوارزميات: توجيه اختيار المعاملات والتحليل التقاربي للخوارزميات العملية
التحكم المستمر: مشاكل التحكم في فضاءات الحالة والفعل المستمرة

المراجع

تستشهد الورقة بـ 25 مرجعاً مهماً، تغطي:

الأعمال الكلاسيكية لطريقة الممثل-الناقد (Konda & Tsitsiklis, 1999)
عمليات حتمية ماركوفية منتظمة بالإنتروبيا (Kerimkulov et al., 2024)
طرق متدرج السياسة (Schulman et al., 2015, 2017)
نظرية التقريب الدالي (Bhandari et al., 2021)

التقييم الإجمالي: هذه ورقة نظرية عالية الجودة توفر تحليلاً رياضياً صارماً لطريقة الممثل-الناقد في عمليات حتمية ماركوفية منتظمة بالإنتروبيا. على الرغم من وجود قيود في الجوانب التطبيقية العملية، فإن مساهماتها النظرية وقيمتها المنهجية كبيرة، وتضع أساساً مهماً لمزيد من التطور في هذا المجال.