2025-11-10T02:47:02.164832

Central Limit Theorems for Asynchronous Averaged Q-Learning

Liu
This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
academic

نظريات الحد المركزي لتعلم Q المتوسط غير المتزامن

المعلومات الأساسية

  • معرّف الورقة: 2509.18964
  • العنوان: Central Limit Theorems for Asynchronous Averaged Q-Learning
  • المؤلف: Xingtu Liu (جامعة Simon Fraser)
  • التصنيف: cs.LG math.OC stat.ML
  • المؤتمر المنشور: OPT2025: ورشة العمل السنوية السابعة عشرة حول التحسين في التعلم الآلي
  • رابط الورقة: https://arxiv.org/abs/2509.18964

الملخص

تؤسس هذه الورقة نظريات الحد المركزي لتعلم Q المتوسط Polyak-Ruppert تحت التحديثات غير المتزامنة. تثبت الورقة نظرية حد مركزي غير تقاربية، حيث يعكس معدل التقارب في مسافة Wasserstein بوضوح الاعتماد على عدد التكرارات وحجم فضاء الحالة-الفعل ومعامل الخصم وجودة الاستكشاف. علاوة على ذلك، يتم اشتقاق نظرية حد مركزي دالية، مما يدل على أن عملية المجاميع الجزئية تتقارب ضعيفاً إلى حركة براونية.

خلفية البحث والدافع

خلفية المشكلة

  1. أهمية تعلم Q: يعتبر تعلم Q أحد أكثر الخوارزميات استخداماً على نطاق واسع في التعلم المعزز، حيث يتعلم مباشرة من مسارات التجربة دالة القيمة المثلى للفعل، وقد حقق نجاحاً هائلاً في ألعاب Atari والشطرنج وتشغيل الروبوتات ومحاذاة نماذج اللغة الكبيرة.
  2. تحديات التحليل النظري:
    • يمكن تفسير تعلم Q كحالة من التقريب العشوائي (SA)، لكن تعلم Q غير المتزامن هو مشكلة SA غير خطية مع ضوضاء ماركوفية
    • مقارنة بـ SA الخطي وتعلم الفرق الزمني (TD)، يكون تحليل تعلم Q أكثر تحدياً بسبب طبيعته غير الخطية والعاملين غير الملساء والعمليات غير الثابتة
    • يؤدي التحديث غير المتزامن إلى إدخال ضوضاء ماركوفية إضافية، مما يزيد من تعقيد التحليل
  3. قيود الأعمال الموجودة:
    • أسست الأعمال السابقة نظرية حد مركزي دالية لتعلم Q المتزامن، لكن تعلم Q المتزامن يأخذ في الاعتبار فقط ضوضاء مارتينجيل
    • أسس Zhang و Xie (2024) نظرية حد مركزي دالية لتعلم Q غير المتزامن بطول خطوة ثابت، لكن طول الخطوة الثابت لا يفي بالشروط الضرورية لإنشاء نظرية حد مركزي غير تقاربية
    • لا توجد حالياً نظرية حد مركزي غير تقاربية لتعلم Q، حتى في الإعدادات المتزامنة

دافع البحث

يعتبر إنشاء نظريات الحد المركزي حاسماً لفهم الخصائص الإحصائية للخوارزمية، وهذه الحالة الطبيعية المقاربة ذات أهمية كبيرة لتحديد الكميات غير المؤكدة والاستدلال الإحصائي في التعلم المعزز.

المساهمات الأساسية

  1. أول نظرية حد مركزي غير تقاربية لتعلم Q: إثبات نظرية حد مركزي غير تقاربية لتعلم Q المتوسط غير المتزامن، بمعدل تقارب O~((SA)1/2K1/6ρ2(1γ)3)\tilde{O}((|S||A|)^{1/2}K^{-1/6}\rho^{-2}(1-\gamma)^{-3})
  2. نظرية حد مركزي دالية: إنشاء نظرية حد مركزي دالية لتعلم Q غير المتزامن بطول خطوة متناقص، يُظهر أن عملية المجاميع الجزئية تتقارب ضعيفاً إلى حركة براونية
  3. علاقات الاعتماد الصريحة: يعكس معدل التقارب بوضوح الاعتماد على عدد التكرارات K وحجم فضاء الحالة-الفعل |S||A| ومعامل الخصم γ وجودة الاستكشاف ρ
  4. الابتكار التقني: حل التحديات التحليلية الناشئة عن عدم الخطية والضوضاء الماركوفية والعاملين غير الملساء

شرح الطريقة

تعريف المهمة

نأخذ في الاعتبار عملية قرار ماركوفية (MDP) بأفق لا نهائي مخصوم M=S,A,P,r,γM = \langle S, A, P, r, \gamma \rangle، حيث:

  • SS: مجموعة الحالات
  • AA: مجموعة الأفعال
  • P:S×AΔSP: S \times A \rightarrow \Delta_S: دالة احتمالية الانتقال
  • γ[0,1)\gamma \in [0,1): معامل الخصم

الهدف هو تعلم دالة Q المثلى Q=maxπQπQ^* = \max_\pi Q^\pi.

خوارزمية تعلم Q غير المتزامن

يحافظ تعلم Q غير المتزامن على مقدّر دالة Q QkQ_k، مع قاعدة التحديث: Qk+1=Qk+αk(FkQk)Q_{k+1} = Q_k + \alpha_k(F_k - Q_k)

حيث:

  • Fk=F(Qk,yk)F_k = F(Q_k, y_k)، yk=(sk,ak,sk+1)y_k = (s_k, a_k, s_{k+1})
  • [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)[F(Q_k, s_k, a_k, s_{k+1})](s,a) = \mathbf{1}_{\{(s_k,a_k)=(s,a)\}}\Gamma(Q_k, s_k, a_k, s_{k+1}) + Q_k(s,a)
  • Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)Qk(sk,ak)\Gamma(Q_k, s_k, a_k, s_{k+1}) = r_k(s_k, a_k) + \gamma\max_a Q_k(s_{k+1}, a) - Q_k(s_k, a_k)

الافتراضات الرئيسية

الافتراض 1: توجد سياسة مثلى π\pi^* بحيث لكل QRS×AQ \in \mathbb{R}^{|S|\times|A|}: (PπPπ)(QQ)LQQ2\|(P^\pi - P^{\pi^*})(Q-Q^*)\|_\infty \leq L\|Q-Q^*\|_2^\infty

الافتراض 2: {yk}k0\{y_k\}_{k \geq 0} سلسلة ماركوف على فضاء حالة محدود غير قابلة للاختزال وغير دورية.

اختيار طول الخطوة

نختار طول خطوة متعدد الحدود αk=α(k+b)β\alpha_k = \alpha(k+b)^{-\beta}، حيث α,b>0\alpha, b > 0، β(0.5,1)\beta \in (0.5, 1).

أسباب هذا الاختيار:

  1. يفي بالشروط الأساسية لمخطط متوسط Polyak-Juditsky
  2. طول الخطوة الثابت ينتهك الشروط (i) و (iii)، وطول الخطوة الخطي ينتهك الشرط (ii)
  3. طول الخطوة متعدد الحدود يفي بجميع الشروط الضرورية

النتائج النظرية الرئيسية

نظرية الحد المركزي غير التقاربية

النظرية 4: تحت الافتراضات 1 و 2، لدينا: W1(K1/2k=1KΔk,N~)(SA)1/2ρ(1γ)2K1/2O~((ρ(1γ))β21β+Kβ/2ρ1(1γ)1+K1β+K1β2ρ1β(1γ)β)W_1\left(K^{-1/2}\sum_{k=1}^K \Delta_k, \tilde{N}\right) \leq \frac{(|S||A|)^{1/2}}{\rho(1-\gamma)^2K^{1/2}} \cdot \tilde{O}\left((\rho(1-\gamma))^{\frac{\beta-2}{1-\beta}} + K^{\beta/2}\rho^{-1}(1-\gamma)^{-1} + K^{1-\beta} + K^{\frac{1-\beta}{2}}\rho^{-1-\beta}(1-\gamma)^{-\beta}\right)

حيث Δk=QkQ\Delta_k = Q_k - Q^*، N~=(A1ΣA)1/2N(0,I)\tilde{N} = (A^{-1}\Sigma A^{-\top})^{1/2}N(0,I).

النتيجة 5: عندما β=2/3\beta = 2/3، يتم تبسيط معدل التقارب إلى: W1(K1/2k=1KΔk,(A1ΣA)1/2N(0,I))O~((SA)1/2K1/6ρ2(1γ)3)W_1\left(K^{-1/2}\sum_{k=1}^K \Delta_k, (A^{-1}\Sigma A^{-\top})^{1/2}N(0,I)\right) \leq \tilde{O}\left(\frac{(|S||A|)^{1/2}}{K^{1/6}\rho^2(1-\gamma)^3}\right)

نظرية الحد المركزي الدالية

النظرية 6: تحت إعدادات النظرية 4، عملية المجاميع الجزئية ΦK(ζ)=K1/2k=1ζKΔk\Phi_K(\zeta) = K^{-1/2}\sum_{k=1}^{\lfloor\zeta K\rfloor}\Delta_k تتقارب ضعيفاً على D[0,1]D[0,1] إلى (A1ΣA)1/2B()(A^{-1}\Sigma A^{-\top})^{1/2}B(\cdot)، حيث B()B(\cdot) هي حركة براونية قياسية.

الابتكار التقني واستراتيجية الإثبات

التحديات التقنية الرئيسية

  1. عدم الخطية: تعلم Q هو SA غير خطي، أكثر تعقيداً من SA الخطي
  2. الضوضاء الماركوفية: يؤدي التحديث غير المتزامن إلى إدخال ضوضاء ماركوفية غير مستقلة وموزعة بشكل متطابق
  3. العاملين غير الملساء: عامل Bellman التجريبي في تعلم Q غير المتزامن غير أملس

استراتيجية الإثبات

  1. تقنية الحدود العليا والدنيا: من خلال إدخال تسلسل الحد الأعلى Δk\Delta_k^{\uparrow} وتسلسل الحد الأدنى Δk\Delta_k^{\downarrow}، استخدام نظرية الضغط
  2. تحليل الحدود: تحليل k=1KΔk\sum_{k=1}^K \Delta_k إلى 6 حدود:
    • الحد (1): حد الخطأ الأولي
    • الحد (2): حد الخطأ غير الخطي
    • الحد (3): حد الضوضاء الماركوفية
    • الحد (4-5): حدود التصحيح من الدرجة الأعلى
    • الحد (6): تسلسل الفروقات المارتينجيل
  3. تقنية معادلة Poisson: تحويل الضوضاء الماركوفية إلى تسلسل فروقات مارتينجيل
  4. نظرية حد مركزي مارتينجيل: تطبيق نظرية حد مركزي مارتينجيل غير التقاربية لـ Srikant (2024)

الأعمال ذات الصلة

نظرية التقريب العشوائي

  • Polyak و Juditsky (1992): تقنية تقليل التباين بالمتوسط الكلاسيكية
  • Anastasiou وآخرون (2019): نظرية حد مركزي غير تقاربية لـ SGD المتوسط Polyak-Ruppert
  • Mou وآخرون (2020): نظرية حد مركزي غير تقاربية لـ SA الخطي

نظريات الحد المركزي في التعلم المعزز

  • Xie و Zhang (2022)، Li وآخرون (2023): نظرية حد مركزي دالية لتعلم Q المتزامن
  • Zhang و Xie (2024): نظرية حد مركزي دالية لتعلم Q غير المتزامن بطول خطوة ثابت
  • Srikant (2024)، Samsonov وآخرون (2024): نظرية حد مركزي غير تقاربية لتعلم TD

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. إنشاء أول نظرية حد مركزي غير تقاربية لتعلم Q، مع معدل تقارب يعتمد بوضوح على معاملات المشكلة
  2. إثبات التقارب الضعيف لعملية المجاميع الجزئية لتعلم Q غير المتزامن
  3. توفير أساس نظري لتحديد الكميات غير المؤكدة في التعلم المعزز

القيود

  1. يتطلب افتراضات Lipschitz قوية نسبياً (الافتراض 1)
  2. يأخذ في الاعتبار فقط فضاء الحالة-الفعل المحدود
  3. قد لا يكون معدل التقارب أمثلياً

الاتجاهات المستقبلية

  1. تحسين معدل التقارب
  2. التوسع إلى مقاييس أخرى بخلاف مسافة Wasserstein-1
  3. النظر في إعدادات التقريب الدالي

التقييم المتعمق

المميزات

  1. مساهمة نظرية كبيرة: إنشاء أول نظرية حد مركزي غير تقاربية لتعلم Q، ملء فجوة نظرية مهمة
  2. ابتكار تقني: دمج ماهر لتقنيات الحدود العليا والدنيا ومعادلة Poisson ونظرية حد مركزي مارتينجيل لحل التحديات التقنية
  3. نتائج شاملة: توفير نظريات حد مركزي غير تقاربية ودالية في نفس الوقت
  4. علاقات اعتماد واضحة: يعكس معدل التقارب بوضوح تأثير كل معامل

أوجه القصور

  1. افتراضات قوية: قد يكون افتراض Lipschitz صعب التحقق منه في الممارسة العملية
  2. معدل التقارب: معدل التقارب K1/6K^{-1/6} بطيء نسبياً
  3. فضاء حالة محدود: لم يتم النظر في فضاء الحالة المستمر أو التقريب الدالي

القيمة التأثيرية

  1. القيمة النظرية: توفير أدوات ورؤى جديدة لتحليل نظرية تعلم Q
  2. الأهمية العملية: وضع أساس نظري لتحديد الكميات غير المؤكدة وبناء فترات الثقة في خوارزميات التعلم المعزز
  3. المنهجية: يمكن تعميم تقنيات الإثبات على مشاكل SA غير الخطية الأخرى

السيناريوهات المعمول بها

  1. التحليل النظري لمشاكل التعلم المعزز من نوع الجداول
  2. دراسة التقارب لخوارزميات التحديث غير المتزامن
  3. الاستدلال الإحصائي وبناء فترات الثقة في التعلم المعزز

المراجع

  • Polyak, B. T. و Juditsky, A. B. (1992). تسريع التقريب العشوائي بالمتوسط.
  • Xie, C. و Zhang, Z. (2022). نهج استدلال إحصائي عبر الإنترنت في التقريب العشوائي المتوسط.
  • Zhang, Y. و Xie, Q. (2024). تعلم Q بطول خطوة ثابت: التقارب التوزيعي والانحياز والاستقراء.