This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We prove a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.
- معرّف الورقة: 2509.18964
- العنوان: Central Limit Theorems for Asynchronous Averaged Q-Learning
- المؤلف: Xingtu Liu (جامعة Simon Fraser)
- التصنيف: cs.LG math.OC stat.ML
- المؤتمر المنشور: OPT2025: ورشة العمل السنوية السابعة عشرة حول التحسين في التعلم الآلي
- رابط الورقة: https://arxiv.org/abs/2509.18964
تؤسس هذه الورقة نظريات الحد المركزي لتعلم Q المتوسط Polyak-Ruppert تحت التحديثات غير المتزامنة. تثبت الورقة نظرية حد مركزي غير تقاربية، حيث يعكس معدل التقارب في مسافة Wasserstein بوضوح الاعتماد على عدد التكرارات وحجم فضاء الحالة-الفعل ومعامل الخصم وجودة الاستكشاف. علاوة على ذلك، يتم اشتقاق نظرية حد مركزي دالية، مما يدل على أن عملية المجاميع الجزئية تتقارب ضعيفاً إلى حركة براونية.
- أهمية تعلم Q: يعتبر تعلم Q أحد أكثر الخوارزميات استخداماً على نطاق واسع في التعلم المعزز، حيث يتعلم مباشرة من مسارات التجربة دالة القيمة المثلى للفعل، وقد حقق نجاحاً هائلاً في ألعاب Atari والشطرنج وتشغيل الروبوتات ومحاذاة نماذج اللغة الكبيرة.
- تحديات التحليل النظري:
- يمكن تفسير تعلم Q كحالة من التقريب العشوائي (SA)، لكن تعلم Q غير المتزامن هو مشكلة SA غير خطية مع ضوضاء ماركوفية
- مقارنة بـ SA الخطي وتعلم الفرق الزمني (TD)، يكون تحليل تعلم Q أكثر تحدياً بسبب طبيعته غير الخطية والعاملين غير الملساء والعمليات غير الثابتة
- يؤدي التحديث غير المتزامن إلى إدخال ضوضاء ماركوفية إضافية، مما يزيد من تعقيد التحليل
- قيود الأعمال الموجودة:
- أسست الأعمال السابقة نظرية حد مركزي دالية لتعلم Q المتزامن، لكن تعلم Q المتزامن يأخذ في الاعتبار فقط ضوضاء مارتينجيل
- أسس Zhang و Xie (2024) نظرية حد مركزي دالية لتعلم Q غير المتزامن بطول خطوة ثابت، لكن طول الخطوة الثابت لا يفي بالشروط الضرورية لإنشاء نظرية حد مركزي غير تقاربية
- لا توجد حالياً نظرية حد مركزي غير تقاربية لتعلم Q، حتى في الإعدادات المتزامنة
يعتبر إنشاء نظريات الحد المركزي حاسماً لفهم الخصائص الإحصائية للخوارزمية، وهذه الحالة الطبيعية المقاربة ذات أهمية كبيرة لتحديد الكميات غير المؤكدة والاستدلال الإحصائي في التعلم المعزز.
- أول نظرية حد مركزي غير تقاربية لتعلم Q: إثبات نظرية حد مركزي غير تقاربية لتعلم Q المتوسط غير المتزامن، بمعدل تقارب O~((∣S∣∣A∣)1/2K−1/6ρ−2(1−γ)−3)
- نظرية حد مركزي دالية: إنشاء نظرية حد مركزي دالية لتعلم Q غير المتزامن بطول خطوة متناقص، يُظهر أن عملية المجاميع الجزئية تتقارب ضعيفاً إلى حركة براونية
- علاقات الاعتماد الصريحة: يعكس معدل التقارب بوضوح الاعتماد على عدد التكرارات K وحجم فضاء الحالة-الفعل |S||A| ومعامل الخصم γ وجودة الاستكشاف ρ
- الابتكار التقني: حل التحديات التحليلية الناشئة عن عدم الخطية والضوضاء الماركوفية والعاملين غير الملساء
نأخذ في الاعتبار عملية قرار ماركوفية (MDP) بأفق لا نهائي مخصوم M=⟨S,A,P,r,γ⟩، حيث:
- S: مجموعة الحالات
- A: مجموعة الأفعال
- P:S×A→ΔS: دالة احتمالية الانتقال
- γ∈[0,1): معامل الخصم
الهدف هو تعلم دالة Q المثلى Q∗=maxπQπ.
يحافظ تعلم Q غير المتزامن على مقدّر دالة Q Qk، مع قاعدة التحديث:
Qk+1=Qk+αk(Fk−Qk)
حيث:
- Fk=F(Qk,yk)، yk=(sk,ak,sk+1)
- [F(Qk,sk,ak,sk+1)](s,a)=1{(sk,ak)=(s,a)}Γ(Qk,sk,ak,sk+1)+Qk(s,a)
- Γ(Qk,sk,ak,sk+1)=rk(sk,ak)+γmaxaQk(sk+1,a)−Qk(sk,ak)
الافتراض 1: توجد سياسة مثلى π∗ بحيث لكل Q∈R∣S∣×∣A∣:
∥(Pπ−Pπ∗)(Q−Q∗)∥∞≤L∥Q−Q∗∥2∞
الافتراض 2: {yk}k≥0 سلسلة ماركوف على فضاء حالة محدود غير قابلة للاختزال وغير دورية.
نختار طول خطوة متعدد الحدود αk=α(k+b)−β، حيث α,b>0، β∈(0.5,1).
أسباب هذا الاختيار:
- يفي بالشروط الأساسية لمخطط متوسط Polyak-Juditsky
- طول الخطوة الثابت ينتهك الشروط (i) و (iii)، وطول الخطوة الخطي ينتهك الشرط (ii)
- طول الخطوة متعدد الحدود يفي بجميع الشروط الضرورية
النظرية 4: تحت الافتراضات 1 و 2، لدينا:
W1(K−1/2∑k=1KΔk,N~)≤ρ(1−γ)2K1/2(∣S∣∣A∣)1/2⋅O~((ρ(1−γ))1−ββ−2+Kβ/2ρ−1(1−γ)−1+K1−β+K21−βρ−1−β(1−γ)−β)
حيث Δk=Qk−Q∗، N~=(A−1ΣA−⊤)1/2N(0,I).
النتيجة 5: عندما β=2/3، يتم تبسيط معدل التقارب إلى:
W1(K−1/2∑k=1KΔk,(A−1ΣA−⊤)1/2N(0,I))≤O~(K1/6ρ2(1−γ)3(∣S∣∣A∣)1/2)
النظرية 6: تحت إعدادات النظرية 4، عملية المجاميع الجزئية ΦK(ζ)=K−1/2∑k=1⌊ζK⌋Δk تتقارب ضعيفاً على D[0,1] إلى (A−1ΣA−⊤)1/2B(⋅)، حيث B(⋅) هي حركة براونية قياسية.
- عدم الخطية: تعلم Q هو SA غير خطي، أكثر تعقيداً من SA الخطي
- الضوضاء الماركوفية: يؤدي التحديث غير المتزامن إلى إدخال ضوضاء ماركوفية غير مستقلة وموزعة بشكل متطابق
- العاملين غير الملساء: عامل Bellman التجريبي في تعلم Q غير المتزامن غير أملس
- تقنية الحدود العليا والدنيا: من خلال إدخال تسلسل الحد الأعلى Δk↑ وتسلسل الحد الأدنى Δk↓، استخدام نظرية الضغط
- تحليل الحدود: تحليل ∑k=1KΔk إلى 6 حدود:
- الحد (1): حد الخطأ الأولي
- الحد (2): حد الخطأ غير الخطي
- الحد (3): حد الضوضاء الماركوفية
- الحد (4-5): حدود التصحيح من الدرجة الأعلى
- الحد (6): تسلسل الفروقات المارتينجيل
- تقنية معادلة Poisson: تحويل الضوضاء الماركوفية إلى تسلسل فروقات مارتينجيل
- نظرية حد مركزي مارتينجيل: تطبيق نظرية حد مركزي مارتينجيل غير التقاربية لـ Srikant (2024)
- Polyak و Juditsky (1992): تقنية تقليل التباين بالمتوسط الكلاسيكية
- Anastasiou وآخرون (2019): نظرية حد مركزي غير تقاربية لـ SGD المتوسط Polyak-Ruppert
- Mou وآخرون (2020): نظرية حد مركزي غير تقاربية لـ SA الخطي
- Xie و Zhang (2022)، Li وآخرون (2023): نظرية حد مركزي دالية لتعلم Q المتزامن
- Zhang و Xie (2024): نظرية حد مركزي دالية لتعلم Q غير المتزامن بطول خطوة ثابت
- Srikant (2024)، Samsonov وآخرون (2024): نظرية حد مركزي غير تقاربية لتعلم TD
- إنشاء أول نظرية حد مركزي غير تقاربية لتعلم Q، مع معدل تقارب يعتمد بوضوح على معاملات المشكلة
- إثبات التقارب الضعيف لعملية المجاميع الجزئية لتعلم Q غير المتزامن
- توفير أساس نظري لتحديد الكميات غير المؤكدة في التعلم المعزز
- يتطلب افتراضات Lipschitz قوية نسبياً (الافتراض 1)
- يأخذ في الاعتبار فقط فضاء الحالة-الفعل المحدود
- قد لا يكون معدل التقارب أمثلياً
- تحسين معدل التقارب
- التوسع إلى مقاييس أخرى بخلاف مسافة Wasserstein-1
- النظر في إعدادات التقريب الدالي
- مساهمة نظرية كبيرة: إنشاء أول نظرية حد مركزي غير تقاربية لتعلم Q، ملء فجوة نظرية مهمة
- ابتكار تقني: دمج ماهر لتقنيات الحدود العليا والدنيا ومعادلة Poisson ونظرية حد مركزي مارتينجيل لحل التحديات التقنية
- نتائج شاملة: توفير نظريات حد مركزي غير تقاربية ودالية في نفس الوقت
- علاقات اعتماد واضحة: يعكس معدل التقارب بوضوح تأثير كل معامل
- افتراضات قوية: قد يكون افتراض Lipschitz صعب التحقق منه في الممارسة العملية
- معدل التقارب: معدل التقارب K−1/6 بطيء نسبياً
- فضاء حالة محدود: لم يتم النظر في فضاء الحالة المستمر أو التقريب الدالي
- القيمة النظرية: توفير أدوات ورؤى جديدة لتحليل نظرية تعلم Q
- الأهمية العملية: وضع أساس نظري لتحديد الكميات غير المؤكدة وبناء فترات الثقة في خوارزميات التعلم المعزز
- المنهجية: يمكن تعميم تقنيات الإثبات على مشاكل SA غير الخطية الأخرى
- التحليل النظري لمشاكل التعلم المعزز من نوع الجداول
- دراسة التقارب لخوارزميات التحديث غير المتزامن
- الاستدلال الإحصائي وبناء فترات الثقة في التعلم المعزز
- Polyak, B. T. و Juditsky, A. B. (1992). تسريع التقريب العشوائي بالمتوسط.
- Xie, C. و Zhang, Z. (2022). نهج استدلال إحصائي عبر الإنترنت في التقريب العشوائي المتوسط.
- Zhang, Y. و Xie, Q. (2024). تعلم Q بطول خطوة ثابت: التقارب التوزيعي والانحياز والاستقراء.