2025-11-15T16:40:12.095592

Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation

Butyrin, Moulines, Naumov et al.
In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
academic

نظرية الحد المركزي المحسّنة وتقريبات التمهيد الإحصائي للتقريب العشوائي الخطي

المعلومات الأساسية

  • معرّف الورقة: 2510.12375
  • العنوان: Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximation
  • المؤلفون: Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhang
  • التصنيفات: stat.ML cs.LG math.OC math.PR math.ST stat.TH
  • تاريخ النشر: 15 أكتوبر 2025 (مسودة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2510.12375

الملخص

تحسّن هذه الورقة حدود Berry-Esseen للتقريب الطبيعي متعدد المتغيرات لمتوسط تكرارات Polyak-Ruppert في خوارزميات التقريب العشوائي الخطي (LSA). تدرس الدراسة التقريب الطبيعي الغاوسي لمصفوفة التباين المتنبأ بها من قبل نظرية الحد المركزي لـ Polyak-Juditsky، وتثبت معدل تقارب من الرتبة n1/3n^{-1/3} بمعنى المسافة المحدبة، حيث nn هو عدد العينات المستخدمة من قبل الخوارزمية. كما تثبت الدراسة الفعالية غير المقاربة لإجراء التمهيد الإحصائي متعدد الحدود لتقريب توزيع الأخطاء المعاد تحجيمها لمقدّر LSA المتوسط، مع إثبات معدل تقريب من الرتبة 1/n1/\sqrt{n}، مما يحسّن بشكل كبير النتائج السابقة لـ Samsonov وآخرين (2024).

خلفية البحث والدافع

خلفية المشكلة

خوارزمية التقريب العشوائي الخطي (LSA) هي طريقة أساسية في الإحصاء والتعلم الآلي، تُستخدم لتقريب الحل الفريد للمعادلة الخطية Aˉθ=bˉ\bar{A}\theta^* = \bar{b}، حيث AˉRd×d\bar{A} \in \mathbb{R}^{d \times d} مصفوفة غير منحلة. تعتمد الخوارزمية على تسلسل الملاحظات {(A(Zk),b(Zk))}kN\{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}} للتحديث التكراري.

التحديات الأساسية

  1. دقة التقريب التوزيعي: نتائج التقريب الطبيعي الحالية لها معدل تقارب بطيء، مما يحد من دقة بناء فترات الثقة في التطبيقات العملية
  2. تقدير مصفوفة التباين: مصفوفة التباين المقارب Σ\Sigma_\infty غير معروفة في الممارسة العملية، وتتطلب طرقاً فعالة للتقدير والتقريب
  3. فعالية التمهيد الإحصائي: تواجه طرق التمهيد الإحصائي التقليدية تحديات نظرية وعملية في خوارزميات التعلم عبر الإنترنت

دافع البحث

  • تحسين تحليل معدل التقارب لنظرية الحد المركزي في خوارزميات LSA
  • تطوير طرق أكثر دقة لبناء فترات ثقة التمهيد الإحصائي
  • توفير دعم نظري لتطبيقات مثل تعلم الفرق الزمني (TD) في التعلم المعزز

المساهمات الأساسية

  1. حدود العزوم المحسّنة: إثبات حدود عزوم عليا لـ n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*)، للحصول على p2p \geq 2: E1/p[θˉnθp]pTrΣn+p3/2n5/6E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}}
  2. تحسين حدود Berry-Esseen: إثبات معدل تقريب طبيعي من الرتبة n1/3n^{-1/3} بمعنى المسافة المحدبة، محسّناً من النتيجة السابقة n1/4n^{-1/4}
  3. تحليل غير مقارب لتمهيد متعدد الحدود: إثبات فعالية إجراء التمهيد الإحصائي بمعدل تقريب يصل إلى n1/2n^{-1/2}، متفوقاً بشكل كبير على النتائج الموجودة
  4. الابتكار التقني: من خلال اختيار مصفوفة التباين المناسبة Σn\Sigma_n بدلاً من Σ\Sigma_\infty للتقريب، تجنب الخطوات المباشرة للمقارنة الغاوسية

شرح الطريقة

تعريف المهمة

النظر في تكرار LSA: θk=θk1αk(A(Zk)θk1b(Zk)),k1\theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1θˉn=n1k=0n1θk,n1\bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1

الهدف هو تحليل خصائص التقريب التوزيعي لـ n(θˉnθ)\sqrt{n}(\bar{\theta}_n - \theta^*).

الإطار التقني الأساسي

1. تقنية تحليل الأخطاء

تحليل خطأ LSA إلى حدود انتقالية وحدود تذبذب: θkθ=θ~k(tr)+θ~k(fl)\theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} حيث:

  • θ~k(tr)=Γ1:k(θ0θ)\tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) (الحد الانتقالي)
  • θ~k(fl)==1kαΓ+1:kε\tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell (حد التذبذب)

2. طريقة التوسع بالاضطراب

تحليل إضافي لحد التذبذب: θ~k(fl)=Jk(0)+Hk(0)\tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)} حيث Jk(0)J_k^{(0)} هو الحد الخطي السائد، و Hk(0)H_k^{(0)} هو الحد المتبقي من الرتبة الأعلى.

3. عدم المساواة في التركيز العشوائي

تطبيق إطار Shao-Zhang، تمثيل الإحصائية كـ: nΣn1/2(θˉnθ)=W+D\sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D حيث WW إحصائية خطية، و DD حد متبقي غير خطي.

استراتيجية اختيار حجم الخطوة

استخدام حجم خطوة متناقص متعدد الحدود: αk=c0(k+k0)γ,γ(1/2,1)\alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1)

الاكتشاف الرئيسي: معدل التقارب الأمثل يتحقق عند γ=2/3\gamma = 2/3.

إعداد التجارب

إطار التحقق النظري

الورقة في المقام الأول تحليل نظري، يتم التحقق من النتائج من خلال:

  1. الشروط المفروضة:
    • A1: تسلسل ملاحظات مستقل وموزع بشكل متطابق
    • A2: شروط مصفوفة Hurwitz والضوضاء المحدودة
    • A3: شروط حجم الخطوة
    • A4-A5: حجم العينة والشروط التقنية
  2. سيناريوهات التطبيق: خوارزمية تعلم الفرق الزمني (TD) كحالة خاصة مهمة

مؤشرات التقييم

  • المسافة المحدبة: ρConv(μ,ν)=supBConv(Rd)μ(B)ν(B)\rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)|
  • معدل التقارب: دقة التقريب معبراً عنها بقوى nn

نتائج التجارب

النتائج النظرية الرئيسية

النظرية 1: حدود العزوم

تحت الافتراضات المناسبة، لـ p2p \geq 2: E1/p[θˉnθp]C1,1pTrΣnn+Δ(fl)(n,p,γ)+C1,5θ0θnE^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n}

النظرية 2: التقريب الغاوسي

ρConv(n(θˉnθ),Σn1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n}

النظرية 3: التقريب المقارب

ρConv(n(θˉnθ),Σ1/2η)C2,1n+C2,2nγ/2+C2,3ϕn+C2,4θ0θn+C3n1γ\rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}}

النظرية 4: تقريب التمهيد الإحصائي

باحتمالية 11/n1-1/n: supBConv(Rd)Pb(n(θˉnbθˉn)B)P(n(θˉnθ)B)C4θ0θ+Δ4,1n+Δ4,2nγ/2+Δ4,3ϕn+Δ4,4n\sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n}

مقارنة معدلات التقارب

الطريقةمعدل التقاربالمرجع
هذه الورقة (Berry-Esseen)n1/3n^{-1/3}-
Samsonov et al. (2024)n1/4n^{-1/4}41
هذه الورقة (التمهيد الإحصائي)n1/2n^{-1/2}-
Wu et al. (2024) TDn1/3n^{-1/3}54

الأعمال ذات الصلة

تطور نظرية LSA

  • النظرية المقاربة: Polyak & Juditsky (1992) أسسا الحالة الطبيعية المقاربة الأساسية
  • التحليل غير المقارب: Durmus et al. (2021, 2025) وآخرون قدموا حدود العينة المحدودة
  • التقريب الطبيعي: Anastasiou et al. (2019) استخدموا طريقة Stein

طرق التمهيد الإحصائي

  • التمهيد الإحصائي الكلاسيكي: العمل الرائد لـ Efron (1992)
  • تمهيد متعدد الحدود: Fang et al. (2018) للتمهيد الإحصائي عبر الإنترنت لـ SGD
  • التحليل النظري: نظرية Chernozhukov et al. (2013, 2017) عالية الأبعاد

الأدوات التقنية

  • منتجات المصفوفات العشوائية: عدم المساواة في التركيز لـ Huang et al. (2021)
  • الإحصائيات غير الخطية: طريقة التركيز العشوائي لـ Shao & Zhang (2022)

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. معدل التقارب الأمثل: تحقيق حد Berry-Esseen من الرتبة n1/3n^{-1/3} بمعنى المسافة المحدبة، وهو أمثل في إعداد LSA
  2. تحسين التمهيد الإحصائي: معدل تقريب التمهيد الإحصائي يصل إلى n1/2n^{-1/2}، متفوقاً بشكل كبير على النتيجة الموجودة n1/4n^{-1/4}
  3. اختراق تقني: من خلال اختيار Σn\Sigma_n بدلاً من Σ\Sigma_\infty كمصفوفة التباين للتقريب، تجنب العقبات التقنية

القيود

  1. افتراض الاستقلالية: تأخذ في الاعتبار فقط الضوضاء المستقلة والموزعة بشكل متطابق، وتترك حالة ضوضاء Markov للعمل المستقبلي
  2. قيود حجم الخطوة: تتطلب شكلاً محدداً من حجم الخطوة المتناقص متعدد الحدود
  3. الاعتماد على البعد: الثوابت تتضمن حدود تعتمد على البعد، وقد تكون كبيرة في الحالات عالية الأبعاد

الاتجاهات المستقبلية

  1. التوسع إلى Markov: تعميم النتائج على إعدادات ضوضاء Markov
  2. حدود مطابقة: إثبات حدود مطابقة في الفترة γ(1/2,2/3)\gamma \in (1/2, 2/3)
  3. التطبيقات العملية: التحقق من التنبؤات النظرية في مشاكل التعلم المعزز والتحسين المحددة

التقييم المتعمق

المزايا

  1. العمق النظري: توفير أدق تحليل معدل تقارب في مجال LSA، مع صعوبة تقنية عالية
  2. الابتكار الطريقة: اختيار ذكي لمصفوفة التباين للتقريب، يتجاوز حدود الطرق الموجودة
  3. النتائج الأمثلة: تحقيق عدة نتائج حدود أمثلة أو قريبة من الحد الأمثل
  4. تقنيات الإثبات: دمج أدوات احتمالية متقدمة متعددة، مع مسار تقني واضح

أوجه القصور

  1. التحقق التجريبي: كورقة نظرية بحتة، تفتقد التجارب العددية للتحقق من التنبؤات النظرية
  2. التطبيق العملي: الثوابت معقدة الاعتماد، وقد تتطلب الأداء الفعلي في التطبيقات مزيداً من البحث
  3. نطاق التطبيق: الشروط المفروضة قوية نسبياً، وقد يكون التطبيق في المشاكل الفعلية محدوداً

التأثير المتوقع

  1. القيمة الأكاديمية: توفير تقدم مهم لنظرية التقريب العشوائي، متوقع أن يتم الاستشهاد به على نطاق واسع
  2. آفاق التطبيق: توفير أساس نظري لمجالات مثل التعلم المعزز والتحسين عبر الإنترنت
  3. المساهمة المنهجية: قد تلهم الطرق التقنية البحث في مشاكل إحصائية غير خطية أخرى

السيناريوهات المناسبة

  • تقييم السياسة في التعلم المعزز (تعلم الفرق الزمني)
  • تحليل خوارزميات التحسين المحدب عبر الإنترنت
  • مشاكل الاستدلال الإحصائي التي تتطلب فترات ثقة دقيقة
  • التحليل النظري للتعلم الآلي واسع النطاق

المراجع

  1. Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization.
  2. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli.
  3. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research.
  4. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.