In this paper, we refine the Berry-Esseen bounds for the multivariate normal approximation of Polyak-Ruppert averaged iterates arising from the linear stochastic approximation (LSA) algorithm with decreasing step size. We consider the normal approximation by the Gaussian distribution with covariance matrix predicted by the Polyak-Juditsky central limit theorem and establish the rate up to order $n^{-1/3}$ in convex distance, where $n$ is the number of samples used in the algorithm. We also prove a non-asymptotic validity of the multiplier bootstrap procedure for approximating the distribution of the rescaled error of the averaged LSA estimator. We establish approximation rates of order up to $1/\sqrt{n}$ for the latter distribution, which significantly improves upon the previous results obtained by Samsonov et al. (2024).
معرّف الورقة : 2510.12375العنوان : Improved Central Limit Theorem and Bootstrap Approximations for Linear Stochastic Approximationالمؤلفون : Bogdan Butyrin, Eric Moulines, Alexey Naumov, Sergey Samsonov, Qi-Man Shao, Zhuo-Song Zhangالتصنيفات : stat.ML cs.LG math.OC math.PR math.ST stat.THتاريخ النشر : 15 أكتوبر 2025 (مسودة arXiv)رابط الورقة : https://arxiv.org/abs/2510.12375 تحسّن هذه الورقة حدود Berry-Esseen للتقريب الطبيعي متعدد المتغيرات لمتوسط تكرارات Polyak-Ruppert في خوارزميات التقريب العشوائي الخطي (LSA). تدرس الدراسة التقريب الطبيعي الغاوسي لمصفوفة التباين المتنبأ بها من قبل نظرية الحد المركزي لـ Polyak-Juditsky، وتثبت معدل تقارب من الرتبة n − 1 / 3 n^{-1/3} n − 1/3 بمعنى المسافة المحدبة، حيث n n n هو عدد العينات المستخدمة من قبل الخوارزمية. كما تثبت الدراسة الفعالية غير المقاربة لإجراء التمهيد الإحصائي متعدد الحدود لتقريب توزيع الأخطاء المعاد تحجيمها لمقدّر LSA المتوسط، مع إثبات معدل تقريب من الرتبة 1 / n 1/\sqrt{n} 1/ n ، مما يحسّن بشكل كبير النتائج السابقة لـ Samsonov وآخرين (2024).
خوارزمية التقريب العشوائي الخطي (LSA) هي طريقة أساسية في الإحصاء والتعلم الآلي، تُستخدم لتقريب الحل الفريد للمعادلة الخطية A ˉ θ ∗ = b ˉ \bar{A}\theta^* = \bar{b} A ˉ θ ∗ = b ˉ ، حيث A ˉ ∈ R d × d \bar{A} \in \mathbb{R}^{d \times d} A ˉ ∈ R d × d مصفوفة غير منحلة. تعتمد الخوارزمية على تسلسل الملاحظات { ( A ( Z k ) , b ( Z k ) ) } k ∈ N \{(A(Z_k), b(Z_k))\}_{k \in \mathbb{N}} {( A ( Z k ) , b ( Z k )) } k ∈ N للتحديث التكراري.
دقة التقريب التوزيعي : نتائج التقريب الطبيعي الحالية لها معدل تقارب بطيء، مما يحد من دقة بناء فترات الثقة في التطبيقات العمليةتقدير مصفوفة التباين : مصفوفة التباين المقارب Σ ∞ \Sigma_\infty Σ ∞ غير معروفة في الممارسة العملية، وتتطلب طرقاً فعالة للتقدير والتقريبفعالية التمهيد الإحصائي : تواجه طرق التمهيد الإحصائي التقليدية تحديات نظرية وعملية في خوارزميات التعلم عبر الإنترنتتحسين تحليل معدل التقارب لنظرية الحد المركزي في خوارزميات LSA تطوير طرق أكثر دقة لبناء فترات ثقة التمهيد الإحصائي توفير دعم نظري لتطبيقات مثل تعلم الفرق الزمني (TD) في التعلم المعزز حدود العزوم المحسّنة : إثبات حدود عزوم عليا لـ n ( θ ˉ n − θ ∗ ) \sqrt{n}(\bar{\theta}_n - \theta^*) n ( θ ˉ n − θ ∗ ) ، للحصول على p ≥ 2 p \geq 2 p ≥ 2 :
E 1 / p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≲ p Tr Σ ∞ n + p 3 / 2 n 5 / 6 E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \lesssim \frac{\sqrt{p}\sqrt{\text{Tr}\Sigma_\infty}}{\sqrt{n}} + \frac{p^{3/2}}{n^{5/6}} E 1/ p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≲ n p Tr Σ ∞ + n 5/6 p 3/2 تحسين حدود Berry-Esseen : إثبات معدل تقريب طبيعي من الرتبة n − 1 / 3 n^{-1/3} n − 1/3 بمعنى المسافة المحدبة، محسّناً من النتيجة السابقة n − 1 / 4 n^{-1/4} n − 1/4 تحليل غير مقارب لتمهيد متعدد الحدود : إثبات فعالية إجراء التمهيد الإحصائي بمعدل تقريب يصل إلى n − 1 / 2 n^{-1/2} n − 1/2 ، متفوقاً بشكل كبير على النتائج الموجودةالابتكار التقني : من خلال اختيار مصفوفة التباين المناسبة Σ n \Sigma_n Σ n بدلاً من Σ ∞ \Sigma_\infty Σ ∞ للتقريب، تجنب الخطوات المباشرة للمقارنة الغاوسيةالنظر في تكرار LSA:
θ k = θ k − 1 − α k ( A ( Z k ) θ k − 1 − b ( Z k ) ) , k ≥ 1 \theta_k = \theta_{k-1} - \alpha_k(A(Z_k)\theta_{k-1} - b(Z_k)), \quad k \geq 1 θ k = θ k − 1 − α k ( A ( Z k ) θ k − 1 − b ( Z k )) , k ≥ 1 θ ˉ n = n − 1 ∑ k = 0 n − 1 θ k , n ≥ 1 \bar{\theta}_n = n^{-1}\sum_{k=0}^{n-1}\theta_k, \quad n \geq 1 θ ˉ n = n − 1 ∑ k = 0 n − 1 θ k , n ≥ 1
الهدف هو تحليل خصائص التقريب التوزيعي لـ n ( θ ˉ n − θ ∗ ) \sqrt{n}(\bar{\theta}_n - \theta^*) n ( θ ˉ n − θ ∗ ) .
تحليل خطأ LSA إلى حدود انتقالية وحدود تذبذب:
θ k − θ ∗ = θ ~ k ( t r ) + θ ~ k ( f l ) \theta_k - \theta^* = \tilde{\theta}_k^{(tr)} + \tilde{\theta}_k^{(fl)} θ k − θ ∗ = θ ~ k ( t r ) + θ ~ k ( f l )
حيث:
θ ~ k ( t r ) = Γ 1 : k ( θ 0 − θ ∗ ) \tilde{\theta}_k^{(tr)} = \Gamma_{1:k}(\theta_0 - \theta^*) θ ~ k ( t r ) = Γ 1 : k ( θ 0 − θ ∗ ) (الحد الانتقالي)θ ~ k ( f l ) = − ∑ ℓ = 1 k α ℓ Γ ℓ + 1 : k ε ℓ \tilde{\theta}_k^{(fl)} = -\sum_{\ell=1}^k \alpha_\ell \Gamma_{\ell+1:k}\varepsilon_\ell θ ~ k ( f l ) = − ∑ ℓ = 1 k α ℓ Γ ℓ + 1 : k ε ℓ (حد التذبذب)تحليل إضافي لحد التذبذب:
θ ~ k ( f l ) = J k ( 0 ) + H k ( 0 ) \tilde{\theta}_k^{(fl)} = J_k^{(0)} + H_k^{(0)} θ ~ k ( f l ) = J k ( 0 ) + H k ( 0 )
حيث J k ( 0 ) J_k^{(0)} J k ( 0 ) هو الحد الخطي السائد، و H k ( 0 ) H_k^{(0)} H k ( 0 ) هو الحد المتبقي من الرتبة الأعلى.
تطبيق إطار Shao-Zhang، تمثيل الإحصائية كـ:
n Σ n − 1 / 2 ( θ ˉ n − θ ∗ ) = W + D \sqrt{n}\Sigma_n^{-1/2}(\bar{\theta}_n - \theta^*) = W + D n Σ n − 1/2 ( θ ˉ n − θ ∗ ) = W + D
حيث W W W إحصائية خطية، و D D D حد متبقي غير خطي.
استخدام حجم خطوة متناقص متعدد الحدود:
α k = c 0 ( k + k 0 ) γ , γ ∈ ( 1 / 2 , 1 ) \alpha_k = \frac{c_0}{(k + k_0)^\gamma}, \quad \gamma \in (1/2, 1) α k = ( k + k 0 ) γ c 0 , γ ∈ ( 1/2 , 1 )
الاكتشاف الرئيسي: معدل التقارب الأمثل يتحقق عند γ = 2 / 3 \gamma = 2/3 γ = 2/3 .
الورقة في المقام الأول تحليل نظري، يتم التحقق من النتائج من خلال:
الشروط المفروضة :A1: تسلسل ملاحظات مستقل وموزع بشكل متطابق A2: شروط مصفوفة Hurwitz والضوضاء المحدودة A3: شروط حجم الخطوة A4-A5: حجم العينة والشروط التقنية سيناريوهات التطبيق : خوارزمية تعلم الفرق الزمني (TD) كحالة خاصة مهمةالمسافة المحدبة : ρ C o n v ( μ , ν ) = sup B ∈ C o n v ( R d ) ∣ μ ( B ) − ν ( B ) ∣ \rho_{Conv}(\mu, \nu) = \sup_{B \in Conv(\mathbb{R}^d)}|\mu(B) - \nu(B)| ρ C o n v ( μ , ν ) = sup B ∈ C o n v ( R d ) ∣ μ ( B ) − ν ( B ) ∣ معدل التقارب : دقة التقريب معبراً عنها بقوى n n n تحت الافتراضات المناسبة، لـ p ≥ 2 p \geq 2 p ≥ 2 :
E 1 / p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≤ C 1 , 1 p Tr Σ n n + Δ ( f l ) ( n , p , γ ) + C 1 , 5 ∥ θ 0 − θ ∗ ∥ n E^{1/p}[\|\bar{\theta}_n - \theta^*\|^p] \leq \frac{C_{1,1}\sqrt{p}\sqrt{\text{Tr}\Sigma_n}}{\sqrt{n}} + \Delta^{(fl)}(n,p,\gamma) + \frac{C_{1,5}\|\theta_0 - \theta^*\|}{n} E 1/ p [ ∥ θ ˉ n − θ ∗ ∥ p ] ≤ n C 1 , 1 p Tr Σ n + Δ ( f l ) ( n , p , γ ) + n C 1 , 5 ∥ θ 0 − θ ∗ ∥
ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ n 1 / 2 η ) ≤ C 2 , 1 n + C 2 , 2 n γ / 2 + C 2 , 3 ϕ n + C 2 , 4 ∥ θ 0 − θ ∗ ∥ n \rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_n^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ n 1/2 η ) ≤ n C 2 , 1 + n γ /2 C 2 , 2 + C 2 , 3 ϕ n + n C 2 , 4 ∥ θ 0 − θ ∗ ∥
ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ ∞ 1 / 2 η ) ≤ C 2 , 1 n + C 2 , 2 n γ / 2 + C 2 , 3 ϕ n + C 2 , 4 ∥ θ 0 − θ ∗ ∥ n + C 3 n 1 − γ \rho_{Conv}(\sqrt{n}(\bar{\theta}_n - \theta^*), \Sigma_\infty^{1/2}\eta) \leq \frac{C_{2,1}}{\sqrt{n}} + \frac{C_{2,2}}{n^{\gamma/2}} + C_{2,3}\phi_n + \frac{C_{2,4}\|\theta_0 - \theta^*\|}{n} + \frac{C_3}{n^{1-\gamma}} ρ C o n v ( n ( θ ˉ n − θ ∗ ) , Σ ∞ 1/2 η ) ≤ n C 2 , 1 + n γ /2 C 2 , 2 + C 2 , 3 ϕ n + n C 2 , 4 ∥ θ 0 − θ ∗ ∥ + n 1 − γ C 3
باحتمالية 1 − 1 / n 1-1/n 1 − 1/ n :
sup B ∈ C o n v ( R d ) ∣ P b ( n ( θ ˉ n b − θ ˉ n ) ∈ B ) − P ( n ( θ ˉ n − θ ∗ ) ∈ B ) ∣ ≤ C 4 ∥ θ 0 − θ ∗ ∥ + Δ 4 , 1 n + Δ 4 , 2 n γ / 2 + Δ 4 , 3 ϕ n + Δ 4 , 4 n \sup_{B \in Conv(\mathbb{R}^d)}|P^b(\sqrt{n}(\bar{\theta}_n^b - \bar{\theta}_n) \in B) - P(\sqrt{n}(\bar{\theta}_n - \theta^*) \in B)| \leq \frac{C_4\|\theta_0 - \theta^*\| + \Delta_{4,1}}{\sqrt{n}} + \frac{\Delta_{4,2}}{n^{\gamma/2}} + \Delta_{4,3}\phi_n + \frac{\Delta_{4,4}}{n} sup B ∈ C o n v ( R d ) ∣ P b ( n ( θ ˉ n b − θ ˉ n ) ∈ B ) − P ( n ( θ ˉ n − θ ∗ ) ∈ B ) ∣ ≤ n C 4 ∥ θ 0 − θ ∗ ∥ + Δ 4 , 1 + n γ /2 Δ 4 , 2 + Δ 4 , 3 ϕ n + n Δ 4 , 4
الطريقة معدل التقارب المرجع هذه الورقة (Berry-Esseen) n − 1 / 3 n^{-1/3} n − 1/3 - Samsonov et al. (2024) n − 1 / 4 n^{-1/4} n − 1/4 41 هذه الورقة (التمهيد الإحصائي) n − 1 / 2 n^{-1/2} n − 1/2 - Wu et al. (2024) TD n − 1 / 3 n^{-1/3} n − 1/3 54
النظرية المقاربة : Polyak & Juditsky (1992) أسسا الحالة الطبيعية المقاربة الأساسيةالتحليل غير المقارب : Durmus et al. (2021, 2025) وآخرون قدموا حدود العينة المحدودةالتقريب الطبيعي : Anastasiou et al. (2019) استخدموا طريقة Steinالتمهيد الإحصائي الكلاسيكي : العمل الرائد لـ Efron (1992)تمهيد متعدد الحدود : Fang et al. (2018) للتمهيد الإحصائي عبر الإنترنت لـ SGDالتحليل النظري : نظرية Chernozhukov et al. (2013, 2017) عالية الأبعادمنتجات المصفوفات العشوائية : عدم المساواة في التركيز لـ Huang et al. (2021)الإحصائيات غير الخطية : طريقة التركيز العشوائي لـ Shao & Zhang (2022)معدل التقارب الأمثل : تحقيق حد Berry-Esseen من الرتبة n − 1 / 3 n^{-1/3} n − 1/3 بمعنى المسافة المحدبة، وهو أمثل في إعداد LSAتحسين التمهيد الإحصائي : معدل تقريب التمهيد الإحصائي يصل إلى n − 1 / 2 n^{-1/2} n − 1/2 ، متفوقاً بشكل كبير على النتيجة الموجودة n − 1 / 4 n^{-1/4} n − 1/4 اختراق تقني : من خلال اختيار Σ n \Sigma_n Σ n بدلاً من Σ ∞ \Sigma_\infty Σ ∞ كمصفوفة التباين للتقريب، تجنب العقبات التقنيةافتراض الاستقلالية : تأخذ في الاعتبار فقط الضوضاء المستقلة والموزعة بشكل متطابق، وتترك حالة ضوضاء Markov للعمل المستقبليقيود حجم الخطوة : تتطلب شكلاً محدداً من حجم الخطوة المتناقص متعدد الحدودالاعتماد على البعد : الثوابت تتضمن حدود تعتمد على البعد، وقد تكون كبيرة في الحالات عالية الأبعادالتوسع إلى Markov : تعميم النتائج على إعدادات ضوضاء Markovحدود مطابقة : إثبات حدود مطابقة في الفترة γ ∈ ( 1 / 2 , 2 / 3 ) \gamma \in (1/2, 2/3) γ ∈ ( 1/2 , 2/3 ) التطبيقات العملية : التحقق من التنبؤات النظرية في مشاكل التعلم المعزز والتحسين المحددةالعمق النظري : توفير أدق تحليل معدل تقارب في مجال LSA، مع صعوبة تقنية عاليةالابتكار الطريقة : اختيار ذكي لمصفوفة التباين للتقريب، يتجاوز حدود الطرق الموجودةالنتائج الأمثلة : تحقيق عدة نتائج حدود أمثلة أو قريبة من الحد الأمثلتقنيات الإثبات : دمج أدوات احتمالية متقدمة متعددة، مع مسار تقني واضحالتحقق التجريبي : كورقة نظرية بحتة، تفتقد التجارب العددية للتحقق من التنبؤات النظريةالتطبيق العملي : الثوابت معقدة الاعتماد، وقد تتطلب الأداء الفعلي في التطبيقات مزيداً من البحثنطاق التطبيق : الشروط المفروضة قوية نسبياً، وقد يكون التطبيق في المشاكل الفعلية محدوداًالقيمة الأكاديمية : توفير تقدم مهم لنظرية التقريب العشوائي، متوقع أن يتم الاستشهاد به على نطاق واسعآفاق التطبيق : توفير أساس نظري لمجالات مثل التعلم المعزز والتحسين عبر الإنترنتالمساهمة المنهجية : قد تلهم الطرق التقنية البحث في مشاكل إحصائية غير خطية أخرىتقييم السياسة في التعلم المعزز (تعلم الفرق الزمني) تحليل خوارزميات التحسين المحدب عبر الإنترنت مشاكل الاستدلال الإحصائي التي تتطلب فترات ثقة دقيقة التحليل النظري للتعلم الآلي واسع النطاق Polyak, B. T., & Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization. Shao, Q. M., & Zhang, Z. S. (2022). Berry–Esseen bounds for multivariate nonlinear statistics with applications to M-estimators and stochastic gradient descent algorithms. Bernoulli. Fang, Y., Xu, J., & Yang, L. (2018). Online bootstrap confidence intervals for the stochastic gradient descent estimator. Journal of Machine Learning Research. Durmus, A., Moulines, E., Naumov, A., & Samsonov, S. (2025). Finite-time high-probability bounds for Polyak–Ruppert averaged iterates of linear stochastic approximation. Mathematics of Operations Research.