Sparse Polyak: an adaptive step size rule for high-dimensional M-estimation
Qiao, Maros
We propose and study Sparse Polyak, a variant of Polyak's adaptive step size, designed to solve high-dimensional statistical estimation problems where the problem dimension is allowed to grow much faster than the sample size. In such settings, the standard Polyak step size performs poorly, requiring an increasing number of iterations to achieve optimal statistical precision-even when, the problem remains well conditioned and/or the achievable precision itself does not degrade with problem size. We trace this limitation to a mismatch in how smoothness is measured: in high dimensions, it is no longer effective to estimate the Lipschitz smoothness constant. Instead, it is more appropriate to estimate the smoothness restricted to specific directions relevant to the problem (restricted Lipschitz smoothness constant). Sparse Polyak overcomes this issue by modifying the step size to estimate the restricted Lipschitz smoothness constant. We support our approach with both theoretical analysis and numerical experiments, demonstrating its improved performance.
academic
Sparse Polyak: قاعدة حجم خطوة تكيفية لتقدير M عالي الأبعاد
تقدم هذه الورقة وتدرس Sparse Polyak، وهي متغيرة من خطوة Polyak التكيفية، مصممة خصيصاً لحل مشاكل التقدير الإحصائي عالية الأبعاد، حيث تنمو أبعاد المشكلة بسرعة أكبر بكثير من حجم العينة. في هذا الإطار، تؤدي خطوة Polyak القياسية أداءً ضعيفاً، وتتطلب عدداً متزايداً من التكرارات للوصول إلى الدقة الإحصائية المثلى - حتى لو ظلت المشكلة محددة جيداً و/أو لم تتدهور الدقة القابلة للتحقيق نفسها مع حجم المشكلة. تعزو الورقة هذا التحديد إلى عدم التطابق في طريقة قياس الملاسة: في الأبعاد العالية، لا يعود تقدير ثابت Lipschitz للملاسة فعالاً. بدلاً من ذلك، من الأنسب تقدير الملاسة المقيدة على اتجاهات محددة ذات صلة بالمشكلة (ثابت Lipschitz للملاسة المقيدة). يتغلب Sparse Polyak على هذه المشكلة من خلال تعديل حجم الخطوة لتقدير ثابت Lipschitz للملاسة المقيدة.
الإدخال: الدالة f، قيمة الدالة المستهدفة f̂، معامل التفرق s، عدد التكرارات T
التهيئة: θ_0 ∈ R^d، ||θ_0||_0 ≤ s
for t = 0 to T-1 do:
حساب حجم الخطوة: γ_t = max{f(θ_t) - f̂, 0} / (5||HT_s(∇f(θ_t))||²)
التحديث: θ_{t+1} = HT_s(θ_t - γ_t∇f(θ_t))
end for
Loh & Wainwright (2015) - نظرية الإحصائيات عالية الأبعاد
Malitsky & Mishchenko (2020) - الطرق التكيفية الحديثة
التقييم الشامل: هذه ورقة عالية الجودة تعالج مشكلة مهمة في التحسين عالي الأبعاد بحل مبتكر. التحليل النظري صارم، والتحقق التجريبي شامل، وللورقة قيمة مساهمة مهمة في المجال ذي الصلة. على الرغم من وجود بعض القيود التقنية، فإن الورقة بشكل عام تمثل تقدماً مهماً في هذا المجال.