Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Pasechnyuk-Vilensky, Kamzolov, TakáÄ
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
تقترح هذه الورقة طريقة نيوتن مكعبة عشوائية منتظمة لمسائل التحسين ذات المجموع المحدود minx∈RdF(x)=n1∑i=1nfi(x)، حيث تستخدم الطريقة تقنية تقليل التباين العودية من نوع SARAH، مع دفعات صغيرة بحجم b∼n1/2 ومتوسط متحرك أسي (EMA) لتقدير التدرجات ومصفوفات هسيان. تُظهر الدراسة أن الطريقة تحقق نقطة ثابتة من الدرجة الثانية (ε,L2ε) (SOSP) في الحالة غير المحدبة بعدد استدعاءات أوراكل عشوائي قدره n+O~(n1/2ε−3/2)، وتحقق معدل تقارب قدره O~(T2LR3+T2σ2R2+Tσ1R) في الحالة المحدبة.
يعتبر البحث عن نقاط ثابتة من الدرجة الثانية في تحسين التعلم الآلي غير المحدب تحديًا أساسيًا. تتضمن مسائل مثل تدريب الشبكات العصبية العميقة وتحليل الموتر والاستدلال البايزي دوال هدف قد تتعثر فيها طرق الدرجة الأولى عند نقاط السرج.
دمج تقنيات تقليل التباين مع التحديثات من الدرجة الثانية، وتطوير خوارزميات توفر ضمانات نظرية وكفاءة عملية، خاصة في السيناريوهات عالية الأبعاد لتجنب اختناق O(d2).
تصميم الخوارزمية: اقتراح خوارزمية Re³MCN التي تجمع بين مقدرات EMA-SARAH للتدرجات والهسيان، ومحلل فرعي خالي من المصفوفات بناءً على مقدر Hutchinson
الضمانات النظرية: إثبات أن Re³MCN تحقق نقطة ثابتة من الدرجة الثانية (ε,Lε) في الحالة غير المحدبة بتعقيد أوراكل O~(n+n1/2ε−3/2)، وتحقق معدل تقارب O~(T2LR3+T2σ2R2+Tσ1R) في الحالة المحدبة
الكفاءة العملية: تصميم الخوارزمية مناسب لمسائل عالية الأبعاد، مع تجنب اختناق O(d2) من خلال محلل فرعي خالي من المصفوفات
القابلية للتحقيق: إجراء تجارب رقمية لمقارنة طرق نيوتن المكعبة الموجودة لتقليل التباين، كجزء من تطبيق حزمة OPTAMI
النظرية 8.3 (تعقيد غير المحدب):
تحت الافتراضات (A1)-(A5)، تعيد خوارزمية Re³MCN نقطة ثابتة من الدرجة الثانية (ε,L2ε)، بتعقيد أوراكل إجمالي:
G=H≤n+O~(n1/2ε−3/2)
النظرية 6.1 (معدل التقارب المحدب):
بافتراض أن F دالة محدبة، تحقق الخوارزمية معدل تقارب:
E[F(xT)−F∗]≤(T+1)2C1L2R3+Cββ0R2+T+1C3σ1R
تستشهد الورقة بـ 15 مرجعًا ذا صلة، تغطي الأعمال الرئيسية في طرق التنظيم المكعب وتقنيات تقليل التباين والتحسين العشوائي من الدرجة الثانية، مما يوفر أساسًا نظريًا متينًا لهذا البحث.
التقييم الشامل: هذه ورقة ذات مساهمة نظرية مهمة في مجال التحسين العشوائي من الدرجة الثانية. من خلال الجمع الماهر بين تقنيات EMA و SARAH، تحقق حدود تعقيد أوراكل الأفضل حاليًا. على الرغم من نقص التحقق التجريبي، فإن التحليل النظري صارم والابتكار التقني واضح، مما يوفر دفعة مهمة لتطور هذا المجال.