2025-11-10T02:38:56.409187

Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems

Pasechnyuk-Vilensky, Kamzolov, Takáč
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{σ_2 R^2}{T^2} + \frac{σ_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic

Re³MCN: घन न्यूटन + विचरण न्यूनीकरण + संवेग + द्विघात नियमितीकरण परिमित-योग अ-उत्तल समस्याओं के लिए

मूल जानकारी

  • पेपर ID: 2510.08714
  • शीर्षक: Re³MCN: घन न्यूटन + विचरण न्यूनीकरण + संवेग + द्विघात नियमितीकरण परिमित-योग अ-उत्तल समस्याओं के लिए
  • लेखक: Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, फ्रांस), Martin Takáč (MBZUAI)
  • वर्गीकरण: math.OC (गणितीय अनुकूलन)
  • प्रकाशन तिथि: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
  • पेपर लिंक: https://arxiv.org/abs/2510.08714

सारांश

यह पेपर परिमित-योग अनुकूलन समस्या minxRdF(x)=1ni=1nfi(x)\min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x) के लिए एक यादृच्छिक घन नियमितीकृत न्यूटन विधि प्रस्तावित करता है। यह विधि SARAH-प्रकार पुनरावर्ती विचरण न्यूनीकरण तकनीक का उपयोग करती है, जिसमें आकार bn1/2b \sim n^{1/2} के छोटे बैच और घातांकीय गतिशील औसत (EMA) के साथ ढाल और हेसियन मैट्रिक्स का अनुमान लगाया जाता है। अनुसंधान से पता चलता है कि यह विधि अ-उत्तल स्थिति में n+O~(n1/2ε3/2)n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) यादृच्छिक ओरेकल कॉल के साथ (ε,L2ε)(\varepsilon,\sqrt{L_2\varepsilon})-द्वितीय-क्रम स्थिर बिंदु (SOSP) प्राप्त कर सकती है, और उत्तल स्थिति में O~(LR3T2+σ2R2T2+σ1RT)\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}}) अभिसरण दर प्राप्त कर सकती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

अ-उत्तल मशीन लर्निंग अनुकूलन में द्वितीय-क्रम स्थिर बिंदु खोजना एक मूल चुनौती है। गहन तंत्रिका नेटवर्क प्रशिक्षण, टेंसर अपघटन और बेयेसियन अनुमान जैसी समस्याएं आमतौर पर उद्देश्य कार्यों को शामिल करती हैं जहां प्रथम-क्रम विधियां काठी बिंदुओं पर अटक सकती हैं।

समस्या की महत्ता

  • काठी बिंदु से बचना: द्वितीय-क्रम विधियां वक्रता जानकारी का उपयोग करके काठी बिंदुओं से बचने का संभावित मार्ग प्रदान करती हैं
  • कम्प्यूटेशनल बाधा: सटीक हेसियन मैट्रिक्स को संभालने की कम्प्यूटेशनल लागत बहुत अधिक है, विशेषकर बड़े पैमाने पर अनुभवजन्य जोखिम न्यूनीकरण समस्याओं के लिए, जटिलता O(nd2)O(nd^2) है
  • सैद्धांतिक गारंटी: घन नियमितीकृत न्यूटन (CRN) विधि अनुकूलन प्रक्षेपवक्र पर काठी बिंदुओं से बचने के लिए मजबूत अभिसरण गारंटी प्रदान करती है

मौजूदा विधियों की सीमाएं

मौजूदा विचरण-न्यूनीकृत घन न्यूटन विधियों में निम्नलिखित समस्याएं हैं:

  1. खराब जटिलता निर्भरता: कुछ विधियों में आयाम और लक्ष्य सटीकता पर खराब निर्भरता है
  2. अ-इष्टतम ओरेकल जटिलता: ढाल या हेसियन ओरेकल जटिलता इष्टतम नहीं है
  3. व्यावहारिक सीमाएं: कुशल व्यावहारिक संस्करण विश्लेषण की कमी है

अनुसंधान प्रेरणा

विचरण न्यूनीकरण तकनीकों को द्वितीय-क्रम अपडेट के साथ एकीकृत करना, ऐसे एल्गोरिदम विकसित करना जिनमें सैद्धांतिक गारंटी और व्यावहारिक दक्षता दोनों हों, विशेषकर उच्च-आयामी परिदृश्यों में O(d2)O(d^2) बाधा से बचने के लिए।

मूल योगदान

  1. एल्गोरिदम डिजाइन: Re³MCN एल्गोरिदम प्रस्तावित करना, जो ढाल और हेसियन के लिए EMA-SARAH अनुमानक को जोड़ता है, और Hutchinson अनुमानक के आधार पर मैट्रिक्स-मुक्त उप-समस्या समाधानकर्ता
  2. सैद्धांतिक गारंटी: Re³MCN को साबित करना कि अ-उत्तल स्थिति में O~(n+n1/2ε3/2)\tilde{O}(n+n^{1/2}\varepsilon^{-3/2}) ओरेकल जटिलता के साथ (ε,Lε)(\varepsilon,\sqrt{L\varepsilon})-SOSP खोजता है, उत्तल स्थिति में O~(LR3T2+σ2R2T2+σ1RT)\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}}) अभिसरण दर प्राप्त करता है
  3. व्यावहारिक दक्षता: एल्गोरिदम डिजाइन उच्च-आयामी समस्याओं के लिए उपयुक्त है, मैट्रिक्स-मुक्त आंतरिक समाधानकर्ता के माध्यम से O(d2)O(d^2) बाधा से बचता है
  4. कार्यान्वयन: मौजूदा विचरण-न्यूनीकृत घन न्यूटन विधियों की तुलना करने के लिए संख्यात्मक प्रयोग, OPTAMI पैकेज के भाग के रूप में कार्यान्वित

विधि विवरण

समस्या सेटिंग और धारणाएं

अनुकूलन समस्या: F(x)=1ni=1nfi(x)F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)

मूल धारणाएं:

  • (A1) द्वितीय-क्रम सुगमता: हेसियन मैट्रिक्स लिप्सचिट्ज़ निरंतर है, स्थिरांक L2>0L_2 > 0 के साथ
  • (A2) परिबद्धता: हेसियन मैट्रिक्स एल्गोरिदम प्रक्षेपवक्र पर समान रूप से परिबद्ध है
  • (A3-A5) विचरण परिबद्धता: यादृच्छिक ओरेकल में परिबद्ध विचरण है

एल्गोरिदम आर्किटेक्चर

Re³MCN एल्गोरिदम मूल घटक:

  1. EMA वजन अनुसूची: αt=c(t+1)1/2\alpha_t = c(t+1)^{-1/2}, जहां c(0,1/2]c \in (0,1/2]
  2. SARAH अपडेट:
    • ढाल: Δgt:=1biIt[fi(xt)fi(xt1)]\Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})]
    • हेसियन: ΔHt:=1biIt[2fi(xt)2fi(xt1)]\Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})]
  3. EMA एकत्रीकरण:
    • gt(1αt)gt1+αtg^tg_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t
    • Ht(1αt)Ht1+αtH^tH_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t
  4. घन उप-समस्या: mt(s)=gtTs+12sTHts+βt2s2+M6s3m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3

तकनीकी नवाचार बिंदु

  1. EMA-SARAH संयोजन: पहली बार घातांकीय गतिशील औसत को SARAH विचरण न्यूनीकरण तकनीक के साथ जोड़ना, अधिक स्थिर अनुमान प्राप्त करना
  2. अनुकूली द्विघात नियमितीकरण:
    • उत्तल स्थिति: βt=2max{C4σ2b,C5L2R}(t+1)\beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1)
    • अ-उत्तल स्थिति: शोर एकत्रीकरण में सुधार के लिए निश्चित निकट द्विघात पद का परिचय
  3. मैट्रिक्स-मुक्त कार्यान्वयन: Hutchinson अनुमानक के आधार पर हेसियन-वेक्टर गुणन को लागू करना, हेसियन मैट्रिक्स के स्पष्ट भंडारण से बचना

सैद्धांतिक विश्लेषण ढांचा

एक-चरण अवरोहण सीमा: E[F(xt+1)F(xt)Gt]L28E[st3]+23M1/2E[ϵt3/2]+M1/2E[Σtop3/2]E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}]

मुख्य असमानता: BDG असमानता के माध्यम से विचरण पदों को एकत्रित करना, प्राप्त करना: L28E[ST]ΔF+Cb3/4T9/8E[ST1/6]\frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}]

प्रायोगिक सेटअप

सैद्धांतिक सत्यापन

पेपर मुख्य रूप से सैद्धांतिक विश्लेषण प्रदान करता है, निम्नलिखित तरीकों से सत्यापित:

  1. जटिलता विश्लेषण: ओरेकल जटिलता सीमा की विस्तृत व्युत्पत्ति
  2. अभिसरण प्रमाण: एल्गोरिदम के अभिसरण गुणों का कठोर प्रमाण
  3. पैरामीटर चयन: इष्टतम पैरामीटर सेटिंग के लिए सैद्धांतिक मार्गदर्शन

कार्यान्वयन विवरण

बैच आकार: b=n1/2b = \lceil n^{1/2} \rceil

अवधि लंबाई:

  • बिना नियमितीकरण: Tmax=Θ(n1/3)T_{max} = \Theta(n^{1/3})
  • नियमितीकरण के साथ: Tmax=Θ(n3/5)T_{max} = \Theta(n^{3/5})

आंतरिक समाधानकर्ता: घन उप-समस्या को हल करने के लिए सेकेंट द्विभाजन + छंटनी संयुग्म ढाल का उपयोग

प्रायोगिक परिणाम

मुख्य सैद्धांतिक परिणाम

प्रमेय 8.3 (अ-उत्तल जटिलता): धारणाओं (A1)-(A5) के तहत, Re³MCN एल्गोरिदम (ε,L2ε)(\varepsilon,\sqrt{L_2\varepsilon})-SOSP लौटाता है, कुल ओरेकल जटिलता: G=Hn+O~(n1/2ε3/2)G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})

प्रमेय 6.1 (उत्तल अभिसरण दर): मान लीजिए FF उत्तल फलन है, एल्गोरिदम अभिसरण दर प्राप्त करता है: E[F(xT)F]C1L2R3+Cββ0R2(T+1)2+C3σ1RT+1E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}}

जटिलता तुलना

मौजूदा विधियों की तुलना में:

  • nn निर्भरता में सुधार: n5/6n^{5/6} या n4/5n^{4/5} से n1/2n^{1/2} में सुधार
  • इष्टतम ε\varepsilon निर्भरता: ε3/2\varepsilon^{-3/2} की इष्टतम दर प्राप्त करना
  • एकीकृत ढांचा: उत्तल और अ-उत्तल दोनों स्थितियों को एक साथ संभालना

संबंधित कार्य

घन नियमितीकृत न्यूटन विधियां

  • Nesterov & Polyak (2006): निर्धारक CRN विधि
  • विभिन्न यादृच्छिक वेरिएंट: SCRN विधि का विकास इतिहास

विचरण न्यूनीकरण तकनीकें

  • SARAH विधि: पुनरावर्ती विचरण न्यूनीकरण का आधार
  • SPIDER आदि विधियां: पथ-एकीकृत अंतर अनुमानक

द्वितीय-क्रम यादृच्छिक विधियां

  • मजबूत उत्तल कार्यों पर विचरण-न्यूनीकृत न्यूटन विधियों का अनुप्रयोग
  • नीति अनुकूलन में VR-CN अनुप्रयोग

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. सैद्धांतिक सफलता: अ-उत्तल परिमित-योग अनुकूलन में पहली बार n+O~(n1/2ε3/2)n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) ओरेकल जटिलता प्राप्त करना
  2. तकनीकी नवाचार: EMA-SARAH संयोजन अधिक स्थिर विचरण न्यूनीकरण प्रदान करता है
  3. व्यावहारिकता: Hutchinson अनुमानक विधि को उच्च-आयामी समस्याओं के लिए उपयुक्त बनाता है

सीमाएं

  1. सैद्धांतिक धारणाएं: हेसियन लिप्सचिट्ज़ निरंतरता और परिबद्धता धारणा की आवश्यकता है
  2. पैरामीटर समायोजन: कई हाइपरपैरामीटर को उचित रूप से चुनने की आवश्यकता है
  3. प्रायोगिक सत्यापन: मुख्य रूप से सैद्धांतिक विश्लेषण प्रदान करता है, बड़े पैमाने पर अनुभवजन्य सत्यापन की कमी है

भविष्य की दिशाएं

  1. अनुकूली पैरामीटर चयन: EMA वजन और नियमितीकरण पैरामीटर को अनुकूली रूप से चुनने के लिए विधियां विकसित करना
  2. कमजोर धारणाएं: हेसियन गुणों पर धारणाओं को शिथिल करना
  3. व्यावहारिक अनुप्रयोग: गहन शिक्षा आदि व्यावहारिक समस्याओं में विधि प्रभावशीलता को सत्यापित करना

गहन मूल्यांकन

शक्तियां

  1. सैद्धांतिक कठोरता: पूर्ण अभिसरण विश्लेषण और जटिलता सीमा प्रदान करता है
  2. तकनीकी नवाचार: EMA और SARAH का संयोजन नई तकनीकी योगदान है
  3. व्यावहारिक विचार: Hutchinson अनुमानक और तेज आंतरिक समाधानकर्ता व्यावहारिकता में सुधार करते हैं
  4. एकीकृत ढांचा: उत्तल और अ-उत्तल दोनों स्थितियों को संभालता है

कमियां

  1. प्रयोग की कमी: मौजूदा विधियों के साथ अनुभवजन्य तुलना की कमी है
  2. धारणा सीमाएं: कुछ धारणाएं व्यावहारिक समस्याओं में संतुष्ट नहीं हो सकती हैं
  3. स्थिरांक निर्भरता: सैद्धांतिक सीमा में स्थिरांक काफी बड़े हो सकते हैं

प्रभाव

  1. सैद्धांतिक योगदान: यादृच्छिक द्वितीय-क्रम अनुकूलन सिद्धांत में महत्वपूर्ण प्रगति
  2. पद्धति मूल्य: EMA-SARAH तकनीक अन्य एल्गोरिदम डिजाइन को प्रेरित कर सकती है
  3. व्यावहारिक संभावना: बड़े पैमाने पर अ-उत्तल अनुकूलन के लिए नए उपकरण प्रदान करता है

लागू परिदृश्य

  • बड़े पैमाने पर मशीन लर्निंग: विशेषकर काठी बिंदु से बचने की आवश्यकता वाली अ-उत्तल समस्याएं
  • गहन शिक्षा: तंत्रिका नेटवर्क प्रशिक्षण में द्वितीय-क्रम अनुकूलन
  • वैज्ञानिक कम्प्यूटिंग: उच्च सटीकता समाधान की आवश्यकता वाली अनुकूलन समस्याएं

संदर्भ

पेपर 15 संबंधित संदर्भों का हवाला देता है, जिसमें घन नियमितीकृत विधियां, विचरण न्यूनीकरण तकनीकें और यादृच्छिक द्वितीय-क्रम अनुकूलन के मुख्य कार्य शामिल हैं, जो इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।


समग्र मूल्यांकन: यह यादृच्छिक द्वितीय-क्रम अनुकूलन क्षेत्र में महत्वपूर्ण सैद्धांतिक योगदान वाला एक पेपर है। EMA और SARAH तकनीकों को चतुराई से जोड़कर, वर्तमान सर्वश्रेष्ठ ओरेकल जटिलता सीमा प्राप्त की गई है। हालांकि प्रायोगिक सत्यापन की कमी है, लेकिन सैद्धांतिक विश्लेषण कठोर है, तकनीकी नवाचार स्पष्ट है, और इस क्षेत्र के विकास में महत्वपूर्ण प्रेरक भूमिका है।