2025-11-10T02:38:56.409187

Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems

Pasechnyuk-Vilensky, Kamzolov, TakÃ¡Ä

We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.

academic

Re³MCN: घन न्यूटन + विचरण न्यूनीकरण + संवेग + द्विघात नियमितीकरण परिमित-योग अ-उत्तल समस्याओं के लिए

मूल जानकारी

पेपर ID: 2510.08714
शीर्षक: Re³MCN: घन न्यूटन + विचरण न्यूनीकरण + संवेग + द्विघात नियमितीकरण परिमित-योग अ-उत्तल समस्याओं के लिए
लेखक: Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, फ्रांस), Martin Takáč (MBZUAI)
वर्गीकरण: math.OC (गणितीय अनुकूलन)
प्रकाशन तिथि: 9 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.08714

सारांश

यह पेपर परिमित-योग अनुकूलन समस्या $\min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$ के लिए एक यादृच्छिक घन नियमितीकृत न्यूटन विधि प्रस्तावित करता है। यह विधि SARAH-प्रकार पुनरावर्ती विचरण न्यूनीकरण तकनीक का उपयोग करती है, जिसमें आकार $b \sim n^{1/2}$ के छोटे बैच और घातांकीय गतिशील औसत (EMA) के साथ ढाल और हेसियन मैट्रिक्स का अनुमान लगाया जाता है। अनुसंधान से पता चलता है कि यह विधि अ-उत्तल स्थिति में $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ यादृच्छिक ओरेकल कॉल के साथ $(\varepsilon,\sqrt{L_2\varepsilon})$ -द्वितीय-क्रम स्थिर बिंदु (SOSP) प्राप्त कर सकती है, और उत्तल स्थिति में $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}})$ अभिसरण दर प्राप्त कर सकती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

अ-उत्तल मशीन लर्निंग अनुकूलन में द्वितीय-क्रम स्थिर बिंदु खोजना एक मूल चुनौती है। गहन तंत्रिका नेटवर्क प्रशिक्षण, टेंसर अपघटन और बेयेसियन अनुमान जैसी समस्याएं आमतौर पर उद्देश्य कार्यों को शामिल करती हैं जहां प्रथम-क्रम विधियां काठी बिंदुओं पर अटक सकती हैं।

समस्या की महत्ता

काठी बिंदु से बचना: द्वितीय-क्रम विधियां वक्रता जानकारी का उपयोग करके काठी बिंदुओं से बचने का संभावित मार्ग प्रदान करती हैं
कम्प्यूटेशनल बाधा: सटीक हेसियन मैट्रिक्स को संभालने की कम्प्यूटेशनल लागत बहुत अधिक है, विशेषकर बड़े पैमाने पर अनुभवजन्य जोखिम न्यूनीकरण समस्याओं के लिए, जटिलता $O(nd^2)$ है
सैद्धांतिक गारंटी: घन नियमितीकृत न्यूटन (CRN) विधि अनुकूलन प्रक्षेपवक्र पर काठी बिंदुओं से बचने के लिए मजबूत अभिसरण गारंटी प्रदान करती है

मौजूदा विधियों की सीमाएं

मौजूदा विचरण-न्यूनीकृत घन न्यूटन विधियों में निम्नलिखित समस्याएं हैं:

खराब जटिलता निर्भरता: कुछ विधियों में आयाम और लक्ष्य सटीकता पर खराब निर्भरता है
अ-इष्टतम ओरेकल जटिलता: ढाल या हेसियन ओरेकल जटिलता इष्टतम नहीं है
व्यावहारिक सीमाएं: कुशल व्यावहारिक संस्करण विश्लेषण की कमी है

अनुसंधान प्रेरणा

विचरण न्यूनीकरण तकनीकों को द्वितीय-क्रम अपडेट के साथ एकीकृत करना, ऐसे एल्गोरिदम विकसित करना जिनमें सैद्धांतिक गारंटी और व्यावहारिक दक्षता दोनों हों, विशेषकर उच्च-आयामी परिदृश्यों में $O(d^2)$ बाधा से बचने के लिए।

मूल योगदान

एल्गोरिदम डिजाइन: Re³MCN एल्गोरिदम प्रस्तावित करना, जो ढाल और हेसियन के लिए EMA-SARAH अनुमानक को जोड़ता है, और Hutchinson अनुमानक के आधार पर मैट्रिक्स-मुक्त उप-समस्या समाधानकर्ता
सैद्धांतिक गारंटी: Re³MCN को साबित करना कि अ-उत्तल स्थिति में $\tilde{O}(n+n^{1/2}\varepsilon^{-3/2})$ ओरेकल जटिलता के साथ $(\varepsilon,\sqrt{L\varepsilon})$ -SOSP खोजता है, उत्तल स्थिति में $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}})$ अभिसरण दर प्राप्त करता है
व्यावहारिक दक्षता: एल्गोरिदम डिजाइन उच्च-आयामी समस्याओं के लिए उपयुक्त है, मैट्रिक्स-मुक्त आंतरिक समाधानकर्ता के माध्यम से $O(d^2)$ बाधा से बचता है
कार्यान्वयन: मौजूदा विचरण-न्यूनीकृत घन न्यूटन विधियों की तुलना करने के लिए संख्यात्मक प्रयोग, OPTAMI पैकेज के भाग के रूप में कार्यान्वित

विधि विवरण

समस्या सेटिंग और धारणाएं

अनुकूलन समस्या: $F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$

मूल धारणाएं:

(A1) द्वितीय-क्रम सुगमता: हेसियन मैट्रिक्स लिप्सचिट्ज़ निरंतर है, स्थिरांक $L_2 > 0$ के साथ
(A2) परिबद्धता: हेसियन मैट्रिक्स एल्गोरिदम प्रक्षेपवक्र पर समान रूप से परिबद्ध है
(A3-A5) विचरण परिबद्धता: यादृच्छिक ओरेकल में परिबद्ध विचरण है

एल्गोरिदम आर्किटेक्चर

Re³MCN एल्गोरिदम मूल घटक:

EMA वजन अनुसूची: $\alpha_t = c(t+1)^{-1/2}$ , जहां $c \in (0,1/2]$
SARAH अपडेट:
- ढाल: $\Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})]$
- हेसियन: $\Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})]$
EMA एकत्रीकरण:
- $g_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t$
- $H_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t$
घन उप-समस्या: $m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3$

तकनीकी नवाचार बिंदु

EMA-SARAH संयोजन: पहली बार घातांकीय गतिशील औसत को SARAH विचरण न्यूनीकरण तकनीक के साथ जोड़ना, अधिक स्थिर अनुमान प्राप्त करना
अनुकूली द्विघात नियमितीकरण:
- उत्तल स्थिति: $\beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1)$
- अ-उत्तल स्थिति: शोर एकत्रीकरण में सुधार के लिए निश्चित निकट द्विघात पद का परिचय
मैट्रिक्स-मुक्त कार्यान्वयन: Hutchinson अनुमानक के आधार पर हेसियन-वेक्टर गुणन को लागू करना, हेसियन मैट्रिक्स के स्पष्ट भंडारण से बचना

सैद्धांतिक विश्लेषण ढांचा

एक-चरण अवरोहण सीमा: $E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}]$

मुख्य असमानता: BDG असमानता के माध्यम से विचरण पदों को एकत्रित करना, प्राप्त करना: $\frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}]$

प्रायोगिक सेटअप

सैद्धांतिक सत्यापन

पेपर मुख्य रूप से सैद्धांतिक विश्लेषण प्रदान करता है, निम्नलिखित तरीकों से सत्यापित:

जटिलता विश्लेषण: ओरेकल जटिलता सीमा की विस्तृत व्युत्पत्ति
अभिसरण प्रमाण: एल्गोरिदम के अभिसरण गुणों का कठोर प्रमाण
पैरामीटर चयन: इष्टतम पैरामीटर सेटिंग के लिए सैद्धांतिक मार्गदर्शन

कार्यान्वयन विवरण

बैच आकार: $b = \lceil n^{1/2} \rceil$

अवधि लंबाई:

बिना नियमितीकरण: $T_{max} = \Theta(n^{1/3})$
नियमितीकरण के साथ: $T_{max} = \Theta(n^{3/5})$

आंतरिक समाधानकर्ता: घन उप-समस्या को हल करने के लिए सेकेंट द्विभाजन + छंटनी संयुग्म ढाल का उपयोग

प्रायोगिक परिणाम

मुख्य सैद्धांतिक परिणाम

प्रमेय 8.3 (अ-उत्तल जटिलता): धारणाओं (A1)-(A5) के तहत, Re³MCN एल्गोरिदम $(\varepsilon,\sqrt{L_2\varepsilon})$ -SOSP लौटाता है, कुल ओरेकल जटिलता: $G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$

प्रमेय 6.1 (उत्तल अभिसरण दर): मान लीजिए $F$ उत्तल फलन है, एल्गोरिदम अभिसरण दर प्राप्त करता है: $E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}}$

जटिलता तुलना

मौजूदा विधियों की तुलना में:

$n$ निर्भरता में सुधार: $n^{5/6}$ या $n^{4/5}$ से $n^{1/2}$ में सुधार
इष्टतम $\varepsilon$ निर्भरता: $\varepsilon^{-3/2}$ की इष्टतम दर प्राप्त करना
एकीकृत ढांचा: उत्तल और अ-उत्तल दोनों स्थितियों को एक साथ संभालना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक सफलता: अ-उत्तल परिमित-योग अनुकूलन में पहली बार $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ ओरेकल जटिलता प्राप्त करना
तकनीकी नवाचार: EMA-SARAH संयोजन अधिक स्थिर विचरण न्यूनीकरण प्रदान करता है
व्यावहारिकता: Hutchinson अनुमानक विधि को उच्च-आयामी समस्याओं के लिए उपयुक्त बनाता है

सीमाएं

सैद्धांतिक धारणाएं: हेसियन लिप्सचिट्ज़ निरंतरता और परिबद्धता धारणा की आवश्यकता है
पैरामीटर समायोजन: कई हाइपरपैरामीटर को उचित रूप से चुनने की आवश्यकता है
प्रायोगिक सत्यापन: मुख्य रूप से सैद्धांतिक विश्लेषण प्रदान करता है, बड़े पैमाने पर अनुभवजन्य सत्यापन की कमी है

भविष्य की दिशाएं

अनुकूली पैरामीटर चयन: EMA वजन और नियमितीकरण पैरामीटर को अनुकूली रूप से चुनने के लिए विधियां विकसित करना
कमजोर धारणाएं: हेसियन गुणों पर धारणाओं को शिथिल करना
व्यावहारिक अनुप्रयोग: गहन शिक्षा आदि व्यावहारिक समस्याओं में विधि प्रभावशीलता को सत्यापित करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक कठोरता: पूर्ण अभिसरण विश्लेषण और जटिलता सीमा प्रदान करता है
तकनीकी नवाचार: EMA और SARAH का संयोजन नई तकनीकी योगदान है
व्यावहारिक विचार: Hutchinson अनुमानक और तेज आंतरिक समाधानकर्ता व्यावहारिकता में सुधार करते हैं
एकीकृत ढांचा: उत्तल और अ-उत्तल दोनों स्थितियों को संभालता है

कमियां

प्रयोग की कमी: मौजूदा विधियों के साथ अनुभवजन्य तुलना की कमी है
धारणा सीमाएं: कुछ धारणाएं व्यावहारिक समस्याओं में संतुष्ट नहीं हो सकती हैं
स्थिरांक निर्भरता: सैद्धांतिक सीमा में स्थिरांक काफी बड़े हो सकते हैं

प्रभाव

सैद्धांतिक योगदान: यादृच्छिक द्वितीय-क्रम अनुकूलन सिद्धांत में महत्वपूर्ण प्रगति
पद्धति मूल्य: EMA-SARAH तकनीक अन्य एल्गोरिदम डिजाइन को प्रेरित कर सकती है
व्यावहारिक संभावना: बड़े पैमाने पर अ-उत्तल अनुकूलन के लिए नए उपकरण प्रदान करता है

लागू परिदृश्य

बड़े पैमाने पर मशीन लर्निंग: विशेषकर काठी बिंदु से बचने की आवश्यकता वाली अ-उत्तल समस्याएं
गहन शिक्षा: तंत्रिका नेटवर्क प्रशिक्षण में द्वितीय-क्रम अनुकूलन
वैज्ञानिक कम्प्यूटिंग: उच्च सटीकता समाधान की आवश्यकता वाली अनुकूलन समस्याएं

संदर्भ

पेपर 15 संबंधित संदर्भों का हवाला देता है, जिसमें घन नियमितीकृत विधियां, विचरण न्यूनीकरण तकनीकें और यादृच्छिक द्वितीय-क्रम अनुकूलन के मुख्य कार्य शामिल हैं, जो इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।

समग्र मूल्यांकन: यह यादृच्छिक द्वितीय-क्रम अनुकूलन क्षेत्र में महत्वपूर्ण सैद्धांतिक योगदान वाला एक पेपर है। EMA और SARAH तकनीकों को चतुराई से जोड़कर, वर्तमान सर्वश्रेष्ठ ओरेकल जटिलता सीमा प्राप्त की गई है। हालांकि प्रायोगिक सत्यापन की कमी है, लेकिन सैद्धांतिक विश्लेषण कठोर है, तकनीकी नवाचार स्पष्ट है, और इस क्षेत्र के विकास में महत्वपूर्ण प्रेरक भूमिका है।