Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Pasechnyuk-Vilensky, Kamzolov, TakáÄ
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic
Re³MCN: घन न्यूटन + विचरण न्यूनीकरण + संवेग + द्विघात नियमितीकरण परिमित-योग अ-उत्तल समस्याओं के लिए
यह पेपर परिमित-योग अनुकूलन समस्या minx∈RdF(x)=n1∑i=1nfi(x) के लिए एक यादृच्छिक घन नियमितीकृत न्यूटन विधि प्रस्तावित करता है। यह विधि SARAH-प्रकार पुनरावर्ती विचरण न्यूनीकरण तकनीक का उपयोग करती है, जिसमें आकार b∼n1/2 के छोटे बैच और घातांकीय गतिशील औसत (EMA) के साथ ढाल और हेसियन मैट्रिक्स का अनुमान लगाया जाता है। अनुसंधान से पता चलता है कि यह विधि अ-उत्तल स्थिति में n+O~(n1/2ε−3/2) यादृच्छिक ओरेकल कॉल के साथ (ε,L2ε)-द्वितीय-क्रम स्थिर बिंदु (SOSP) प्राप्त कर सकती है, और उत्तल स्थिति में O~(T2LR3+T2σ2R2+Tσ1R) अभिसरण दर प्राप्त कर सकती है।
अ-उत्तल मशीन लर्निंग अनुकूलन में द्वितीय-क्रम स्थिर बिंदु खोजना एक मूल चुनौती है। गहन तंत्रिका नेटवर्क प्रशिक्षण, टेंसर अपघटन और बेयेसियन अनुमान जैसी समस्याएं आमतौर पर उद्देश्य कार्यों को शामिल करती हैं जहां प्रथम-क्रम विधियां काठी बिंदुओं पर अटक सकती हैं।
काठी बिंदु से बचना: द्वितीय-क्रम विधियां वक्रता जानकारी का उपयोग करके काठी बिंदुओं से बचने का संभावित मार्ग प्रदान करती हैं
कम्प्यूटेशनल बाधा: सटीक हेसियन मैट्रिक्स को संभालने की कम्प्यूटेशनल लागत बहुत अधिक है, विशेषकर बड़े पैमाने पर अनुभवजन्य जोखिम न्यूनीकरण समस्याओं के लिए, जटिलता O(nd2) है
सैद्धांतिक गारंटी: घन नियमितीकृत न्यूटन (CRN) विधि अनुकूलन प्रक्षेपवक्र पर काठी बिंदुओं से बचने के लिए मजबूत अभिसरण गारंटी प्रदान करती है
विचरण न्यूनीकरण तकनीकों को द्वितीय-क्रम अपडेट के साथ एकीकृत करना, ऐसे एल्गोरिदम विकसित करना जिनमें सैद्धांतिक गारंटी और व्यावहारिक दक्षता दोनों हों, विशेषकर उच्च-आयामी परिदृश्यों में O(d2) बाधा से बचने के लिए।
एल्गोरिदम डिजाइन: Re³MCN एल्गोरिदम प्रस्तावित करना, जो ढाल और हेसियन के लिए EMA-SARAH अनुमानक को जोड़ता है, और Hutchinson अनुमानक के आधार पर मैट्रिक्स-मुक्त उप-समस्या समाधानकर्ता
सैद्धांतिक गारंटी: Re³MCN को साबित करना कि अ-उत्तल स्थिति में O~(n+n1/2ε−3/2) ओरेकल जटिलता के साथ (ε,Lε)-SOSP खोजता है, उत्तल स्थिति में O~(T2LR3+T2σ2R2+Tσ1R) अभिसरण दर प्राप्त करता है
व्यावहारिक दक्षता: एल्गोरिदम डिजाइन उच्च-आयामी समस्याओं के लिए उपयुक्त है, मैट्रिक्स-मुक्त आंतरिक समाधानकर्ता के माध्यम से O(d2) बाधा से बचता है
कार्यान्वयन: मौजूदा विचरण-न्यूनीकृत घन न्यूटन विधियों की तुलना करने के लिए संख्यात्मक प्रयोग, OPTAMI पैकेज के भाग के रूप में कार्यान्वित
पेपर 15 संबंधित संदर्भों का हवाला देता है, जिसमें घन नियमितीकृत विधियां, विचरण न्यूनीकरण तकनीकें और यादृच्छिक द्वितीय-क्रम अनुकूलन के मुख्य कार्य शामिल हैं, जो इस अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।
समग्र मूल्यांकन: यह यादृच्छिक द्वितीय-क्रम अनुकूलन क्षेत्र में महत्वपूर्ण सैद्धांतिक योगदान वाला एक पेपर है। EMA और SARAH तकनीकों को चतुराई से जोड़कर, वर्तमान सर्वश्रेष्ठ ओरेकल जटिलता सीमा प्राप्त की गई है। हालांकि प्रायोगिक सत्यापन की कमी है, लेकिन सैद्धांतिक विश्लेषण कठोर है, तकनीकी नवाचार स्पष्ट है, और इस क्षेत्र के विकास में महत्वपूर्ण प्रेरक भूमिका है।