Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Pasechnyuk-Vilensky, Kamzolov, TakáÄ
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic
Re³MCN : Newton Cubique + Réduction de Variance + Momentum + Régularisation Quadratique pour Problèmes Non-Convexes à Somme Finie
Cet article propose une méthode stochastique de régularisation cubique newtonienne pour les problèmes d'optimisation à somme finie minx∈RdF(x)=n1∑i=1nfi(x). La méthode utilise une technique de réduction de variance récursive de type SARAH, combinée avec des mini-lots de taille b∼n1/2 et une moyenne mobile exponentielle (EMA) pour estimer le gradient et la matrice hessienne. L'étude montre que la méthode atteint un point stationnaire du second ordre (ε,L2ε)-SOSP avec n+O~(n1/2ε−3/2) appels à l'oracle stochastique en cas non-convexe, et un taux de convergence de O~(T2LR3+T2σ2R2+Tσ1R) en cas convexe.
La recherche de points stationnaires du second ordre dans l'optimisation non-convexe en apprentissage automatique constitue un défi fondamental. L'entraînement des réseaux de neurones profonds, la décomposition tensorielle et l'inférence bayésienne impliquent généralement des fonctions objectif où les méthodes du premier ordre peuvent stagner aux points de selle.
Échappement aux points de selle : Les méthodes du second ordre exploitent l'information de courbure pour fournir un moyen potentiel d'échapper aux points de selle
Goulot d'étranglement computationnel : Le coût computationnel du traitement de la matrice hessienne exacte est prohibitif, particulièrement pour les problèmes de minimisation du risque empirique à grande échelle, avec une complexité de O(nd2)
Garanties théoriques : La méthode de régularisation cubique newtonienne (CRN) fournit des garanties de convergence fortes pour l'échappement aux points de selle sur la trajectoire d'optimisation
Intégrer les techniques de réduction de variance avec les mises à jour du second ordre pour développer un algorithme possédant à la fois des garanties théoriques et une efficacité pratique, particulièrement en scénarios haute-dimensionnels pour éviter le goulot d'étranglement O(d2).
Conception d'algorithme : Proposition de l'algorithme Re³MCN, combinant un estimateur EMA-SARAH pour le gradient et la hessienne, ainsi qu'un solveur de sous-problème sans matrice basé sur l'estimateur de Hutchinson
Garanties théoriques : Preuve que Re³MCN atteint un point (ε,Lε)-SOSP avec une complexité d'oracle de O~(n+n1/2ε−3/2) en cas non-convexe, et un taux de convergence de O~(T2LR3+T2σ2R2+Tσ1R) en cas convexe
Efficacité pratique : La conception d'algorithme s'applique aux problèmes haute-dimensionnels, évitant le goulot d'étranglement O(d2) par un solveur interne sans matrice
Implémentabilité : Réalisation d'expériences numériques comparant les méthodes cubiques newtoniennes existantes avec réduction de variance, implémentée dans le cadre du package OPTAMI
Combinaison EMA-SARAH : Première intégration de la moyenne mobile exponentielle avec la technique de réduction de variance SARAH, réalisant des estimations plus stables
Régularisation quadratique adaptative :
Cas convexe : βt=2max{bC4σ2,C5L2R}(t+1)
Cas non-convexe : Introduction d'un terme proximal quadratique fixe améliorant l'agrégation du bruit
Implémentation sans matrice : Réalisation du produit hessienne-vecteur basée sur l'estimateur de Hutchinson, évitant le stockage explicite de la matrice hessienne
Théorème 8.3 (Complexité non-convexe) :
Sous les hypothèses (A1)-(A5), l'algorithme Re³MCN retourne un point (ε,L2ε)-SOSP avec une complexité d'oracle totale :
G=H≤n+O~(n1/2ε−3/2)
Théorème 6.1 (Taux de convergence convexe) :
En supposant que F est convexe, l'algorithme atteint le taux de convergence :
E[F(xT)−F∗]≤(T+1)2C1L2R3+Cββ0R2+T+1C3σ1R
L'article cite 15 références pertinentes, couvrant les travaux principaux en méthodes de régularisation cubique, techniques de réduction de variance et optimisation stochastique du second ordre, fournissant une base théorique solide pour cette recherche.
Évaluation Globale : Cet article constitue une contribution théorique importante dans le domaine de l'optimisation stochastique du second ordre. En combinant astucieusement les techniques EMA et SARAH, il réalise les meilleures bornes de complexité d'oracle actuellement connues. Bien que dépourvu de vérification expérimentale, l'analyse théorique est rigoureuse et l'innovation technique manifeste, contribuant significativement au développement du domaine.