2025-11-10T02:38:56.409187

Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems

Pasechnyuk-Vilensky, Kamzolov, TakÃ¡Ä

We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.

academic

Re³MCN : Newton Cubique + Réduction de Variance + Momentum + Régularisation Quadratique pour Problèmes Non-Convexes à Somme Finie

Informations Fondamentales

ID de l'article : 2510.08714
Titre : Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Auteurs : Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, France), Martin Takáč (MBZUAI)
Classification : math.OC (Optimisation Mathématique)
Date de Publication : 9 octobre 2025 (prépublication arXiv)
Lien de l'article : https://arxiv.org/abs/2510.08714

Résumé

Cet article propose une méthode stochastique de régularisation cubique newtonienne pour les problèmes d'optimisation à somme finie $\min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$ . La méthode utilise une technique de réduction de variance récursive de type SARAH, combinée avec des mini-lots de taille $b \sim n^{1/2}$ et une moyenne mobile exponentielle (EMA) pour estimer le gradient et la matrice hessienne. L'étude montre que la méthode atteint un point stationnaire du second ordre $(\varepsilon,\sqrt{L_2\varepsilon})$ -SOSP avec $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ appels à l'oracle stochastique en cas non-convexe, et un taux de convergence de $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}})$ en cas convexe.

Contexte et Motivation de la Recherche

Problème Central

La recherche de points stationnaires du second ordre dans l'optimisation non-convexe en apprentissage automatique constitue un défi fondamental. L'entraînement des réseaux de neurones profonds, la décomposition tensorielle et l'inférence bayésienne impliquent généralement des fonctions objectif où les méthodes du premier ordre peuvent stagner aux points de selle.

Importance du Problème

Échappement aux points de selle : Les méthodes du second ordre exploitent l'information de courbure pour fournir un moyen potentiel d'échapper aux points de selle
Goulot d'étranglement computationnel : Le coût computationnel du traitement de la matrice hessienne exacte est prohibitif, particulièrement pour les problèmes de minimisation du risque empirique à grande échelle, avec une complexité de $O(nd^2)$
Garanties théoriques : La méthode de régularisation cubique newtonienne (CRN) fournit des garanties de convergence fortes pour l'échappement aux points de selle sur la trajectoire d'optimisation

Limitations des Méthodes Existantes

Les méthodes cubiques newtoniennes existantes avec réduction de variance présentent les problèmes suivants :

Mauvaise dépendance en complexité : Certaines méthodes présentent une dépendance médiocre à la dimensionnalité et à la précision cible
Complexité d'oracle non optimale : La complexité de l'oracle gradient ou hessien n'atteint pas l'optimalité
Limitations pratiques : Absence d'analyse de versions pratiques efficaces

Motivation de la Recherche

Intégrer les techniques de réduction de variance avec les mises à jour du second ordre pour développer un algorithme possédant à la fois des garanties théoriques et une efficacité pratique, particulièrement en scénarios haute-dimensionnels pour éviter le goulot d'étranglement $O(d^2)$ .

Contributions Principales

Conception d'algorithme : Proposition de l'algorithme Re³MCN, combinant un estimateur EMA-SARAH pour le gradient et la hessienne, ainsi qu'un solveur de sous-problème sans matrice basé sur l'estimateur de Hutchinson
Garanties théoriques : Preuve que Re³MCN atteint un point $(\varepsilon,\sqrt{L\varepsilon})$ -SOSP avec une complexité d'oracle de $\tilde{O}(n+n^{1/2}\varepsilon^{-3/2})$ en cas non-convexe, et un taux de convergence de $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}})$ en cas convexe
Efficacité pratique : La conception d'algorithme s'applique aux problèmes haute-dimensionnels, évitant le goulot d'étranglement $O(d^2)$ par un solveur interne sans matrice
Implémentabilité : Réalisation d'expériences numériques comparant les méthodes cubiques newtoniennes existantes avec réduction de variance, implémentée dans le cadre du package OPTAMI

Détails de la Méthode

Formulation du Problème et Hypothèses

Problème d'optimisation : $F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$

Hypothèses fondamentales :

(A1) Lissité du second ordre : La matrice hessienne est Lipschitz continue avec constante $L_2 > 0$
(A2) Bornitude : La matrice hessienne est uniformément bornée sur la trajectoire de l'algorithme
(A3-A5) Bornitude de la variance : Les oracles stochastiques possèdent une variance bornée

Architecture de l'Algorithme

Composants principaux de l'algorithme Re³MCN :

Calendrier de poids EMA : $\alpha_t = c(t+1)^{-1/2}$ , où $c \in (0,1/2]$
Mise à jour SARAH :
- Gradient : $\Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})]$
- Hessienne : $\Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})]$
Agrégation EMA :
- $g_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t$
- $H_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t$
Sous-problème cubique : $m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3$

Points d'Innovation Technique

Combinaison EMA-SARAH : Première intégration de la moyenne mobile exponentielle avec la technique de réduction de variance SARAH, réalisant des estimations plus stables
Régularisation quadratique adaptative :
- Cas convexe : $\beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1)$
- Cas non-convexe : Introduction d'un terme proximal quadratique fixe améliorant l'agrégation du bruit
Implémentation sans matrice : Réalisation du produit hessienne-vecteur basée sur l'estimateur de Hutchinson, évitant le stockage explicite de la matrice hessienne

Cadre d'Analyse Théorique

Borne de descente en une étape : $E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}]$

Inégalité principale : Par agrégation des termes de variance via l'inégalité BDG, on obtient : $\frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}]$

Configuration Expérimentale

Vérification Théorique

L'article fournit principalement une analyse théorique, vérifiée par :

Analyse de complexité : Dérivation détaillée des bornes de complexité d'oracle
Preuve de convergence : Preuve rigoureuse des propriétés de convergence de l'algorithme
Sélection de paramètres : Orientation théorique pour le choix optimal des paramètres

Détails d'Implémentation

Taille de mini-lot : $b = \lceil n^{1/2} \rceil$

Longueur d'époque :

Sans régularisation : $T_{max} = \Theta(n^{1/3})$
Avec régularisation : $T_{max} = \Theta(n^{3/5})$

Solveur interne : Utilisation de la méthode de la sécante bisection + gradient conjugué tronqué pour résoudre le sous-problème cubique

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 8.3 (Complexité non-convexe) : Sous les hypothèses (A1)-(A5), l'algorithme Re³MCN retourne un point $(\varepsilon,\sqrt{L_2\varepsilon})$ -SOSP avec une complexité d'oracle totale : $G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$

Théorème 6.1 (Taux de convergence convexe) : En supposant que $F$ est convexe, l'algorithme atteint le taux de convergence : $E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}}$

Comparaison de Complexité

Par rapport aux méthodes existantes :

Dépendance en $n$ améliorée : Amélioration de $n^{5/6}$ ou $n^{4/5}$ à $n^{1/2}$
Dépendance en $\varepsilon$ optimale : Atteinte du taux optimal $\varepsilon^{-3/2}$
Cadre unifié : Traitement simultané des cas convexe et non-convexe

Travaux Connexes

Méthodes de Régularisation Cubique Newtonienne

Nesterov & Polyak (2006) : Méthode CRN déterministe
Diverses variantes stochastiques : Évolution des méthodes SCRN

Techniques de Réduction de Variance

Méthode SARAH : Base de la réduction de variance récursive
Méthodes SPIDER et autres : Estimateurs de différence d'intégrales de chemin

Méthodes Stochastiques du Second Ordre

Application des méthodes newtoniennes avec réduction de variance aux fonctions fortement convexes
Application VR-CN dans l'optimisation de stratégies

Conclusions et Discussion

Conclusions Principales

Percée théorique : Première réalisation de la complexité d'oracle $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ en optimisation non-convexe à somme finie
Innovation technique : La combinaison EMA-SARAH fournit une réduction de variance plus stable
Praticité : L'estimateur de Hutchinson rend la méthode applicable aux problèmes haute-dimensionnels

Limitations

Hypothèses théoriques : Nécessité de la continuité Lipschitz et de la bornitude de la hessienne
Ajustement de paramètres : Plusieurs hyperparamètres nécessitent une sélection appropriée
Vérification expérimentale : Analyse principalement théorique, manque de vérification empirique à grande échelle

Directions Futures

Sélection de paramètres adaptative : Développement de méthodes pour choisir adaptivement les poids EMA et les paramètres de régularisation
Hypothèses plus faibles : Relâchement des hypothèses sur les propriétés de la hessienne
Applications pratiques : Vérification de l'efficacité de la méthode sur des problèmes pratiques comme l'apprentissage profond

Évaluation Approfondie

Points Forts

Rigueur théorique : Analyse de convergence complète et bornes de complexité
Innovation technique : La combinaison EMA-SARAH constitue une contribution technique novatrice
Considérations pratiques : L'estimateur de Hutchinson et le solveur interne rapide améliorent la praticité
Cadre unifié : Traitement simultané des cas convexe et non-convexe

Insuffisances

Absence d'expériences : Manque de comparaisons empiriques avec les méthodes existantes
Limitations des hypothèses : Certaines hypothèses peuvent ne pas être satisfaites dans les problèmes réels
Dépendance en constantes : Les constantes dans les bornes théoriques peuvent être importantes

Impact Potentiel

Contribution théorique : Progrès important dans la théorie de l'optimisation stochastique du second ordre
Valeur méthodologique : La technique EMA-SARAH peut inspirer la conception d'autres algorithmes
Potentiel pratique : Fournit un nouvel outil pour l'optimisation non-convexe à grande échelle

Domaines d'Application

Apprentissage automatique à grande échelle : Particulièrement pour les problèmes non-convexes nécessitant l'échappement aux points de selle
Apprentissage profond : Optimisation du second ordre dans l'entraînement de réseaux de neurones
Calcul scientifique : Problèmes d'optimisation nécessitant des solutions haute précision

Références Bibliographiques

L'article cite 15 références pertinentes, couvrant les travaux principaux en méthodes de régularisation cubique, techniques de réduction de variance et optimisation stochastique du second ordre, fournissant une base théorique solide pour cette recherche.

Évaluation Globale : Cet article constitue une contribution théorique importante dans le domaine de l'optimisation stochastique du second ordre. En combinant astucieusement les techniques EMA et SARAH, il réalise les meilleures bornes de complexité d'oracle actuellement connues. Bien que dépourvu de vérification expérimentale, l'analyse théorique est rigoureuse et l'innovation technique manifeste, contribuant significativement au développement du domaine.