2025-11-10T02:38:56.409187

Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems

Pasechnyuk-Vilensky, Kamzolov, TakÃ¡Ä

We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.

academic

Re³MCN: Newton Cúbico + Reducción de Varianza + Momentum + Regularización Cuadrática para Problemas de Suma Finita No-Convexa

Información Básica

ID del Artículo: 2510.08714
Título: Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Autores: Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, Francia), Martin Takáč (MBZUAI)
Clasificación: math.OC (Optimización Matemática)
Fecha de Publicación: 9 de octubre de 2025 (preimpresión arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.08714

Resumen

Este artículo propone un método de regularización cúbica de Newton estocástica para problemas de optimización de suma finita $\min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$ . El método utiliza técnicas de reducción de varianza de tipo SARAH, combinadas con minilotes de tamaño $b \sim n^{1/2}$ y promedios móviles exponenciales (EMA) para estimar el gradiente y la matriz Hessiana. Se demuestra que el método alcanza un punto estacionario de segundo orden $(\varepsilon,\sqrt{L_2\varepsilon})$ -SOSP con una complejidad de oráculo estocástico de $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ en el caso no-convexo, y una tasa de convergencia de $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}})$ en el caso convexo.

Antecedentes de Investigación y Motivación

Problema Central

Encontrar puntos estacionarios de segundo orden en la optimización no-convexa de aprendizaje automático es un desafío fundamental. Problemas como el entrenamiento de redes neuronales profundas, descomposición de tensores e inferencia bayesiana típicamente involucran funciones objetivo donde los métodos de primer orden pueden estancarse en puntos de silla.

Importancia del Problema

Escape de Puntos de Silla: Los métodos de segundo orden utilizan información de curvatura para proporcionar una vía potencial para escapar de puntos de silla
Cuello de Botella Computacional: El costo computacional de procesar matrices Hessianas exactas es prohibitivo, especialmente para problemas de minimización de riesgo empírico a gran escala, con complejidad $O(nd^2)$
Garantías Teóricas: El método de Newton con regularización cúbica (CRN) proporciona garantías de convergencia sólidas para escapar de puntos de silla en la trayectoria de optimización

Limitaciones de Métodos Existentes

Los métodos de Newton cúbico con reducción de varianza existentes presentan los siguientes problemas:

Dependencia de Complejidad Deficiente: Algunos métodos tienen dependencias pobres en la dimensionalidad y precisión del objetivo
Complejidad de Oráculo No Óptima: La complejidad del oráculo de gradiente o Hessiana no alcanza tasas óptimas
Restricciones Prácticas: Falta de análisis de versiones prácticas eficientes

Motivación de la Investigación

Integrar técnicas de reducción de varianza con actualizaciones de segundo orden para desarrollar algoritmos que proporcionen tanto garantías teóricas como eficiencia práctica, particularmente en escenarios de alta dimensionalidad evitando el cuello de botella $O(d^2)$ .

Contribuciones Principales

Diseño del Algoritmo: Se propone el algoritmo Re³MCN, que combina estimadores EMA-SARAH para gradiente y Hessiana, junto con un solucionador de subproblemas sin matriz basado en estimadores de Hutchinson
Garantías Teóricas: Se demuestra que Re³MCN alcanza un punto estacionario de segundo orden $(\varepsilon,\sqrt{L\varepsilon})$ -SOSP con complejidad de oráculo $\tilde{O}(n+n^{1/2}\varepsilon^{-3/2})$ en el caso no-convexo, y tasa de convergencia $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}})$ en el caso convexo
Eficiencia Práctica: El diseño del algoritmo es aplicable a problemas de alta dimensionalidad, evitando el cuello de botella $O(d^2)$ mediante solucionadores internos sin matriz
Implementabilidad: Se realizan experimentos numéricos comparando métodos de Newton cúbico con reducción de varianza existentes, implementado como parte del paquete OPTAMI

Descripción Detallada del Método

Formulación del Problema y Supuestos

Problema de Optimización: $F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$

Supuestos Principales:

(A1) Suavidad de Segundo Orden: La matriz Hessiana es Lipschitz continua con constante $L_2 > 0$
(A2) Acotación: La matriz Hessiana está uniformemente acotada en la trayectoria del algoritmo
(A3-A5) Varianza Acotada: Los oráculos estocásticos tienen varianza acotada

Arquitectura del Algoritmo

Componentes Principales del Algoritmo Re³MCN:

Programación de Pesos EMA: $\alpha_t = c(t+1)^{-1/2}$ , donde $c \in (0,1/2]$
Actualización SARAH:
- Gradiente: $\Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})]$
- Hessiana: $\Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})]$
Agregación EMA:
- $g_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t$
- $H_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t$
Subproblema Cúbico: $m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3$

Puntos de Innovación Técnica

Combinación EMA-SARAH: Primera combinación de promedios móviles exponenciales con técnicas de reducción de varianza SARAH, logrando estimaciones más estables
Regularización Cuadrática Adaptativa:
- Caso convexo: $\beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1)$
- Caso no-convexo: Introducción de término cuadrático proximal fijo para mejorar la agregación de ruido
Implementación Sin Matriz: Realización basada en estimadores de Hutchinson para productos Hessiana-vector, evitando almacenamiento explícito de la matriz Hessiana

Marco de Análisis Teórico

Cota de Descenso de Un Paso: $E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}]$

Desigualdad Principal: Mediante la desigualdad de Burkholder-Davis-Gundy se agregan términos de varianza, obteniendo: $\frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}]$

Configuración Experimental

Verificación Teórica

El artículo proporciona principalmente análisis teórico, verificado mediante:

Análisis de Complejidad: Derivación detallada de cotas de complejidad de oráculo
Pruebas de Convergencia: Demostración rigurosa de propiedades de convergencia del algoritmo
Selección de Parámetros: Orientación teórica para configuración óptima de parámetros

Detalles de Implementación

Tamaño de Minilote: $b = \lceil n^{1/2} \rceil$

Longitud de Época:

Sin regularización: $T_{max} = \Theta(n^{1/3})$
Con regularización: $T_{max} = \Theta(n^{3/5})$

Solucionador Interno: Método de bisección de secante + gradiente conjugado truncado para resolver el subproblema cúbico

Resultados Experimentales

Resultados Teóricos Principales

Teorema 8.3 (Complejidad No-Convexa): Bajo los supuestos (A1)-(A5), el algoritmo Re³MCN retorna un punto estacionario de segundo orden $(\varepsilon,\sqrt{L_2\varepsilon})$ -SOSP con complejidad total de oráculo: $G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$

Teorema 6.1 (Tasa de Convergencia Convexa): Asumiendo que $F$ es convexa, el algoritmo alcanza tasa de convergencia: $E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}}$

Comparación de Complejidad

En comparación con métodos existentes:

Dependencia de $n$ Mejorada: Mejora de $n^{5/6}$ o $n^{4/5}$ a $n^{1/2}$
Dependencia de $\varepsilon$ Óptima: Alcanza la tasa óptima $\varepsilon^{-3/2}$
Marco Unificado: Maneja simultáneamente casos convexos y no-convexos

Trabajo Relacionado

Métodos de Newton con Regularización Cúbica

Nesterov & Polyak (2006): Método CRN determinista
Diversas variantes estocásticas: Evolución de métodos SCRN

Técnicas de Reducción de Varianza

Método SARAH: Base de reducción de varianza recursiva
Métodos como SPIDER: Estimadores de diferencia de integral de trayectoria

Métodos Estocásticos de Segundo Orden

Aplicación de métodos de Newton con reducción de varianza en funciones fuertemente convexas
Aplicación de VR-CN en optimización de políticas

Conclusiones y Discusión

Conclusiones Principales

Avance Teórico: Primera realización de complejidad de oráculo $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ en optimización no-convexa de suma finita
Innovación Técnica: La combinación EMA-SARAH proporciona reducción de varianza más estable
Practicidad: El estimador de Hutchinson hace el método aplicable a problemas de alta dimensionalidad

Limitaciones

Supuestos Teóricos: Requiere suposiciones de continuidad de Lipschitz y acotación de la Hessiana
Ajuste de Parámetros: Múltiples hiperparámetros requieren selección apropiada
Verificación Experimental: Proporciona principalmente análisis teórico, carece de verificación empírica a gran escala

Direcciones Futuras

Selección Adaptativa de Parámetros: Desarrollo de métodos para seleccionar adaptativamente pesos EMA y parámetros de regularización
Supuestos Más Débiles: Relajación de supuestos sobre propiedades de la Hessiana
Aplicaciones Prácticas: Verificación de efectividad del método en problemas reales como aprendizaje profundo

Evaluación Profunda

Fortalezas

Rigor Teórico: Proporciona análisis de convergencia completo y cotas de complejidad
Innovación Técnica: La combinación de EMA y SARAH es una contribución técnica novedosa
Consideraciones Prácticas: El estimador de Hutchinson y solucionador interno rápido mejoran la practicidad
Marco Unificado: Maneja simultáneamente casos convexos y no-convexos

Deficiencias

Ausencia de Experimentos: Carece de comparaciones empíricas con métodos existentes
Restricción de Supuestos: Ciertos supuestos pueden no satisfacerse en problemas prácticos
Dependencia de Constantes: Las cotas teóricas pueden involucrar constantes grandes

Impacto Potencial

Contribución Teórica: Avance importante en teoría de optimización estocástica de segundo orden
Valor Metodológico: La técnica EMA-SARAH puede inspirar diseños de otros algoritmos
Potencial Práctico: Proporciona nuevas herramientas para optimización no-convexa a gran escala

Escenarios de Aplicación

Aprendizaje Automático a Gran Escala: Especialmente problemas no-convexos que requieren escape de puntos de silla
Aprendizaje Profundo: Optimización de segundo orden en entrenamiento de redes neuronales
Computación Científica: Problemas de optimización que requieren soluciones de alta precisión

Referencias

El artículo cita 15 referencias relacionadas, abarcando trabajos principales en métodos de regularización cúbica, técnicas de reducción de varianza y optimización estocástica de segundo orden, proporcionando una base teórica sólida para esta investigación.

Evaluación General: Este es un artículo con contribuciones teóricas importantes en el campo de la optimización estocástica de segundo orden. Mediante la combinación ingeniosa de técnicas EMA y SARAH, logra las mejores cotas de complejidad de oráculo conocidas actualmente. Aunque carece de verificación experimental, el análisis teórico es riguroso y la innovación técnica es evidente, con un impacto significativo en el desarrollo del campo.