Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Pasechnyuk-Vilensky, Kamzolov, TakáÄ
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic
Re³MCN: Newton Cúbico + Reducción de Varianza + Momentum + Regularización Cuadrática para Problemas de Suma Finita No-Convexa
Este artículo propone un método de regularización cúbica de Newton estocástica para problemas de optimización de suma finita minx∈RdF(x)=n1∑i=1nfi(x). El método utiliza técnicas de reducción de varianza de tipo SARAH, combinadas con minilotes de tamaño b∼n1/2 y promedios móviles exponenciales (EMA) para estimar el gradiente y la matriz Hessiana. Se demuestra que el método alcanza un punto estacionario de segundo orden (ε,L2ε)-SOSP con una complejidad de oráculo estocástico de n+O~(n1/2ε−3/2) en el caso no-convexo, y una tasa de convergencia de O~(T2LR3+T2σ2R2+Tσ1R) en el caso convexo.
Encontrar puntos estacionarios de segundo orden en la optimización no-convexa de aprendizaje automático es un desafío fundamental. Problemas como el entrenamiento de redes neuronales profundas, descomposición de tensores e inferencia bayesiana típicamente involucran funciones objetivo donde los métodos de primer orden pueden estancarse en puntos de silla.
Escape de Puntos de Silla: Los métodos de segundo orden utilizan información de curvatura para proporcionar una vía potencial para escapar de puntos de silla
Cuello de Botella Computacional: El costo computacional de procesar matrices Hessianas exactas es prohibitivo, especialmente para problemas de minimización de riesgo empírico a gran escala, con complejidad O(nd2)
Garantías Teóricas: El método de Newton con regularización cúbica (CRN) proporciona garantías de convergencia sólidas para escapar de puntos de silla en la trayectoria de optimización
Integrar técnicas de reducción de varianza con actualizaciones de segundo orden para desarrollar algoritmos que proporcionen tanto garantías teóricas como eficiencia práctica, particularmente en escenarios de alta dimensionalidad evitando el cuello de botella O(d2).
Diseño del Algoritmo: Se propone el algoritmo Re³MCN, que combina estimadores EMA-SARAH para gradiente y Hessiana, junto con un solucionador de subproblemas sin matriz basado en estimadores de Hutchinson
Garantías Teóricas: Se demuestra que Re³MCN alcanza un punto estacionario de segundo orden (ε,Lε)-SOSP con complejidad de oráculo O~(n+n1/2ε−3/2) en el caso no-convexo, y tasa de convergencia O~(T2LR3+T2σ2R2+Tσ1R) en el caso convexo
Eficiencia Práctica: El diseño del algoritmo es aplicable a problemas de alta dimensionalidad, evitando el cuello de botella O(d2) mediante solucionadores internos sin matriz
Implementabilidad: Se realizan experimentos numéricos comparando métodos de Newton cúbico con reducción de varianza existentes, implementado como parte del paquete OPTAMI
Combinación EMA-SARAH: Primera combinación de promedios móviles exponenciales con técnicas de reducción de varianza SARAH, logrando estimaciones más estables
Regularización Cuadrática Adaptativa:
Caso convexo: βt=2max{bC4σ2,C5L2R}(t+1)
Caso no-convexo: Introducción de término cuadrático proximal fijo para mejorar la agregación de ruido
Implementación Sin Matriz: Realización basada en estimadores de Hutchinson para productos Hessiana-vector, evitando almacenamiento explícito de la matriz Hessiana
Cota de Descenso de Un Paso:
E[F(xt+1)−F(xt)∣Gt]≤−8L2E[∥st∥3]+32M−1/2E[∥ϵt∥3/2]+M−1/2E[∥Σt∥op3/2]
Desigualdad Principal: Mediante la desigualdad de Burkholder-Davis-Gundy se agregan términos de varianza, obteniendo:
8L2E[ST]≤ΔF+b3/4C∗T9/8E[ST1/6]
Teorema 8.3 (Complejidad No-Convexa):
Bajo los supuestos (A1)-(A5), el algoritmo Re³MCN retorna un punto estacionario de segundo orden (ε,L2ε)-SOSP con complejidad total de oráculo:
G=H≤n+O~(n1/2ε−3/2)
Teorema 6.1 (Tasa de Convergencia Convexa):
Asumiendo que F es convexa, el algoritmo alcanza tasa de convergencia:
E[F(xT)−F∗]≤(T+1)2C1L2R3+Cββ0R2+T+1C3σ1R
El artículo cita 15 referencias relacionadas, abarcando trabajos principales en métodos de regularización cúbica, técnicas de reducción de varianza y optimización estocástica de segundo orden, proporcionando una base teórica sólida para esta investigación.
Evaluación General: Este es un artículo con contribuciones teóricas importantes en el campo de la optimización estocástica de segundo orden. Mediante la combinación ingeniosa de técnicas EMA y SARAH, logra las mejores cotas de complejidad de oráculo conocidas actualmente. Aunque carece de verificación experimental, el análisis teórico es riguroso y la innovación técnica es evidente, con un impacto significativo en el desarrollo del campo.