2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic

Métodos de Gradiente Precondicionados No Linealmente: Análisis de Momento y Estocástico

Información Básica

  • ID del Artículo: 2510.11312
  • Título: Métodos de Gradiente Precondicionados No Linealmente: Análisis de Momento y Estocástico
  • Autores: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
  • Clasificación: math.OC (Optimización y Control)
  • Conferencia de Publicación: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11312

Resumen

Este artículo investiga métodos de gradiente precondicionados no linealmente para problemas de optimización no convexa suave, enfocándose en precondicionadores sigmoides que esencialmente ejecutan la técnica ampliamente utilizada de recorte de gradientes. Basándose en esta idea, los autores introducen un novedoso algoritmo de tipo bola de nieve y proporcionan garantías de convergencia bajo condiciones de suavidad generalizada más relajadas que las restricciones tradicionales de suavidad Lipschitz, cubriendo así una clase más amplia de funciones. Además, los autores desarrollan variantes estocásticas del método base e investigan sus propiedades de convergencia bajo diferentes supuestos de ruido.

Contexto de Investigación y Motivación

  1. Problema a Resolver: Los métodos tradicionales de descenso de gradiente (GD) y descenso de gradiente estocástico (SGD) requieren ajuste cuidadoso de parámetros o estrategias costosas de búsqueda de línea cuando se aplican a aplicaciones modernas de aprendizaje automático que no satisfacen el supuesto global de gradiente Lipschitz.
  2. Importancia del Problema: La mayoría de las funciones de costo en aplicaciones modernas de aprendizaje profundo no satisfacen el supuesto tradicional de gradiente Lipschitz, y las técnicas de recorte de gradientes se han convertido en práctica estándar en tareas como modelos de lenguaje para estabilizar el entrenamiento de redes neuronales.
  3. Limitaciones de Métodos Existentes:
    • Los métodos GD/SGD estándar convergen con dificultad al tratar problemas que exceden la suavidad Lipschitz
    • El análisis teórico de métodos de recorte de gradientes existentes se limita principalmente a condiciones de suavidad específicas
    • Falta análisis de métodos con momento en configuraciones más generales
  4. Motivación de la Investigación: Unificar métodos de recorte de gradientes dentro de un marco de preacondicionamiento no lineal y extender a análisis teórico más general que incluya variantes con momento y estocásticas.

Contribuciones Principales

  1. Extensión de Métodos de Descenso Anisotrópico: Se investigan garantías de convergencia en configuraciones no convexas generales mediante la incorporación de momento de bola de nieve en iteraciones base.
  2. Propuesta de Extensiones Estocásticas: Se analizan versiones estocásticas del método base bajo diferentes supuestos de ruido, incluyendo condiciones más relajadas que varianza acotada.
  3. Contribuciones de Análisis Teórico:
    • Se prueba convergencia de algoritmos con momento bajo desigualdades de descenso anisotrópico
    • Se prueba tasa de convergencia lineal bajo condiciones PL generalizadas
    • Se analizan métodos estocásticos bajo nuevos supuestos de ruido
  4. Verificación Experimental: Se demuestra buen desempeño del método propuesto en diversas tareas de aprendizaje automático, incluyendo entrenamiento de redes neuronales y factorización de matrices.

Explicación Detallada del Método

Definición de la Tarea

Considérese el problema de minimización general: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x) donde f:RnRf: \mathbb{R}^n \to \mathbb{R} es una función suave y potencialmente no convexa.

Marco Principal: Métodos de Gradiente Precondicionados No Linealmente

Método Base: xk+1=xkγϕ(f(xk))x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))

donde ϕ:RnR\phi: \mathbb{R}^n \to \mathbb{R} es una función de referencia convexa, ϕ\phi^* es su conjugada convexa, y ϕ\nabla \phi^* genera el precondicionador.

Idea Clave: Mediante la selección de una función de referencia fuertemente convexa con dominio acotado ϕ\phi, la aplicación ϕ\nabla \phi^* mapea Rn\mathbb{R}^n a la bola nn-dimensional unitaria, implementando naturalmente el recorte de gradientes.

Algoritmo 1: Método de Gradiente Precondicionado No Lineal con Momento (m-NPGM)

Entrada: Elegir x⁰ ∈ ℝⁿ, γ, β > 0, establecer m⁻¹ = 0ⁿ
Repetir k = 0, 1, ... hasta convergencia:
1. Calcular mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Calcular xᵏ⁺¹ = xᵏ - γmᵏ

Forma Equivalente: xk+1=xk(1β)γϕ(f(xk))+β(xkxk1)x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})

Desigualdad de Descenso Anisotrópico

Definición: Una función ff satisface la propiedad de descenso anisotrópico relativa a ϕ\phi si para todo x,xˉRnx, \bar{x} \in \mathbb{R}^n: f(x)f(xˉ)+1Lϕ(xyˉ)1Lϕ(xˉyˉ)f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y}) donde yˉ=xˉ1Lϕ(f(xˉ))\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x})).

Puntos de Innovación Técnica

  1. Diseño del Momento: A diferencia de métodos estándar, el momento en este artículo se estima mediante combinación convexa de gradientes precondicionados, en lugar de agregar gradientes primero y luego precondicionar.
  2. Suavidad Generalizada: La suavidad anisotrópica impone restricciones menos severas que la suavidad (L0,L1)(L_0, L_1), cubriendo una clase más amplia de funciones.
  3. Marco de Análisis Unificado: Se proporciona análisis de convergencia unificado basado en la convexidad de la función de referencia ϕ\phi.

Resultados Teóricos

Teoremas de Convergencia Principal

Teorema 2.2: Bajo condiciones de suavidad anisotrópica, para β[0,0.5)\beta \in [0, 0.5) y γ=α/L\gamma = \alpha/L, α1\alpha \leq 1: min0kKϕ(ϕ(f(xk)))L(f(x0)f)α(K+1)(12β)\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}

Teorema 2.4: Bajo condiciones PL generalizadas, para funciones de referencia homogéneas de grado 2: f(xk)fαk(f(x0)f)f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*) donde α=max{1γμ(β2β2),β+2β2}\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}.

Análisis de Métodos Estocásticos

Teorema 3.1: Bajo la condición de ruido E[ϕ(ϕ(f(x))ϕ(g(x)))]σ2\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2: E[1Kk=0K1ϕ(ϕ(f(xk)))]f(x0)fγK+σ2\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2

Configuración Experimental

Conjuntos de Datos

  1. MNIST: Clasificación de dígitos manuscritos, utilizando red completamente conectada de dos capas
  2. CIFAR-10/100: Clasificación de imágenes, utilizando arquitectura ResNet-18/34
  3. MovieLens 100K: Problema de factorización de matrices
  4. Recuperación de Fase: Problema de optimización no convexa

Métricas de Evaluación

  • Velocidad de convergencia de pérdida de entrenamiento
  • Precisión de prueba
  • Norma de gradiente f(xk)\|\nabla f(x^k)\|

Métodos de Comparación

  • SGD/SGDm: Descenso de gradiente estocástico estándar y su variante con momento
  • Adam: Método de tasa de aprendizaje adaptativa
  • GD/GDm: Descenso de gradiente estándar y su variante con momento
  • AdGD-accel: Variante acelerada de método de gradiente adaptativo

Detalles de Implementación

  • Utilización de tamaño de paso fijo
  • Descenso de Gradiente Hiperbólico (HGD): ϕ(x)=cosh(x)1\phi(x) = \cosh(\|x\|) - 1
  • Versión Separable: ϕ(x)=i=1ncosh(xi)1\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1

Resultados Experimentales

Resultados Principales

  1. Clasificación MNIST: iHGD alcanza rápidamente pérdida de entrenamiento pequeña, con desempeño superior a SGD y Adam
  2. Clasificación CIFAR-10: El método propuesto tiene desempeño comparable a SGD y SGDm, siendo este último el método de última generación para este problema
  3. Factorización de Matrices: iHGDm supera significativamente otros métodos, mostrando mayor estabilidad bajo diferentes inicializaciones aleatorias
  4. Recuperación de Fase: sHGD tiene desempeño similar a métodos de recorte de gradientes

Hallazgos Clave

  1. Tamaño de Paso Adaptativo: Para funciones de referencia con tasa de crecimiento superior a cuadrática, el precondicionador forma naturalmente una forma sigmoide, proporcionando una regla de tamaño de paso adaptativo implícita
  2. Estabilidad: En problemas no convexos como factorización de matrices, el método propuesto exhibe mejor estabilidad
  3. Aplicabilidad Amplia: El método funciona bien en diferentes tipos de tareas de aprendizaje automático

Trabajo Relacionado

Preacondicionamiento Dual/Descenso de Gradiente Anisotrópico

  • Introducido originalmente en 32 para problemas esencialmente suaves convexos
  • Desigualdad de descenso anisotrópico introducida en 24
  • Se muestra en 36 que el método incluye múltiples algoritmos populares

Recorte de Gradientes y Suavidad Generalizada

  • Concepto de suavidad (L0,L1)(L_0, L_1) introducido en 48
  • Marco general de recorte con momento analizado en 47
  • Numerosos trabajos dedicados a investigar tales métodos bajo supuestos relajados de ruido y suavidad

Conclusiones y Discusión

Conclusiones Principales

  1. Extensión exitosa de métodos de descenso anisotrópico para incluir momento de bola de nieve
  2. Provisión de garantías de convergencia bajo condiciones más relajadas que la suavidad Lipschitz tradicional
  3. Desarrollo de versiones estocásticas y análisis bajo nuevos supuestos de ruido
  4. Verificación experimental de la efectividad del método en diversas tareas de aprendizaje automático

Limitaciones

  1. Restricción de parámetro de momento a β[0,0.5)\beta \in [0, 0.5), sin posibilidad de extensión a β[0,1)\beta \in [0, 1)
  2. El supuesto de continuidad Lipschitz del precondicionador es más restrictivo que la suavidad anisotrópica
  3. Falta de análisis completo para métodos estocásticos con momento

Direcciones Futuras

  1. Análisis unificado de algoritmos con momento bajo supuestos de función de referencia relajados
  2. Extensión a parámetro de momento arbitrario β[0,1)\beta \in [0, 1)
  3. Extensión de algoritmos de tipo gradiente proximal completo para incluir momento
  4. Eliminación de dependencia del tamaño de lote para algoritmos estocásticos e inclusión de momento

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Proporciona el primer análisis de método con momento bajo condiciones de suavidad anisotrópica
  2. Marco Unificado: Unifica múltiples métodos como recorte de gradientes dentro del marco de preacondicionamiento no lineal
  3. Valor Práctico: El método funciona bien en tareas reales de aprendizaje automático
  4. Profundidad de Análisis: Proporciona análisis teórico completo en configuraciones determinísticas y estocásticas

Insuficiencias

  1. Restricciones de Parámetros: Las restricciones en el parámetro de momento (β<0.5\beta < 0.5) son más severas comparadas con análisis estándar
  2. Intensidad de Supuestos: Algunos resultados teóricos requieren supuestos técnicos adicionales
  3. Alcance Experimental: Los experimentos se concentran principalmente en tareas estándar de aprendizaje automático, careciendo de verificación de aplicaciones más amplias

Impacto

  1. Contribución Teórica: Proporciona nuevas herramientas e insights para análisis teórico de métodos precondicionados no linealmente
  2. Valor Práctico: Ofrece nuevos métodos para tratar problemas de optimización que exceden supuestos de suavidad estándar
  3. Reproducibilidad: Los autores proporcionan implementación de código abierto

Escenarios de Aplicación

  1. Entrenamiento de redes neuronales, especialmente en escenarios donde los gradientes pueden ser muy grandes
  2. Problemas de optimización no convexa, como factorización de matrices
  3. Aplicaciones que requieren recorte o normalización de gradientes
  4. Problemas de optimización que exceden la suavidad Lipschitz estándar

Referencias

El artículo incluye 48 referencias que abarcan trabajos importantes en teoría de optimización, aprendizaje automático y métodos numéricos, proporcionando una base teórica sólida para la investigación.