2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos

We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.

academic

Métodos de Gradiente Precondicionados No Linealmente: Análisis de Momento y Estocástico

Información Básica

ID del Artículo: 2510.11312
Título: Métodos de Gradiente Precondicionados No Linealmente: Análisis de Momento y Estocástico
Autores: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
Clasificación: math.OC (Optimización y Control)
Conferencia de Publicación: 39ª Conferencia sobre Sistemas de Procesamiento de Información Neuronal (NeurIPS 2025)
Enlace del Artículo: https://arxiv.org/abs/2510.11312

Resumen

Este artículo investiga métodos de gradiente precondicionados no linealmente para problemas de optimización no convexa suave, enfocándose en precondicionadores sigmoides que esencialmente ejecutan la técnica ampliamente utilizada de recorte de gradientes. Basándose en esta idea, los autores introducen un novedoso algoritmo de tipo bola de nieve y proporcionan garantías de convergencia bajo condiciones de suavidad generalizada más relajadas que las restricciones tradicionales de suavidad Lipschitz, cubriendo así una clase más amplia de funciones. Además, los autores desarrollan variantes estocásticas del método base e investigan sus propiedades de convergencia bajo diferentes supuestos de ruido.

Contexto de Investigación y Motivación

Problema a Resolver: Los métodos tradicionales de descenso de gradiente (GD) y descenso de gradiente estocástico (SGD) requieren ajuste cuidadoso de parámetros o estrategias costosas de búsqueda de línea cuando se aplican a aplicaciones modernas de aprendizaje automático que no satisfacen el supuesto global de gradiente Lipschitz.
Importancia del Problema: La mayoría de las funciones de costo en aplicaciones modernas de aprendizaje profundo no satisfacen el supuesto tradicional de gradiente Lipschitz, y las técnicas de recorte de gradientes se han convertido en práctica estándar en tareas como modelos de lenguaje para estabilizar el entrenamiento de redes neuronales.
Limitaciones de Métodos Existentes:
- Los métodos GD/SGD estándar convergen con dificultad al tratar problemas que exceden la suavidad Lipschitz
- El análisis teórico de métodos de recorte de gradientes existentes se limita principalmente a condiciones de suavidad específicas
- Falta análisis de métodos con momento en configuraciones más generales
Motivación de la Investigación: Unificar métodos de recorte de gradientes dentro de un marco de preacondicionamiento no lineal y extender a análisis teórico más general que incluya variantes con momento y estocásticas.

Contribuciones Principales

Extensión de Métodos de Descenso Anisotrópico: Se investigan garantías de convergencia en configuraciones no convexas generales mediante la incorporación de momento de bola de nieve en iteraciones base.
Propuesta de Extensiones Estocásticas: Se analizan versiones estocásticas del método base bajo diferentes supuestos de ruido, incluyendo condiciones más relajadas que varianza acotada.
Contribuciones de Análisis Teórico:
- Se prueba convergencia de algoritmos con momento bajo desigualdades de descenso anisotrópico
- Se prueba tasa de convergencia lineal bajo condiciones PL generalizadas
- Se analizan métodos estocásticos bajo nuevos supuestos de ruido
Verificación Experimental: Se demuestra buen desempeño del método propuesto en diversas tareas de aprendizaje automático, incluyendo entrenamiento de redes neuronales y factorización de matrices.

Explicación Detallada del Método

Definición de la Tarea

Considérese el problema de minimización general: $\min_{x \in \mathbb{R}^n} f(x)$ donde $f: \mathbb{R}^n \to \mathbb{R}$ es una función suave y potencialmente no convexa.

Marco Principal: Métodos de Gradiente Precondicionados No Linealmente

Método Base: $x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))$

donde $\phi: \mathbb{R}^n \to \mathbb{R}$ es una función de referencia convexa, $\phi^*$ es su conjugada convexa, y $\nabla \phi^*$ genera el precondicionador.

Idea Clave: Mediante la selección de una función de referencia fuertemente convexa con dominio acotado $\phi$ , la aplicación $\nabla \phi^*$ mapea $\mathbb{R}^n$ a la bola $n$ -dimensional unitaria, implementando naturalmente el recorte de gradientes.

Algoritmo 1: Método de Gradiente Precondicionado No Lineal con Momento (m-NPGM)

Entrada: Elegir x⁰ ∈ ℝⁿ, γ, β > 0, establecer m⁻¹ = 0ⁿ
Repetir k = 0, 1, ... hasta convergencia:
1. Calcular mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Calcular xᵏ⁺¹ = xᵏ - γmᵏ

Forma Equivalente: $x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})$

Desigualdad de Descenso Anisotrópico

Definición: Una función $f$ satisface la propiedad de descenso anisotrópico relativa a $\phi$ si para todo $x, \bar{x} \in \mathbb{R}^n$ : $f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y})$ donde $\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))$ .

Puntos de Innovación Técnica

Diseño del Momento: A diferencia de métodos estándar, el momento en este artículo se estima mediante combinación convexa de gradientes precondicionados, en lugar de agregar gradientes primero y luego precondicionar.
Suavidad Generalizada: La suavidad anisotrópica impone restricciones menos severas que la suavidad $(L_0, L_1)$ , cubriendo una clase más amplia de funciones.
Marco de Análisis Unificado: Se proporciona análisis de convergencia unificado basado en la convexidad de la función de referencia $\phi$ .

Resultados Teóricos

Teoremas de Convergencia Principal

Teorema 2.2: Bajo condiciones de suavidad anisotrópica, para $\beta \in [0, 0.5)$ y $\gamma = \alpha/L$ , $\alpha \leq 1$ : $\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}$

Teorema 2.4: Bajo condiciones PL generalizadas, para funciones de referencia homogéneas de grado 2: $f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*)$ donde $\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}$ .

Análisis de Métodos Estocásticos

Teorema 3.1: Bajo la condición de ruido $\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2$ : $\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2$

Configuración Experimental

Conjuntos de Datos

MNIST: Clasificación de dígitos manuscritos, utilizando red completamente conectada de dos capas
CIFAR-10/100: Clasificación de imágenes, utilizando arquitectura ResNet-18/34
MovieLens 100K: Problema de factorización de matrices
Recuperación de Fase: Problema de optimización no convexa

Métricas de Evaluación

Velocidad de convergencia de pérdida de entrenamiento
Precisión de prueba
Norma de gradiente $\|\nabla f(x^k)\|$

Métodos de Comparación

SGD/SGDm: Descenso de gradiente estocástico estándar y su variante con momento
Adam: Método de tasa de aprendizaje adaptativa
GD/GDm: Descenso de gradiente estándar y su variante con momento
AdGD-accel: Variante acelerada de método de gradiente adaptativo

Detalles de Implementación

Utilización de tamaño de paso fijo
Descenso de Gradiente Hiperbólico (HGD): $\phi(x) = \cosh(\|x\|) - 1$
Versión Separable: $\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1$

Resultados Experimentales

Resultados Principales

Clasificación MNIST: iHGD alcanza rápidamente pérdida de entrenamiento pequeña, con desempeño superior a SGD y Adam
Clasificación CIFAR-10: El método propuesto tiene desempeño comparable a SGD y SGDm, siendo este último el método de última generación para este problema
Factorización de Matrices: iHGDm supera significativamente otros métodos, mostrando mayor estabilidad bajo diferentes inicializaciones aleatorias
Recuperación de Fase: sHGD tiene desempeño similar a métodos de recorte de gradientes

Hallazgos Clave

Tamaño de Paso Adaptativo: Para funciones de referencia con tasa de crecimiento superior a cuadrática, el precondicionador forma naturalmente una forma sigmoide, proporcionando una regla de tamaño de paso adaptativo implícita
Estabilidad: En problemas no convexos como factorización de matrices, el método propuesto exhibe mejor estabilidad
Aplicabilidad Amplia: El método funciona bien en diferentes tipos de tareas de aprendizaje automático

Trabajo Relacionado

Preacondicionamiento Dual/Descenso de Gradiente Anisotrópico

Introducido originalmente en 32 para problemas esencialmente suaves convexos
Desigualdad de descenso anisotrópico introducida en 24
Se muestra en 36 que el método incluye múltiples algoritmos populares

Recorte de Gradientes y Suavidad Generalizada

Concepto de suavidad $(L_0, L_1)$ introducido en 48
Marco general de recorte con momento analizado en 47
Numerosos trabajos dedicados a investigar tales métodos bajo supuestos relajados de ruido y suavidad

Conclusiones y Discusión

Conclusiones Principales

Extensión exitosa de métodos de descenso anisotrópico para incluir momento de bola de nieve
Provisión de garantías de convergencia bajo condiciones más relajadas que la suavidad Lipschitz tradicional
Desarrollo de versiones estocásticas y análisis bajo nuevos supuestos de ruido
Verificación experimental de la efectividad del método en diversas tareas de aprendizaje automático

Limitaciones

Restricción de parámetro de momento a $\beta \in [0, 0.5)$ , sin posibilidad de extensión a $\beta \in [0, 1)$
El supuesto de continuidad Lipschitz del precondicionador es más restrictivo que la suavidad anisotrópica
Falta de análisis completo para métodos estocásticos con momento

Direcciones Futuras

Análisis unificado de algoritmos con momento bajo supuestos de función de referencia relajados
Extensión a parámetro de momento arbitrario $\beta \in [0, 1)$
Extensión de algoritmos de tipo gradiente proximal completo para incluir momento
Eliminación de dependencia del tamaño de lote para algoritmos estocásticos e inclusión de momento

Evaluación Profunda

Fortalezas

Innovación Teórica: Proporciona el primer análisis de método con momento bajo condiciones de suavidad anisotrópica
Marco Unificado: Unifica múltiples métodos como recorte de gradientes dentro del marco de preacondicionamiento no lineal
Valor Práctico: El método funciona bien en tareas reales de aprendizaje automático
Profundidad de Análisis: Proporciona análisis teórico completo en configuraciones determinísticas y estocásticas

Insuficiencias

Restricciones de Parámetros: Las restricciones en el parámetro de momento ( $\beta < 0.5$ ) son más severas comparadas con análisis estándar
Intensidad de Supuestos: Algunos resultados teóricos requieren supuestos técnicos adicionales
Alcance Experimental: Los experimentos se concentran principalmente en tareas estándar de aprendizaje automático, careciendo de verificación de aplicaciones más amplias

Impacto

Contribución Teórica: Proporciona nuevas herramientas e insights para análisis teórico de métodos precondicionados no linealmente
Valor Práctico: Ofrece nuevos métodos para tratar problemas de optimización que exceden supuestos de suavidad estándar
Reproducibilidad: Los autores proporcionan implementación de código abierto

Escenarios de Aplicación

Entrenamiento de redes neuronales, especialmente en escenarios donde los gradientes pueden ser muy grandes
Problemas de optimización no convexa, como factorización de matrices
Aplicaciones que requieren recorte o normalización de gradientes
Problemas de optimización que exceden la suavidad Lipschitz estándar

Referencias

El artículo incluye 48 referencias que abarcan trabajos importantes en teoría de optimización, aprendizaje automático y métodos numéricos, proporcionando una base teórica sólida para la investigación.