2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels

Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.

academic

Convergencia de optimizadores implica filtrado de valores propios en equilibrio

Información Básica

ID del Artículo: 2510.09034
Título: Convergence of optimizers implies eigenvalues filtering at equilibrium
Autores: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
Clasificación: cs.LG math.DS math.OC
Fecha de Publicación: 13 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09034

Resumen

La evidencia empírica abundante del entrenamiento de redes neuronales profundas sugiere que diversos optimizadores tienden a encontrar soluciones cercanas al óptimo global. Este artículo adopta una perspectiva inversa, asumiendo la convergencia a un punto arbitrario en lugar de demostrar la convergencia, enfocándose en las consecuencias de esta suposición. Desde este ángulo, combinado con avances recientes en fenómenos de estabilidad marginal, los autores argumentan que diferentes optimizadores actúan efectivamente como filtros de valores propios determinados por sus hiperparámetros. Específicamente, los métodos estándar de descenso de gradiente evitan inherentemente los mínimos más agudos, mientras que el algoritmo de minimización consciente de agudeza (SAM) favorece activamente cuencas más amplias. Basándose en estos conocimientos, los autores proponen dos nuevos algoritmos que demuestran capacidades mejoradas de filtrado de valores propios, promoviendo efectivamente mínimos más amplios. El análisis teórico utiliza el teorema generalizado de variedades estables de Hadamard-Perron, aplicable a funciones semiálgebraicas C² generales, sin necesidad de condiciones adicionales de no degeneración o suposiciones de límites de Lipschitz globales.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es comprender el comportamiento de convergencia de algoritmos de optimización en aprendizaje profundo, particularmente cómo seleccionan mínimos específicos en el complejo paisaje de la función de pérdida. La investigación tradicional se enfoca en demostrar convergencia, mientras que este artículo adopta una perspectiva "inversa": asumiendo que la convergencia ya ha ocurrido, analiza cómo esta convergencia restringe las propiedades geométricas del punto alcanzado (particularmente los valores propios de la Hessiana).

Importancia

Conexión entre Estabilidad y Generalización: El entrenamiento estable se relaciona con cuencas de atracción amplias y mínimos planos, características estrechamente vinculadas al desempeño de generalización
Fenómeno de Estabilidad Marginal: Las observaciones empíricas sugieren que el entrenamiento estándar típicamente opera cerca del límite de estabilidad
Significado Práctico: Comprender las preferencias implícitas de los optimizadores ayuda a diseñar mejores algoritmos de entrenamiento

Limitaciones de Métodos Existentes

Las teorías existentes típicamente requieren condiciones de suposiciones estrictas (como límites de Lipschitz globales, condiciones de no degeneración)
Falta un marco unificado para comprender el comportamiento de filtrado de valores propios de diferentes optimizadores
Comprensión teórica limitada de algoritmos tipo SAM

Motivación de la Investigación

En la última década, el entrenamiento exitoso en la práctica del aprendizaje profundo se ha convertido en la norma, lo que ha impulsado la perspectiva de investigación de "cuándo converge" hacia "por qué la convergencia es exitosa y cómo los hiperparámetros lo hacen posible".

Contribuciones Principales

Marco Teórico Unificado: Propone un marco de análisis unificado basado en el teorema generalizado de variedades estables de Hadamard-Perron, aplicable a una amplia categoría de algoritmos de optimización
Teoría de Filtrado de Valores Propios: Demuestra que los optimizadores que convergen exitosamente necesariamente imponen restricciones en los valores propios de la Hessiana del punto alcanzado, formando un efecto de "filtrado de valores propios"
Análisis de Algoritmos: Analiza sistemáticamente las propiedades de filtrado de valores propios del descenso de gradiente, método de bola pesada, gradiente acelerado de Nesterov y USAM
Propuesta de Nuevos Algoritmos: Diseña dos nuevos algoritmos, Two-step USAM y Hessian USAM, que demuestran capacidades mejoradas de filtrado de valores propios
Extensión Teórica: Extiende los resultados existentes a clases de funciones semiálgebraicas más generales, eliminando suposiciones abstractas de no degeneración

Detalles del Método

Definición de la Tarea

Considere un algoritmo de optimización iterativo de forma general: $x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots$

Donde:

$D \in \mathbb{R}^{m \times m}$ es una matriz invertible
$g: \mathbb{R}^m \to \mathbb{R}^m$ es un mapeo semiálgebraico continuamente diferenciable C¹
$\alpha > 0$ es el parámetro de tamaño de paso

Resultados Teóricos Principales

Teorema Principal (Filtrado de Valores Propios)

Teorema 1.1: Sea $D \in \mathbb{R}^{m \times m}$ una matriz invertible, $g: \mathbb{R}^m \to \mathbb{R}^m$ un mapeo semiálgebraico C¹. Para casi todo $x_0 \in \mathbb{R}^m$ y $\alpha > 0$ , si la sucesión $(x_k)_{k \in \mathbb{N}}$ converge a algún punto $\bar{x}$ , entonces el radio espectral del Jacobiano de $D - \alpha g$ en $\bar{x}$ es a lo sumo 1: $\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1$

Extensión del Teorema de Variedades Estables

Teorema 2.1: Existe $\Lambda \subset \mathbb{R}_+$ cuyo complemento es un conjunto finito, tal que para cualquier $\alpha \in \Lambda$ , el conjunto $W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ tal que } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\}$ está contenido en una unión numerable de subvariedades C¹ de dimensión a lo sumo $m-1$ .

Puntos de Innovación Técnica

Suposición Semiálgebraica: Utiliza la clase de funciones semiálgebraicas como condición suficiente, incluyendo casi todas las funciones comunes en aprendizaje profundo
Sin Condiciones Globales: No requiere límites de Lipschitz globales ni suposiciones de no degeneración
Marco de Análisis Unificado: Mediante la forma matricial unificada $D$ y el mapeo $g$ , abarca múltiples algoritmos de optimización

Análisis de Algoritmos Específicos

Descenso de Gradiente

Proposición 3.1: Para el descenso de gradiente $x_{k+1} = x_k - \alpha \nabla f(x_k)$ , si converge a $\bar{x}$ , entonces todos los valores propios $\lambda$ de $\nabla^2f(\bar{x})$ satisfacen: $0 \leq \lambda \leq \frac{2}{\alpha}$

Método de Bola Pesada

Proposición 3.2: Para el método de bola pesada, la restricción de valores propios es: $0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}$

Algoritmo USAM

Proposición 3.4: Para el algoritmo USAM $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k))$ , el valor propio $\lambda$ satisface: $0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}$

Equivalentemente: $0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}$

Diseño de Nuevos Algoritmos

Two-step USAM

Regla de actualización: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))$

Restricción de valores propios: $0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}$

Hessian USAM

Regla de actualización: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))$

Restricción de valores propios: $0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}$

Configuración Experimental

Conjuntos de Datos

MNIST + MLP: Dimensiones de capas ocultas {128, 64, 10, 10}, activación ReLU, pérdida de entropía cruzada
Fashion-MNIST + MLP: Misma configuración anterior
CIFAR10 + WideResNet-16-8: Arquitectura WideResNet sin capas de normalización por lotes

Configuración Experimental

Tamaño de lote: 128
Tasa de aprendizaje: $\alpha = 0.01$
Decaimiento de pesos: $5 \times 10^{-4}$
Momento: $\beta \in \{0, 0.9\}$
Parámetro SAM: $\rho$ seleccionado mediante búsqueda en cuadrícula

Métricas de Evaluación

Precisión en prueba
Los tres valores propios máximos de la matriz Hessiana

Resultados Experimentales

Hallazgos Principales

Verificación del Filtrado de Valores Propios: Los resultados experimentales son altamente consistentes con las predicciones teóricas, USAM, Two-step USAM y Hessian USAM efectivamente encuentran mínimos más planos
Comparación de Algoritmos:
- Descenso de gradiente estándar: desempeño de referencia
- USAM: reducción significativa de valores propios de la Hessiana
- Two-step USAM: mejora adicional del filtrado de valores propios
- Hessian USAM: efecto de mejora similar
Dependencia de Arquitectura:
- Arquitectura MLP: predicciones teóricas altamente consistentes con resultados experimentales
- WideResNet: diferencias menores, posiblemente debido a mayor dificultad de entrenamiento

Observaciones Experimentales

Requisitos de Estabilidad: Two-step USAM y Hessian USAM requieren valores más pequeños de $\rho$ para evitar fallos de entrenamiento, consistente con las restricciones de curvatura más estrictas predichas por la teoría
Impacto de Normalización por Lotes: En arquitecturas con normalización por lotes, el efecto de aplanamiento de algoritmos tipo SAM no es evidente, lo que no contradice la teoría, ya que la normalización por lotes altera la dinámica del algoritmo

Trabajo Relacionado

Teorema de Variedades Estables

Resultados clásicos de Hadamard (1901), Perron (1929)
Aplicaciones en optimización moderna: Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

Fenómeno de Estabilidad Marginal

Cohen et al. (2021, 2022): Estabilidad marginal de descenso de gradiente y métodos adaptativos
Andreyev & Beneventano (2024): Extensión a algoritmos estocásticos

Minimización Consciente de Agudeza

Foret et al. (2021): Algoritmo SAM original
Andriushchenko & Flammarion (2022): Variantes USAM
Análisis teórico posterior: Zhou et al. (2025), Marion & Chizat (2024)

Conclusiones y Discusión

Conclusiones Principales

Perspectiva Unificada: El entrenamiento exitoso de optimizadores es esencialmente un proceso de filtrado de valores propios, donde diferentes algoritmos logran diferentes grados de filtrado a través de hiperparámetros
Extensión Teórica: El teorema generalizado de variedades estables proporciona una herramienta teórica poderosa para comprender algoritmos de optimización
Orientación Práctica: Los resultados teóricos proporcionan orientación principista para el diseño de nuevos algoritmos de optimización

Limitaciones

Suposición Semiálgebraica: Aunque tiene amplia cobertura, aún tiene ciertas limitaciones
Costo Computacional de Nuevos Algoritmos: Two-step USAM y Hessian USAM tienen mayor costo por iteración
Compatibilidad con Normalización por Lotes: El marco teórico aún no cubre operaciones de normalización por lotes

Direcciones Futuras

Extensión a Clases de Funciones Más Generales: Explorar extensiones teóricas sin la suposición semiálgebraica
Teoría de Normalización por Lotes: Extender el marco teórico a arquitecturas que incluyen normalización por lotes
Optimización de Algoritmos Prácticos: Reducir el costo computacional de nuevos algoritmos mientras se mantienen las ventajas teóricas

Evaluación Profunda

Fortalezas

Innovación Teórica: Proporciona una perspectiva completamente nueva para comprender algoritmos de optimización, pasando de "prueba de convergencia" a "análisis de consecuencias de convergencia"
Marco Unificado: Proporciona por primera vez un marco teórico unificado para analizar el comportamiento de filtrado de valores propios de múltiples algoritmos de optimización
Valor Práctico: Los resultados teóricos guían directamente el diseño de nuevos algoritmos, verificados experimentalmente
Rigor Técnico: Las derivaciones matemáticas son rigurosas, con condiciones de suposición claras y razonables

Deficiencias

Escala Experimental Limitada: Los experimentos se realizan principalmente en arquitecturas y conjuntos de datos relativamente simples, con validación experimental a gran escala insuficiente
Evaluación de Nuevos Algoritmos: Se necesita más trabajo para una evaluación integral del desempeño de Two-step USAM y Hessian USAM (incluyendo capacidad de generalización)
Brecha Teórica: Existe cierta discrepancia entre el desempeño real del algoritmo SAM y las predicciones teóricas (como problemas de puntos de silla estrictos)

Impacto

Contribución Teórica: Proporciona nuevas herramientas y perspectivas de análisis para la teoría de optimización
Valor Práctico: Proporciona orientación principista para el diseño de algoritmos de optimización
Significado Interdisciplinario: Conecta la teoría de sistemas dinámicos con la práctica del aprendizaje automático

Escenarios Aplicables

Optimización en Aprendizaje Profundo: Particularmente adecuado para comprender y mejorar algoritmos de entrenamiento de redes neuronales
Optimización No Convexa: Proporciona nuevas herramientas de análisis para problemas de optimización no convexa general
Diseño de Algoritmos: Guía el diseño y análisis de nuevos algoritmos de optimización

Referencias

Este artículo cita una cantidad significativa de trabajo relacionado, incluyendo principalmente:

Literatura clásica de teoría de sistemas dinámicos
Avances en teoría de optimización moderna
Investigación sobre estabilidad y generalización en aprendizaje profundo
Trabajo relacionado con minimización consciente de agudeza
Investigación teórica y experimental sobre fenómenos de estabilidad marginal

Evaluación General: Este es un excelente artículo que combina profundidad teórica con valor práctico, proporcionando nuevas herramientas teóricas para comprender fenómenos de optimización en aprendizaje profundo, y demostrando casos de éxito de teoría guiando el diseño de algoritmos. Aunque hay espacio para mejora en la validación experimental a gran escala, sus contribuciones teóricas y perspectiva innovadora lo convierten en un avance importante en el campo de la teoría de optimización.