2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic

Convergencia de optimizadores implica filtrado de valores propios en equilibrio

Información Básica

  • ID del Artículo: 2510.09034
  • Título: Convergence of optimizers implies eigenvalues filtering at equilibrium
  • Autores: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
  • Clasificación: cs.LG math.DS math.OC
  • Fecha de Publicación: 13 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09034

Resumen

La evidencia empírica abundante del entrenamiento de redes neuronales profundas sugiere que diversos optimizadores tienden a encontrar soluciones cercanas al óptimo global. Este artículo adopta una perspectiva inversa, asumiendo la convergencia a un punto arbitrario en lugar de demostrar la convergencia, enfocándose en las consecuencias de esta suposición. Desde este ángulo, combinado con avances recientes en fenómenos de estabilidad marginal, los autores argumentan que diferentes optimizadores actúan efectivamente como filtros de valores propios determinados por sus hiperparámetros. Específicamente, los métodos estándar de descenso de gradiente evitan inherentemente los mínimos más agudos, mientras que el algoritmo de minimización consciente de agudeza (SAM) favorece activamente cuencas más amplias. Basándose en estos conocimientos, los autores proponen dos nuevos algoritmos que demuestran capacidades mejoradas de filtrado de valores propios, promoviendo efectivamente mínimos más amplios. El análisis teórico utiliza el teorema generalizado de variedades estables de Hadamard-Perron, aplicable a funciones semiálgebraicas C² generales, sin necesidad de condiciones adicionales de no degeneración o suposiciones de límites de Lipschitz globales.

Contexto de Investigación y Motivación

Problema Central

El problema central que aborda esta investigación es comprender el comportamiento de convergencia de algoritmos de optimización en aprendizaje profundo, particularmente cómo seleccionan mínimos específicos en el complejo paisaje de la función de pérdida. La investigación tradicional se enfoca en demostrar convergencia, mientras que este artículo adopta una perspectiva "inversa": asumiendo que la convergencia ya ha ocurrido, analiza cómo esta convergencia restringe las propiedades geométricas del punto alcanzado (particularmente los valores propios de la Hessiana).

Importancia

  1. Conexión entre Estabilidad y Generalización: El entrenamiento estable se relaciona con cuencas de atracción amplias y mínimos planos, características estrechamente vinculadas al desempeño de generalización
  2. Fenómeno de Estabilidad Marginal: Las observaciones empíricas sugieren que el entrenamiento estándar típicamente opera cerca del límite de estabilidad
  3. Significado Práctico: Comprender las preferencias implícitas de los optimizadores ayuda a diseñar mejores algoritmos de entrenamiento

Limitaciones de Métodos Existentes

  • Las teorías existentes típicamente requieren condiciones de suposiciones estrictas (como límites de Lipschitz globales, condiciones de no degeneración)
  • Falta un marco unificado para comprender el comportamiento de filtrado de valores propios de diferentes optimizadores
  • Comprensión teórica limitada de algoritmos tipo SAM

Motivación de la Investigación

En la última década, el entrenamiento exitoso en la práctica del aprendizaje profundo se ha convertido en la norma, lo que ha impulsado la perspectiva de investigación de "cuándo converge" hacia "por qué la convergencia es exitosa y cómo los hiperparámetros lo hacen posible".

Contribuciones Principales

  1. Marco Teórico Unificado: Propone un marco de análisis unificado basado en el teorema generalizado de variedades estables de Hadamard-Perron, aplicable a una amplia categoría de algoritmos de optimización
  2. Teoría de Filtrado de Valores Propios: Demuestra que los optimizadores que convergen exitosamente necesariamente imponen restricciones en los valores propios de la Hessiana del punto alcanzado, formando un efecto de "filtrado de valores propios"
  3. Análisis de Algoritmos: Analiza sistemáticamente las propiedades de filtrado de valores propios del descenso de gradiente, método de bola pesada, gradiente acelerado de Nesterov y USAM
  4. Propuesta de Nuevos Algoritmos: Diseña dos nuevos algoritmos, Two-step USAM y Hessian USAM, que demuestran capacidades mejoradas de filtrado de valores propios
  5. Extensión Teórica: Extiende los resultados existentes a clases de funciones semiálgebraicas más generales, eliminando suposiciones abstractas de no degeneración

Detalles del Método

Definición de la Tarea

Considere un algoritmo de optimización iterativo de forma general: xk+1=Gα(xk)=Dxkαg(xk),k=0,1,2,x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots

Donde:

  • DRm×mD \in \mathbb{R}^{m \times m} es una matriz invertible
  • g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m es un mapeo semiálgebraico continuamente diferenciable C¹
  • α>0\alpha > 0 es el parámetro de tamaño de paso

Resultados Teóricos Principales

Teorema Principal (Filtrado de Valores Propios)

Teorema 1.1: Sea DRm×mD \in \mathbb{R}^{m \times m} una matriz invertible, g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m un mapeo semiálgebraico C¹. Para casi todo x0Rmx_0 \in \mathbb{R}^m y α>0\alpha > 0, si la sucesión (xk)kN(x_k)_{k \in \mathbb{N}} converge a algún punto xˉ\bar{x}, entonces el radio espectral del Jacobiano de DαgD - \alpha g en xˉ\bar{x} es a lo sumo 1: ρ(JacGα(xˉ))1\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1

Extensión del Teorema de Variedades Estables

Teorema 2.1: Existe ΛR+\Lambda \subset \mathbb{R}_+ cuyo complemento es un conjunto finito, tal que para cualquier αΛ\alpha \in \Lambda, el conjunto Wα={x0Rmxˉ tal que Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xkxˉ}W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ tal que } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} está contenido en una unión numerable de subvariedades C¹ de dimensión a lo sumo m1m-1.

Puntos de Innovación Técnica

  1. Suposición Semiálgebraica: Utiliza la clase de funciones semiálgebraicas como condición suficiente, incluyendo casi todas las funciones comunes en aprendizaje profundo
  2. Sin Condiciones Globales: No requiere límites de Lipschitz globales ni suposiciones de no degeneración
  3. Marco de Análisis Unificado: Mediante la forma matricial unificada DD y el mapeo gg, abarca múltiples algoritmos de optimización

Análisis de Algoritmos Específicos

Descenso de Gradiente

Proposición 3.1: Para el descenso de gradiente xk+1=xkαf(xk)x_{k+1} = x_k - \alpha \nabla f(x_k), si converge a xˉ\bar{x}, entonces todos los valores propios λ\lambda de 2f(xˉ)\nabla^2f(\bar{x}) satisfacen: 0λ2α0 \leq \lambda \leq \frac{2}{\alpha}

Método de Bola Pesada

Proposición 3.2: Para el método de bola pesada, la restricción de valores propios es: 0λ2(1+β)α0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}

Algoritmo USAM

Proposición 3.4: Para el algoritmo USAM xk+1=xkαf(xk+ρf(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)), el valor propio λ\lambda satisface: 0λ(1+ρλ)2(1+β)α0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}

Equivalentemente: 0λ1+8(1+β)ρ/α12ρ0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}

Diseño de Nuevos Algoritmos

Two-step USAM

Regla de actualización: xk+1=xkαf(xk+ρf(xk)+ρf(xk+ρf(xk)))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))

Restricción de valores propios: 0λ(1+ρλ)22(1+β)α0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}

Hessian USAM

Regla de actualización: xk+1=xkαf(xk+ρ2f(xk)f(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))

Restricción de valores propios: 0λ(1+ρλ2)2(1+β)α0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}

Configuración Experimental

Conjuntos de Datos

  1. MNIST + MLP: Dimensiones de capas ocultas {128, 64, 10, 10}, activación ReLU, pérdida de entropía cruzada
  2. Fashion-MNIST + MLP: Misma configuración anterior
  3. CIFAR10 + WideResNet-16-8: Arquitectura WideResNet sin capas de normalización por lotes

Configuración Experimental

  • Tamaño de lote: 128
  • Tasa de aprendizaje: α=0.01\alpha = 0.01
  • Decaimiento de pesos: 5×1045 \times 10^{-4}
  • Momento: β{0,0.9}\beta \in \{0, 0.9\}
  • Parámetro SAM: ρ\rho seleccionado mediante búsqueda en cuadrícula

Métricas de Evaluación

  • Precisión en prueba
  • Los tres valores propios máximos de la matriz Hessiana

Resultados Experimentales

Hallazgos Principales

  1. Verificación del Filtrado de Valores Propios: Los resultados experimentales son altamente consistentes con las predicciones teóricas, USAM, Two-step USAM y Hessian USAM efectivamente encuentran mínimos más planos
  2. Comparación de Algoritmos:
    • Descenso de gradiente estándar: desempeño de referencia
    • USAM: reducción significativa de valores propios de la Hessiana
    • Two-step USAM: mejora adicional del filtrado de valores propios
    • Hessian USAM: efecto de mejora similar
  3. Dependencia de Arquitectura:
    • Arquitectura MLP: predicciones teóricas altamente consistentes con resultados experimentales
    • WideResNet: diferencias menores, posiblemente debido a mayor dificultad de entrenamiento

Observaciones Experimentales

  1. Requisitos de Estabilidad: Two-step USAM y Hessian USAM requieren valores más pequeños de ρ\rho para evitar fallos de entrenamiento, consistente con las restricciones de curvatura más estrictas predichas por la teoría
  2. Impacto de Normalización por Lotes: En arquitecturas con normalización por lotes, el efecto de aplanamiento de algoritmos tipo SAM no es evidente, lo que no contradice la teoría, ya que la normalización por lotes altera la dinámica del algoritmo

Trabajo Relacionado

Teorema de Variedades Estables

  • Resultados clásicos de Hadamard (1901), Perron (1929)
  • Aplicaciones en optimización moderna: Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

Fenómeno de Estabilidad Marginal

  • Cohen et al. (2021, 2022): Estabilidad marginal de descenso de gradiente y métodos adaptativos
  • Andreyev & Beneventano (2024): Extensión a algoritmos estocásticos

Minimización Consciente de Agudeza

  • Foret et al. (2021): Algoritmo SAM original
  • Andriushchenko & Flammarion (2022): Variantes USAM
  • Análisis teórico posterior: Zhou et al. (2025), Marion & Chizat (2024)

Conclusiones y Discusión

Conclusiones Principales

  1. Perspectiva Unificada: El entrenamiento exitoso de optimizadores es esencialmente un proceso de filtrado de valores propios, donde diferentes algoritmos logran diferentes grados de filtrado a través de hiperparámetros
  2. Extensión Teórica: El teorema generalizado de variedades estables proporciona una herramienta teórica poderosa para comprender algoritmos de optimización
  3. Orientación Práctica: Los resultados teóricos proporcionan orientación principista para el diseño de nuevos algoritmos de optimización

Limitaciones

  1. Suposición Semiálgebraica: Aunque tiene amplia cobertura, aún tiene ciertas limitaciones
  2. Costo Computacional de Nuevos Algoritmos: Two-step USAM y Hessian USAM tienen mayor costo por iteración
  3. Compatibilidad con Normalización por Lotes: El marco teórico aún no cubre operaciones de normalización por lotes

Direcciones Futuras

  1. Extensión a Clases de Funciones Más Generales: Explorar extensiones teóricas sin la suposición semiálgebraica
  2. Teoría de Normalización por Lotes: Extender el marco teórico a arquitecturas que incluyen normalización por lotes
  3. Optimización de Algoritmos Prácticos: Reducir el costo computacional de nuevos algoritmos mientras se mantienen las ventajas teóricas

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Proporciona una perspectiva completamente nueva para comprender algoritmos de optimización, pasando de "prueba de convergencia" a "análisis de consecuencias de convergencia"
  2. Marco Unificado: Proporciona por primera vez un marco teórico unificado para analizar el comportamiento de filtrado de valores propios de múltiples algoritmos de optimización
  3. Valor Práctico: Los resultados teóricos guían directamente el diseño de nuevos algoritmos, verificados experimentalmente
  4. Rigor Técnico: Las derivaciones matemáticas son rigurosas, con condiciones de suposición claras y razonables

Deficiencias

  1. Escala Experimental Limitada: Los experimentos se realizan principalmente en arquitecturas y conjuntos de datos relativamente simples, con validación experimental a gran escala insuficiente
  2. Evaluación de Nuevos Algoritmos: Se necesita más trabajo para una evaluación integral del desempeño de Two-step USAM y Hessian USAM (incluyendo capacidad de generalización)
  3. Brecha Teórica: Existe cierta discrepancia entre el desempeño real del algoritmo SAM y las predicciones teóricas (como problemas de puntos de silla estrictos)

Impacto

  1. Contribución Teórica: Proporciona nuevas herramientas y perspectivas de análisis para la teoría de optimización
  2. Valor Práctico: Proporciona orientación principista para el diseño de algoritmos de optimización
  3. Significado Interdisciplinario: Conecta la teoría de sistemas dinámicos con la práctica del aprendizaje automático

Escenarios Aplicables

  1. Optimización en Aprendizaje Profundo: Particularmente adecuado para comprender y mejorar algoritmos de entrenamiento de redes neuronales
  2. Optimización No Convexa: Proporciona nuevas herramientas de análisis para problemas de optimización no convexa general
  3. Diseño de Algoritmos: Guía el diseño y análisis de nuevos algoritmos de optimización

Referencias

Este artículo cita una cantidad significativa de trabajo relacionado, incluyendo principalmente:

  • Literatura clásica de teoría de sistemas dinámicos
  • Avances en teoría de optimización moderna
  • Investigación sobre estabilidad y generalización en aprendizaje profundo
  • Trabajo relacionado con minimización consciente de agudeza
  • Investigación teórica y experimental sobre fenómenos de estabilidad marginal

Evaluación General: Este es un excelente artículo que combina profundidad teórica con valor práctico, proporcionando nuevas herramientas teóricas para comprender fenómenos de optimización en aprendizaje profundo, y demostrando casos de éxito de teoría guiando el diseño de algoritmos. Aunque hay espacio para mejora en la validación experimental a gran escala, sus contribuciones teóricas y perspectiva innovadora lo convierten en un avance importante en el campo de la teoría de optimización.