2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic

Convergence of optimizers implies eigenvalues filtering at equilibrium

Informations Fondamentales

  • ID de l'article: 2510.09034
  • Titre: Convergence of optimizers implies eigenvalues filtering at equilibrium
  • Auteurs: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
  • Classification: cs.LG math.DS math.OC
  • Date de publication: 13 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2510.09034

Résumé

Les preuves empiriques abondantes de l'entraînement des réseaux de neurones profonds indiquent que diverses optimiseurs tendent à trouver des solutions proches de l'optimum global. Cet article adopte une perspective inverse, en supposant la convergence vers un point arbitraire plutôt que de prouver la convergence, en se concentrant sur les conséquences de cette hypothèse. De ce point de vue, combiné aux progrès récents du phénomène de stabilité marginale, les auteurs soutiennent que différents optimiseurs agissent en réalité comme des filtres de valeurs propres déterminés par leurs hyperparamètres. Concrètement, les méthodes de descente de gradient standard évitent intrinsèquement les minima les plus aigus, tandis que l'algorithme de minimisation consciente de l'acuité (SAM) favorise activement les bassins plus larges. Sur la base de ces observations, les auteurs proposent deux nouveaux algorithmes, démontrant une capacité de filtrage des valeurs propres améliorée, favorisant efficacement les minima plus larges. L'analyse théorique utilise le théorème généralisé de la variété stable de Hadamard-Perron, applicable aux fonctions semi-algébriques C² générales, sans nécessiter de conditions de non-dégénérescence supplémentaires ni d'hypothèses de limite de Lipschitz globale.

Contexte de Recherche et Motivation

Problème Central

La question centrale abordée par cette recherche est de comprendre le comportement de convergence des algorithmes d'optimisation dans l'apprentissage profond, en particulier comment ils sélectionnent des minima spécifiques dans le paysage complexe de la fonction de perte. La recherche traditionnelle se concentre sur la preuve de la convergence, tandis que cet article adopte une perspective « inverse » : en supposant que la convergence s'est déjà produite, analyser les restrictions que cette convergence impose sur les propriétés géométriques du point atteint (en particulier les valeurs propres de la Hessienne).

Importance

  1. Lien entre stabilité et généralisation : L'entraînement stable est associé à des bassins d'attraction larges et des minima plats, des caractéristiques étroitement liées aux performances de généralisation
  2. Phénomène de stabilité marginale : Les observations empiriques indiquent que l'entraînement standard opère généralement près de la limite de stabilité
  3. Signification pratique : Comprendre les préférences implicites des optimiseurs aide à concevoir de meilleurs algorithmes d'entraînement

Limitations des Méthodes Existantes

  • Les théories existantes nécessitent généralement des conditions d'hypothèses strictes (comme les limites de Lipschitz globales, les conditions de non-dégénérescence)
  • Absence de cadre unifié pour comprendre le comportement de filtrage des valeurs propres de différents optimiseurs
  • Compréhension théorique limitée des algorithmes de type SAM

Motivation de la Recherche

Au cours de la dernière décennie, l'entraînement réussi des réseaux profonds est devenu la norme dans la pratique de l'apprentissage profond, ce qui a incité à un changement de perspective de recherche : de « quand converge-t-on » à « pourquoi la convergence réussit-elle et comment les hyperparamètres la rendent-ils possible ».

Contributions Principales

  1. Cadre théorique unifié : Propose un cadre d'analyse unifié basé sur le théorème généralisé de la variété stable de Hadamard-Perron, applicable à une large classe d'algorithmes d'optimisation
  2. Théorie du filtrage des valeurs propres : Prouve que les optimiseurs convergeant avec succès imposent nécessairement des contraintes sur les valeurs propres de la Hessienne du point atteint, formant un effet de « filtrage des valeurs propres »
  3. Analyse d'algorithmes : Analyse systématiquement les propriétés de filtrage des valeurs propres de la descente de gradient, de la méthode de la boule lourde, de la méthode du gradient accéléré de Nesterov et de USAM
  4. Proposition de nouveaux algorithmes : Conçoit deux nouveaux algorithmes, Two-step USAM et Hessian USAM, démontrant une capacité de filtrage des valeurs propres plus forte
  5. Extension théorique : Étend les résultats existants à une classe plus générale de fonctions semi-algébriques, supprimant les hypothèses abstraites de non-dégénérescence

Détails de la Méthode

Définition de la Tâche

Considérez un algorithme d'optimisation itérative de forme générale : xk+1=Gα(xk)=Dxkαg(xk),k=0,1,2,x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots

où :

  • DRm×mD \in \mathbb{R}^{m \times m} est une matrice inversible
  • g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m est une application semi-algébrique continûment différentiable C1C^1
  • α>0\alpha > 0 est le paramètre de taille de pas

Résultats Théoriques Fondamentaux

Théorème Principal (Filtrage des Valeurs Propres)

Théorème 1.1 : Soit DRm×mD \in \mathbb{R}^{m \times m} une matrice inversible et g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m une application semi-algébrique C1C^1. Pour presque tous x0Rmx_0 \in \mathbb{R}^m et α>0\alpha > 0, si la suite (xk)kN(x_k)_{k \in \mathbb{N}} converge vers un point xˉ\bar{x}, alors le rayon spectral de la Jacobienne de DαgD - \alpha g en xˉ\bar{x} est au plus 1 : ρ(JacGα(xˉ))1\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1

Extension du Théorème de la Variété Stable

Théorème 2.1 : Il existe ΛR+\Lambda \subset \mathbb{R}_+ dont le complémentaire est un ensemble fini, tel que pour tout αΛ\alpha \in \Lambda, l'ensemble Wα={x0Rmxˉ s.t. Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xkxˉ}W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} est contenu dans une union dénombrable de sous-variétés C1C^1 de dimension au plus m1m-1.

Points d'Innovation Technique

  1. Hypothèse semi-algébrique : Utilise la classe des fonctions semi-algébriques comme condition suffisante, englobant presque toutes les fonctions courantes en apprentissage profond
  2. Pas de conditions globales : Ne nécessite pas de limite de Lipschitz globale ni d'hypothèse de non-dégénérescence
  3. Cadre d'analyse unifié : Grâce à la forme matricielle unifiée DD et la application gg, couvre plusieurs algorithmes d'optimisation

Analyse d'Algorithmes Spécifiques

Descente de Gradient

Proposition 3.1 : Pour la descente de gradient xk+1=xkαf(xk)x_{k+1} = x_k - \alpha \nabla f(x_k), si elle converge vers xˉ\bar{x}, alors toutes les valeurs propres λ\lambda de 2f(xˉ)\nabla^2f(\bar{x}) satisfont : 0λ2α0 \leq \lambda \leq \frac{2}{\alpha}

Méthode de la Boule Lourde

Proposition 3.2 : Pour la méthode de la boule lourde, la contrainte sur les valeurs propres est : 0λ2(1+β)α0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}

Algorithme USAM

Proposition 3.4 : Pour l'algorithme USAM xk+1=xkαf(xk+ρf(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)), la valeur propre λ\lambda satisfait : 0λ(1+ρλ)2(1+β)α0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}

De manière équivalente : 0λ1+8(1+β)ρ/α12ρ0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}

Conception de Nouveaux Algorithmes

Two-step USAM

Règle de mise à jour : xk+1=xkαf(xk+ρf(xk)+ρf(xk+ρf(xk)))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))

Contrainte sur les valeurs propres : 0λ(1+ρλ)22(1+β)α0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}

Hessian USAM

Règle de mise à jour : xk+1=xkαf(xk+ρ2f(xk)f(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))

Contrainte sur les valeurs propres : 0λ(1+ρλ2)2(1+β)α0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}

Configuration Expérimentale

Ensembles de Données

  1. MNIST + MLP : Dimensions des couches cachées {128, 64, 10, 10}, activation ReLU, perte d'entropie croisée
  2. Fashion-MNIST + MLP : Configuration identique
  3. CIFAR10 + WideResNet-16-8 : Architecture WideResNet sans couches de normalisation par batch

Configuration des Expériences

  • Taille de batch : 128
  • Taux d'apprentissage : α=0.01\alpha = 0.01
  • Décroissance des poids : 5×1045 \times 10^{-4}
  • Momentum : β{0,0.9}\beta \in \{0, 0.9\}
  • Paramètre SAM : ρ\rho sélectionné par recherche en grille

Métriques d'Évaluation

  • Précision de test
  • Les trois plus grandes valeurs propres de la matrice Hessienne

Résultats Expérimentaux

Découvertes Principales

  1. Vérification du filtrage des valeurs propres : Les résultats expérimentaux sont hautement cohérents avec les prédictions théoriques, USAM, Two-step USAM et Hessian USAM trouvent effectivement des minima plus plats
  2. Comparaison d'algorithmes :
    • Descente de gradient standard : performance de base
    • USAM : réduction significative des valeurs propres de la Hessienne
    • Two-step USAM : amélioration supplémentaire du filtrage des valeurs propres
    • Hessian USAM : effets d'amélioration similaires
  3. Dépendance architecturale :
    • Architecture MLP : prédictions théoriques et résultats expérimentaux hautement cohérents
    • WideResNet : différences plus petites, possiblement dues à une difficulté d'entraînement accrue

Observations Expérimentales

  1. Exigences de stabilité : Two-step USAM et Hessian USAM nécessitent des valeurs de ρ\rho plus petites pour éviter l'échec de l'entraînement, conformément aux contraintes de courbure plus strictes prédites par la théorie
  2. Impact de la normalisation par batch : Dans les architectures utilisant la normalisation par batch, l'effet d'aplatissement des algorithmes de type SAM n'est pas évident, ce qui ne contredit pas la théorie, car la normalisation par batch modifie la dynamique de l'algorithme

Travaux Connexes

Théorème de la Variété Stable

  • Résultats classiques de Hadamard (1901), Perron (1929)
  • Applications en optimisation moderne : Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

Phénomène de Stabilité Marginale

  • Cohen et al. (2021, 2022) : stabilité marginale de la descente de gradient et des méthodes adaptatives
  • Andreyev & Beneventano (2024) : extension aux algorithmes stochastiques

Minimisation Consciente de l'Acuité

  • Foret et al. (2021) : algorithme SAM original
  • Andriushchenko & Flammarion (2022) : variantes USAM
  • Analyses théoriques ultérieures : Zhou et al. (2025), Marion & Chizat (2024)

Conclusion et Discussion

Conclusions Principales

  1. Perspective unifiée : L'entraînement des optimiseurs réussis est essentiellement un processus de filtrage des valeurs propres, différents algorithmes réalisant différents degrés de filtrage via les hyperparamètres
  2. Extension théorique : Le théorème généralisé de la variété stable fournit un outil théorique puissant pour comprendre les algorithmes d'optimisation
  3. Orientation pratique : Les résultats théoriques fournissent une orientation principielle pour la conception de nouveaux algorithmes d'optimisation

Limitations

  1. Hypothèse semi-algébrique : Bien que couvrant un large éventail, elle présente certaines limitations
  2. Coût de calcul des nouveaux algorithmes : Two-step USAM et Hessian USAM ont un coût d'itération unique plus élevé
  3. Compatibilité avec la normalisation par batch : Le cadre théorique n'a pas encore couvert les opérations de normalisation par batch

Directions Futures

  1. Extension à des classes de fonctions plus générales : Explorer les extensions théoriques sans hypothèse semi-algébrique
  2. Théorie de la normalisation par batch : Étendre le cadre théorique aux architectures incluant la normalisation par batch
  3. Optimisation d'algorithmes pratiques : Réduire le coût de calcul des nouveaux algorithmes tout en maintenant les avantages théoriques

Évaluation Approfondie

Avantages

  1. Innovation théorique : Fournit une nouvelle perspective pour comprendre les algorithmes d'optimisation, passant de la « preuve de convergence » à l'« analyse des conséquences de la convergence »
  2. Cadre unifié : Fournit pour la première fois un cadre théorique unifié pour analyser le comportement de filtrage des valeurs propres de plusieurs algorithmes d'optimisation
  3. Valeur pratique : Les résultats théoriques guident directement la conception de nouveaux algorithmes et sont vérifiés expérimentalement
  4. Rigueur technique : Les dérivations mathématiques sont rigoureuses, les hypothèses claires et raisonnables

Insuffisances

  1. Échelle expérimentale limitée : Les expériences sont principalement menées sur des architectures et des ensembles de données relativement simples, la vérification expérimentale à grande échelle est insuffisante
  2. Évaluation des nouveaux algorithmes : L'évaluation complète des performances de Two-step USAM et Hessian USAM (y compris la capacité de généralisation) nécessite davantage de travail
  3. Écart théorique : Il existe un certain écart entre les performances réelles de l'algorithme SAM et les prédictions théoriques (comme le problème des points de selle stricts)

Influence

  1. Contribution théorique : Fournit de nouveaux outils et perspectives d'analyse pour la théorie de l'optimisation
  2. Valeur pratique : Fournit une orientation principielle pour la conception d'algorithmes d'optimisation
  3. Signification interdisciplinaire : Connecte la théorie des systèmes dynamiques à la pratique de l'apprentissage profond

Scénarios Applicables

  1. Optimisation en apprentissage profond : Particulièrement adapté à la compréhension et l'amélioration des algorithmes d'entraînement des réseaux de neurones
  2. Optimisation non-convexe : Fournit de nouveaux outils d'analyse pour les problèmes d'optimisation non-convexe généraux
  3. Conception d'algorithmes : Guide la conception et l'analyse de nouveaux algorithmes d'optimisation

Références Bibliographiques

Cet article cite un grand nombre de travaux connexes, incluant principalement :

  • Littérature classique de la théorie des systèmes dynamiques
  • Progrès récents de la théorie de l'optimisation moderne
  • Recherches sur la stabilité et la généralisation en apprentissage profond
  • Travaux connexes sur la minimisation consciente de l'acuité
  • Recherches théoriques et expérimentales sur le phénomène de stabilité marginale

Évaluation Globale : Ceci est un excellent article alliant profondeur théorique et valeur pratique, fournissant de nouveaux outils théoriques pour comprendre les phénomènes d'optimisation en apprentissage profond, et démontrant des cas de succès de la théorie guidant la conception d'algorithmes. Bien qu'il y ait de la place pour amélioration dans la vérification expérimentale à grande échelle, ses contributions théoriques et sa perspective innovante en font un progrès important dans le domaine de la théorie de l'optimisation.