2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels

Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.

academic

Convergence of optimizers implies eigenvalues filtering at equilibrium

Informations Fondamentales

ID de l'article: 2510.09034
Titre: Convergence of optimizers implies eigenvalues filtering at equilibrium
Auteurs: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
Classification: cs.LG math.DS math.OC
Date de publication: 13 octobre 2025
Lien de l'article: https://arxiv.org/abs/2510.09034

Résumé

Les preuves empiriques abondantes de l'entraînement des réseaux de neurones profonds indiquent que diverses optimiseurs tendent à trouver des solutions proches de l'optimum global. Cet article adopte une perspective inverse, en supposant la convergence vers un point arbitraire plutôt que de prouver la convergence, en se concentrant sur les conséquences de cette hypothèse. De ce point de vue, combiné aux progrès récents du phénomène de stabilité marginale, les auteurs soutiennent que différents optimiseurs agissent en réalité comme des filtres de valeurs propres déterminés par leurs hyperparamètres. Concrètement, les méthodes de descente de gradient standard évitent intrinsèquement les minima les plus aigus, tandis que l'algorithme de minimisation consciente de l'acuité (SAM) favorise activement les bassins plus larges. Sur la base de ces observations, les auteurs proposent deux nouveaux algorithmes, démontrant une capacité de filtrage des valeurs propres améliorée, favorisant efficacement les minima plus larges. L'analyse théorique utilise le théorème généralisé de la variété stable de Hadamard-Perron, applicable aux fonctions semi-algébriques C² générales, sans nécessiter de conditions de non-dégénérescence supplémentaires ni d'hypothèses de limite de Lipschitz globale.

Contexte de Recherche et Motivation

Problème Central

La question centrale abordée par cette recherche est de comprendre le comportement de convergence des algorithmes d'optimisation dans l'apprentissage profond, en particulier comment ils sélectionnent des minima spécifiques dans le paysage complexe de la fonction de perte. La recherche traditionnelle se concentre sur la preuve de la convergence, tandis que cet article adopte une perspective « inverse » : en supposant que la convergence s'est déjà produite, analyser les restrictions que cette convergence impose sur les propriétés géométriques du point atteint (en particulier les valeurs propres de la Hessienne).

Importance

Lien entre stabilité et généralisation : L'entraînement stable est associé à des bassins d'attraction larges et des minima plats, des caractéristiques étroitement liées aux performances de généralisation
Phénomène de stabilité marginale : Les observations empiriques indiquent que l'entraînement standard opère généralement près de la limite de stabilité
Signification pratique : Comprendre les préférences implicites des optimiseurs aide à concevoir de meilleurs algorithmes d'entraînement

Limitations des Méthodes Existantes

Les théories existantes nécessitent généralement des conditions d'hypothèses strictes (comme les limites de Lipschitz globales, les conditions de non-dégénérescence)
Absence de cadre unifié pour comprendre le comportement de filtrage des valeurs propres de différents optimiseurs
Compréhension théorique limitée des algorithmes de type SAM

Motivation de la Recherche

Au cours de la dernière décennie, l'entraînement réussi des réseaux profonds est devenu la norme dans la pratique de l'apprentissage profond, ce qui a incité à un changement de perspective de recherche : de « quand converge-t-on » à « pourquoi la convergence réussit-elle et comment les hyperparamètres la rendent-ils possible ».

Contributions Principales

Cadre théorique unifié : Propose un cadre d'analyse unifié basé sur le théorème généralisé de la variété stable de Hadamard-Perron, applicable à une large classe d'algorithmes d'optimisation
Théorie du filtrage des valeurs propres : Prouve que les optimiseurs convergeant avec succès imposent nécessairement des contraintes sur les valeurs propres de la Hessienne du point atteint, formant un effet de « filtrage des valeurs propres »
Analyse d'algorithmes : Analyse systématiquement les propriétés de filtrage des valeurs propres de la descente de gradient, de la méthode de la boule lourde, de la méthode du gradient accéléré de Nesterov et de USAM
Proposition de nouveaux algorithmes : Conçoit deux nouveaux algorithmes, Two-step USAM et Hessian USAM, démontrant une capacité de filtrage des valeurs propres plus forte
Extension théorique : Étend les résultats existants à une classe plus générale de fonctions semi-algébriques, supprimant les hypothèses abstraites de non-dégénérescence

Détails de la Méthode

Définition de la Tâche

Considérez un algorithme d'optimisation itérative de forme générale : $x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots$

où :

$D \in \mathbb{R}^{m \times m}$ est une matrice inversible
$g: \mathbb{R}^m \to \mathbb{R}^m$ est une application semi-algébrique continûment différentiable $C^1$
$\alpha > 0$ est le paramètre de taille de pas

Résultats Théoriques Fondamentaux

Théorème Principal (Filtrage des Valeurs Propres)

Théorème 1.1 : Soit $D \in \mathbb{R}^{m \times m}$ une matrice inversible et $g: \mathbb{R}^m \to \mathbb{R}^m$ une application semi-algébrique $C^1$ . Pour presque tous $x_0 \in \mathbb{R}^m$ et $\alpha > 0$ , si la suite $(x_k)_{k \in \mathbb{N}}$ converge vers un point $\bar{x}$ , alors le rayon spectral de la Jacobienne de $D - \alpha g$ en $\bar{x}$ est au plus 1 : $\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1$

Extension du Théorème de la Variété Stable

Théorème 2.1 : Il existe $\Lambda \subset \mathbb{R}_+$ dont le complémentaire est un ensemble fini, tel que pour tout $\alpha \in \Lambda$ , l'ensemble $W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.t. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\}$ est contenu dans une union dénombrable de sous-variétés $C^1$ de dimension au plus $m-1$ .

Points d'Innovation Technique

Hypothèse semi-algébrique : Utilise la classe des fonctions semi-algébriques comme condition suffisante, englobant presque toutes les fonctions courantes en apprentissage profond
Pas de conditions globales : Ne nécessite pas de limite de Lipschitz globale ni d'hypothèse de non-dégénérescence
Cadre d'analyse unifié : Grâce à la forme matricielle unifiée $D$ et la application $g$ , couvre plusieurs algorithmes d'optimisation

Analyse d'Algorithmes Spécifiques

Descente de Gradient

Proposition 3.1 : Pour la descente de gradient $x_{k+1} = x_k - \alpha \nabla f(x_k)$ , si elle converge vers $\bar{x}$ , alors toutes les valeurs propres $\lambda$ de $\nabla^2f(\bar{x})$ satisfont : $0 \leq \lambda \leq \frac{2}{\alpha}$

Méthode de la Boule Lourde

Proposition 3.2 : Pour la méthode de la boule lourde, la contrainte sur les valeurs propres est : $0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}$

Algorithme USAM

Proposition 3.4 : Pour l'algorithme USAM $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k))$ , la valeur propre $\lambda$ satisfait : $0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}$

De manière équivalente : $0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}$

Conception de Nouveaux Algorithmes

Two-step USAM

Règle de mise à jour : $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))$

Contrainte sur les valeurs propres : $0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}$

Hessian USAM

Règle de mise à jour : $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))$

Contrainte sur les valeurs propres : $0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}$

Configuration Expérimentale

Ensembles de Données

MNIST + MLP : Dimensions des couches cachées {128, 64, 10, 10}, activation ReLU, perte d'entropie croisée
Fashion-MNIST + MLP : Configuration identique
CIFAR10 + WideResNet-16-8 : Architecture WideResNet sans couches de normalisation par batch

Configuration des Expériences

Taille de batch : 128
Taux d'apprentissage : $\alpha = 0.01$
Décroissance des poids : $5 \times 10^{-4}$
Momentum : $\beta \in \{0, 0.9\}$
Paramètre SAM : $\rho$ sélectionné par recherche en grille

Métriques d'Évaluation

Précision de test
Les trois plus grandes valeurs propres de la matrice Hessienne

Résultats Expérimentaux

Découvertes Principales

Vérification du filtrage des valeurs propres : Les résultats expérimentaux sont hautement cohérents avec les prédictions théoriques, USAM, Two-step USAM et Hessian USAM trouvent effectivement des minima plus plats
Comparaison d'algorithmes :
- Descente de gradient standard : performance de base
- USAM : réduction significative des valeurs propres de la Hessienne
- Two-step USAM : amélioration supplémentaire du filtrage des valeurs propres
- Hessian USAM : effets d'amélioration similaires
Dépendance architecturale :
- Architecture MLP : prédictions théoriques et résultats expérimentaux hautement cohérents
- WideResNet : différences plus petites, possiblement dues à une difficulté d'entraînement accrue

Observations Expérimentales

Exigences de stabilité : Two-step USAM et Hessian USAM nécessitent des valeurs de $\rho$ plus petites pour éviter l'échec de l'entraînement, conformément aux contraintes de courbure plus strictes prédites par la théorie
Impact de la normalisation par batch : Dans les architectures utilisant la normalisation par batch, l'effet d'aplatissement des algorithmes de type SAM n'est pas évident, ce qui ne contredit pas la théorie, car la normalisation par batch modifie la dynamique de l'algorithme

Travaux Connexes

Théorème de la Variété Stable

Résultats classiques de Hadamard (1901), Perron (1929)
Applications en optimisation moderne : Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

Phénomène de Stabilité Marginale

Cohen et al. (2021, 2022) : stabilité marginale de la descente de gradient et des méthodes adaptatives
Andreyev & Beneventano (2024) : extension aux algorithmes stochastiques

Minimisation Consciente de l'Acuité

Foret et al. (2021) : algorithme SAM original
Andriushchenko & Flammarion (2022) : variantes USAM
Analyses théoriques ultérieures : Zhou et al. (2025), Marion & Chizat (2024)

Conclusion et Discussion

Conclusions Principales

Perspective unifiée : L'entraînement des optimiseurs réussis est essentiellement un processus de filtrage des valeurs propres, différents algorithmes réalisant différents degrés de filtrage via les hyperparamètres
Extension théorique : Le théorème généralisé de la variété stable fournit un outil théorique puissant pour comprendre les algorithmes d'optimisation
Orientation pratique : Les résultats théoriques fournissent une orientation principielle pour la conception de nouveaux algorithmes d'optimisation

Limitations

Hypothèse semi-algébrique : Bien que couvrant un large éventail, elle présente certaines limitations
Coût de calcul des nouveaux algorithmes : Two-step USAM et Hessian USAM ont un coût d'itération unique plus élevé
Compatibilité avec la normalisation par batch : Le cadre théorique n'a pas encore couvert les opérations de normalisation par batch

Directions Futures

Extension à des classes de fonctions plus générales : Explorer les extensions théoriques sans hypothèse semi-algébrique
Théorie de la normalisation par batch : Étendre le cadre théorique aux architectures incluant la normalisation par batch
Optimisation d'algorithmes pratiques : Réduire le coût de calcul des nouveaux algorithmes tout en maintenant les avantages théoriques

Évaluation Approfondie

Avantages

Innovation théorique : Fournit une nouvelle perspective pour comprendre les algorithmes d'optimisation, passant de la « preuve de convergence » à l'« analyse des conséquences de la convergence »
Cadre unifié : Fournit pour la première fois un cadre théorique unifié pour analyser le comportement de filtrage des valeurs propres de plusieurs algorithmes d'optimisation
Valeur pratique : Les résultats théoriques guident directement la conception de nouveaux algorithmes et sont vérifiés expérimentalement
Rigueur technique : Les dérivations mathématiques sont rigoureuses, les hypothèses claires et raisonnables

Insuffisances

Échelle expérimentale limitée : Les expériences sont principalement menées sur des architectures et des ensembles de données relativement simples, la vérification expérimentale à grande échelle est insuffisante
Évaluation des nouveaux algorithmes : L'évaluation complète des performances de Two-step USAM et Hessian USAM (y compris la capacité de généralisation) nécessite davantage de travail
Écart théorique : Il existe un certain écart entre les performances réelles de l'algorithme SAM et les prédictions théoriques (comme le problème des points de selle stricts)

Influence

Contribution théorique : Fournit de nouveaux outils et perspectives d'analyse pour la théorie de l'optimisation
Valeur pratique : Fournit une orientation principielle pour la conception d'algorithmes d'optimisation
Signification interdisciplinaire : Connecte la théorie des systèmes dynamiques à la pratique de l'apprentissage profond

Scénarios Applicables

Optimisation en apprentissage profond : Particulièrement adapté à la compréhension et l'amélioration des algorithmes d'entraînement des réseaux de neurones
Optimisation non-convexe : Fournit de nouveaux outils d'analyse pour les problèmes d'optimisation non-convexe généraux
Conception d'algorithmes : Guide la conception et l'analyse de nouveaux algorithmes d'optimisation

Références Bibliographiques

Cet article cite un grand nombre de travaux connexes, incluant principalement :

Littérature classique de la théorie des systèmes dynamiques
Progrès récents de la théorie de l'optimisation moderne
Recherches sur la stabilité et la généralisation en apprentissage profond
Travaux connexes sur la minimisation consciente de l'acuité
Recherches théoriques et expérimentales sur le phénomène de stabilité marginale

Évaluation Globale : Ceci est un excellent article alliant profondeur théorique et valeur pratique, fournissant de nouveaux outils théoriques pour comprendre les phénomènes d'optimisation en apprentissage profond, et démontrant des cas de succès de la théorie guidant la conception d'algorithmes. Bien qu'il y ait de la place pour amélioration dans la vérification expérimentale à grande échelle, ses contributions théoriques et sa perspective innovante en font un progrès important dans le domaine de la théorie de l'optimisation.