Convergence of optimizers implies eigenvalues filtering at equilibrium
Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic
Convergence of optimizers implies eigenvalues filtering at equilibrium
Les preuves empiriques abondantes de l'entraînement des réseaux de neurones profonds indiquent que diverses optimiseurs tendent à trouver des solutions proches de l'optimum global. Cet article adopte une perspective inverse, en supposant la convergence vers un point arbitraire plutôt que de prouver la convergence, en se concentrant sur les conséquences de cette hypothèse. De ce point de vue, combiné aux progrès récents du phénomène de stabilité marginale, les auteurs soutiennent que différents optimiseurs agissent en réalité comme des filtres de valeurs propres déterminés par leurs hyperparamètres. Concrètement, les méthodes de descente de gradient standard évitent intrinsèquement les minima les plus aigus, tandis que l'algorithme de minimisation consciente de l'acuité (SAM) favorise activement les bassins plus larges. Sur la base de ces observations, les auteurs proposent deux nouveaux algorithmes, démontrant une capacité de filtrage des valeurs propres améliorée, favorisant efficacement les minima plus larges. L'analyse théorique utilise le théorème généralisé de la variété stable de Hadamard-Perron, applicable aux fonctions semi-algébriques C² générales, sans nécessiter de conditions de non-dégénérescence supplémentaires ni d'hypothèses de limite de Lipschitz globale.
La question centrale abordée par cette recherche est de comprendre le comportement de convergence des algorithmes d'optimisation dans l'apprentissage profond, en particulier comment ils sélectionnent des minima spécifiques dans le paysage complexe de la fonction de perte. La recherche traditionnelle se concentre sur la preuve de la convergence, tandis que cet article adopte une perspective « inverse » : en supposant que la convergence s'est déjà produite, analyser les restrictions que cette convergence impose sur les propriétés géométriques du point atteint (en particulier les valeurs propres de la Hessienne).
Lien entre stabilité et généralisation : L'entraînement stable est associé à des bassins d'attraction larges et des minima plats, des caractéristiques étroitement liées aux performances de généralisation
Phénomène de stabilité marginale : Les observations empiriques indiquent que l'entraînement standard opère généralement près de la limite de stabilité
Signification pratique : Comprendre les préférences implicites des optimiseurs aide à concevoir de meilleurs algorithmes d'entraînement
Les théories existantes nécessitent généralement des conditions d'hypothèses strictes (comme les limites de Lipschitz globales, les conditions de non-dégénérescence)
Absence de cadre unifié pour comprendre le comportement de filtrage des valeurs propres de différents optimiseurs
Compréhension théorique limitée des algorithmes de type SAM
Au cours de la dernière décennie, l'entraînement réussi des réseaux profonds est devenu la norme dans la pratique de l'apprentissage profond, ce qui a incité à un changement de perspective de recherche : de « quand converge-t-on » à « pourquoi la convergence réussit-elle et comment les hyperparamètres la rendent-ils possible ».
Cadre théorique unifié : Propose un cadre d'analyse unifié basé sur le théorème généralisé de la variété stable de Hadamard-Perron, applicable à une large classe d'algorithmes d'optimisation
Théorie du filtrage des valeurs propres : Prouve que les optimiseurs convergeant avec succès imposent nécessairement des contraintes sur les valeurs propres de la Hessienne du point atteint, formant un effet de « filtrage des valeurs propres »
Analyse d'algorithmes : Analyse systématiquement les propriétés de filtrage des valeurs propres de la descente de gradient, de la méthode de la boule lourde, de la méthode du gradient accéléré de Nesterov et de USAM
Proposition de nouveaux algorithmes : Conçoit deux nouveaux algorithmes, Two-step USAM et Hessian USAM, démontrant une capacité de filtrage des valeurs propres plus forte
Extension théorique : Étend les résultats existants à une classe plus générale de fonctions semi-algébriques, supprimant les hypothèses abstraites de non-dégénérescence
Théorème 1.1 : Soit D∈Rm×m une matrice inversible et g:Rm→Rm une application semi-algébrique C1. Pour presque tous x0∈Rm et α>0, si la suite (xk)k∈N converge vers un point xˉ, alors le rayon spectral de la Jacobienne de D−αg en xˉ est au plus 1 :
ρ(JacGα(xˉ))≤1
Théorème 2.1 : Il existe Λ⊂R+ dont le complémentaire est un ensemble fini, tel que pour tout α∈Λ, l'ensemble
Wα={x0∈Rm∣∃xˉ s.t. Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xk→xˉ}
est contenu dans une union dénombrable de sous-variétés C1 de dimension au plus m−1.
Hypothèse semi-algébrique : Utilise la classe des fonctions semi-algébriques comme condition suffisante, englobant presque toutes les fonctions courantes en apprentissage profond
Pas de conditions globales : Ne nécessite pas de limite de Lipschitz globale ni d'hypothèse de non-dégénérescence
Cadre d'analyse unifié : Grâce à la forme matricielle unifiée D et la application g, couvre plusieurs algorithmes d'optimisation
Proposition 3.1 : Pour la descente de gradient xk+1=xk−α∇f(xk), si elle converge vers xˉ, alors toutes les valeurs propres λ de ∇2f(xˉ) satisfont :
0≤λ≤α2
Vérification du filtrage des valeurs propres : Les résultats expérimentaux sont hautement cohérents avec les prédictions théoriques, USAM, Two-step USAM et Hessian USAM trouvent effectivement des minima plus plats
Comparaison d'algorithmes :
Descente de gradient standard : performance de base
USAM : réduction significative des valeurs propres de la Hessienne
Two-step USAM : amélioration supplémentaire du filtrage des valeurs propres
Hessian USAM : effets d'amélioration similaires
Dépendance architecturale :
Architecture MLP : prédictions théoriques et résultats expérimentaux hautement cohérents
WideResNet : différences plus petites, possiblement dues à une difficulté d'entraînement accrue
Exigences de stabilité : Two-step USAM et Hessian USAM nécessitent des valeurs de ρ plus petites pour éviter l'échec de l'entraînement, conformément aux contraintes de courbure plus strictes prédites par la théorie
Impact de la normalisation par batch : Dans les architectures utilisant la normalisation par batch, l'effet d'aplatissement des algorithmes de type SAM n'est pas évident, ce qui ne contredit pas la théorie, car la normalisation par batch modifie la dynamique de l'algorithme
Perspective unifiée : L'entraînement des optimiseurs réussis est essentiellement un processus de filtrage des valeurs propres, différents algorithmes réalisant différents degrés de filtrage via les hyperparamètres
Extension théorique : Le théorème généralisé de la variété stable fournit un outil théorique puissant pour comprendre les algorithmes d'optimisation
Orientation pratique : Les résultats théoriques fournissent une orientation principielle pour la conception de nouveaux algorithmes d'optimisation
Innovation théorique : Fournit une nouvelle perspective pour comprendre les algorithmes d'optimisation, passant de la « preuve de convergence » à l'« analyse des conséquences de la convergence »
Cadre unifié : Fournit pour la première fois un cadre théorique unifié pour analyser le comportement de filtrage des valeurs propres de plusieurs algorithmes d'optimisation
Valeur pratique : Les résultats théoriques guident directement la conception de nouveaux algorithmes et sont vérifiés expérimentalement
Rigueur technique : Les dérivations mathématiques sont rigoureuses, les hypothèses claires et raisonnables
Échelle expérimentale limitée : Les expériences sont principalement menées sur des architectures et des ensembles de données relativement simples, la vérification expérimentale à grande échelle est insuffisante
Évaluation des nouveaux algorithmes : L'évaluation complète des performances de Two-step USAM et Hessian USAM (y compris la capacité de généralisation) nécessite davantage de travail
Écart théorique : Il existe un certain écart entre les performances réelles de l'algorithme SAM et les prédictions théoriques (comme le problème des points de selle stricts)
Optimisation en apprentissage profond : Particulièrement adapté à la compréhension et l'amélioration des algorithmes d'entraînement des réseaux de neurones
Optimisation non-convexe : Fournit de nouveaux outils d'analyse pour les problèmes d'optimisation non-convexe généraux
Conception d'algorithmes : Guide la conception et l'analyse de nouveaux algorithmes d'optimisation
Cet article cite un grand nombre de travaux connexes, incluant principalement :
Littérature classique de la théorie des systèmes dynamiques
Progrès récents de la théorie de l'optimisation moderne
Recherches sur la stabilité et la généralisation en apprentissage profond
Travaux connexes sur la minimisation consciente de l'acuité
Recherches théoriques et expérimentales sur le phénomène de stabilité marginale
Évaluation Globale : Ceci est un excellent article alliant profondeur théorique et valeur pratique, fournissant de nouveaux outils théoriques pour comprendre les phénomènes d'optimisation en apprentissage profond, et démontrant des cas de succès de la théorie guidant la conception d'algorithmes. Bien qu'il y ait de la place pour amélioration dans la vérification expérimentale à grande échelle, ses contributions théoriques et sa perspective innovante en font un progrès important dans le domaine de la théorie de l'optimisation.