2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic

Méthodes de Gradient Préconditionné Non-Linéairement : Analyse de la Quantité de Mouvement et Stochastique

Informations Fondamentales

  • ID de l'article : 2510.11312
  • Titre : Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
  • Auteurs : Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
  • Classification : math.OC (Optimisation et Contrôle)
  • Conférence de Publication : 39ème Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
  • Lien de l'article : https://arxiv.org/abs/2510.11312

Résumé

Cet article étudie les méthodes de gradient préconditionné non-linéairement pour les problèmes d'optimisation non-convexe lisse, en mettant l'accent sur les préconditioneurs sigmoïdes qui exécutent essentiellement la technique largement utilisée d'écrêtage de gradient. Sur la base de cette idée, les auteurs introduisent un nouvel algorithme de type boule lourde et fournissent des garanties de convergence sous des conditions de lissité généralisée plus souples que les restrictions de lissité Lipschitz traditionnelles, couvrant ainsi une classe de fonctions plus large. De plus, les auteurs développent des variantes stochastiques de la méthode de base et étudient ses propriétés de convergence sous différentes hypothèses de bruit.

Contexte de Recherche et Motivation

  1. Problème à résoudre : Les méthodes traditionnelles de descente de gradient (GD) et de descente de gradient stochastique (SGD) nécessitent un réglage prudent des paramètres ou des stratégies de recherche linéaire coûteuses lorsqu'elles traitent des applications modernes d'apprentissage automatique qui ne satisfont pas l'hypothèse globale de gradient Lipschitz.
  2. Importance du problème : La plupart des fonctions de coût dans les applications modernes d'apprentissage profond ne satisfont pas l'hypothèse traditionnelle de gradient Lipschitz, et les techniques d'écrêtage de gradient sont devenues une pratique standard pour des tâches telles que les modèles de langage, utilisées pour stabiliser l'entraînement des réseaux de neurones.
  3. Limitations des méthodes existantes :
    • Les méthodes GD/SGD standard convergent difficilement lorsqu'elles traitent des problèmes au-delà de la lissité Lipschitz
    • L'analyse théorique des méthodes d'écrêtage de gradient existantes est principalement limitée à des conditions de lissité spécifiques
    • Absence d'analyse des méthodes de quantité de mouvement dans des cadres plus généraux
  4. Motivation de la recherche : Unifier les méthodes d'écrêtage de gradient dans un cadre de préconditionnement non-linéaire et étendre à une analyse théorique plus générale incluant les variantes de quantité de mouvement et stochastiques.

Contributions Principales

  1. Extension des méthodes de descente anisotrope : Étude des garanties de convergence dans un cadre non-convexe général en incorporant la quantité de mouvement de boule lourde dans l'itération de base.
  2. Proposition d'extensions stochastiques : Analyse de la version stochastique de la méthode de base sous différentes hypothèses de bruit, incluant des conditions plus souples que la variance bornée.
  3. Contributions à l'analyse théorique :
    • Preuve de la convergence de l'algorithme de quantité de mouvement sous l'inégalité de descente anisotrope
    • Preuve du taux de convergence linéaire sous les conditions PL généralisées
    • Analyse des méthodes stochastiques sous de nouvelles hypothèses de bruit
  4. Vérification expérimentale : Démonstration de bonnes performances de la méthode proposée sur diverses tâches d'apprentissage automatique, incluant l'entraînement de réseaux de neurones et la factorisation matricielle.

Détails de la Méthode

Définition de la Tâche

Considérez le problème de minimisation général : minxRnf(x)\min_{x \in \mathbb{R}^n} f(x)f:RnRf: \mathbb{R}^n \to \mathbb{R} est une fonction lisse et potentiellement non-convexe.

Cadre Principal : Méthode de Gradient Préconditionné Non-Linéairement

Méthode de base : xk+1=xkγϕ(f(xk))x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))

ϕ:RnR\phi: \mathbb{R}^n \to \mathbb{R} est une fonction de référence convexe, ϕ\phi^* est sa conjuguée convexe, et ϕ\nabla \phi^* génère le préconditionneur.

Idée clé : En choisissant une fonction de référence ϕ\phi fortement convexe avec un domaine borné, l'application ϕ\nabla \phi^* mappe Rn\mathbb{R}^n vers la boule nn-unitaire, réalisant naturellement l'écrêtage de gradient.

Algorithme 1 : Méthode de Gradient Préconditionné Non-Linéairement avec Quantité de Mouvement (m-NPGM)

Entrée : Choisir x⁰ ∈ ℝⁿ, γ, β > 0, définir m⁻¹ = 0ⁿ
Répéter k = 0, 1, ... jusqu'à convergence :
1. Calculer mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Calculer xᵏ⁺¹ = xᵏ - γmᵏ

Forme équivalente : xk+1=xk(1β)γϕ(f(xk))+β(xkxk1)x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})

Inégalité de Descente Anisotrope

Définition : Une fonction ff satisfait la propriété de descente anisotrope par rapport à ϕ\phi si pour tous x,xˉRnx, \bar{x} \in \mathbb{R}^n : f(x)f(xˉ)+1Lϕ(xyˉ)1Lϕ(xˉyˉ)f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y})yˉ=xˉ1Lϕ(f(xˉ))\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x})).

Points d'Innovation Technique

  1. Conception de la quantité de mouvement : Contrairement aux méthodes standard, la quantité de mouvement dans cet article est estimée par une combinaison convexe de gradients préconditionnés, plutôt que d'agréger d'abord les gradients puis de les préconditionner.
  2. Lissité généralisée : La lissité anisotrope impose moins de restrictions que la lissité (L0,L1)(L_0, L_1), couvrant une classe de fonctions plus large.
  3. Cadre d'analyse unifié : Fournit une analyse de convergence unifiée basée sur la convexité de la fonction de référence ϕ\phi.

Résultats Théoriques

Théorème de Convergence Principal

Théorème 2.2 : Sous la condition de lissité anisotrope, pour β[0,0.5)\beta \in [0, 0.5) et γ=α/L\gamma = \alpha/L, α1\alpha \leq 1 : min0kKϕ(ϕ(f(xk)))L(f(x0)f)α(K+1)(12β)\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}

Théorème 2.4 : Sous la condition PL généralisée, pour une fonction de référence 2-homogène : f(xk)fαk(f(x0)f)f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*)α=max{1γμ(β2β2),β+2β2}\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}.

Analyse de la Méthode Stochastique

Théorème 3.1 : Sous la condition de bruit E[ϕ(ϕ(f(x))ϕ(g(x)))]σ2\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2 : E[1Kk=0K1ϕ(ϕ(f(xk)))]f(x0)fγK+σ2\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2

Configuration Expérimentale

Ensembles de Données

  1. MNIST : Classification de chiffres manuscrits, utilisant un réseau entièrement connecté à deux couches
  2. CIFAR-10/100 : Classification d'images, utilisant l'architecture ResNet-18/34
  3. MovieLens 100K : Problème de factorisation matricielle
  4. Récupération de phase : Problème d'optimisation non-convexe

Métriques d'Évaluation

  • Vitesse de convergence de la perte d'entraînement
  • Précision de test
  • Norme du gradient f(xk)\|\nabla f(x^k)\|

Méthodes de Comparaison

  • SGD/SGDm : Descente de gradient stochastique standard et sa variante avec quantité de mouvement
  • Adam : Méthode de taux d'apprentissage adaptatif
  • GD/GDm : Descente de gradient standard et sa variante avec quantité de mouvement
  • AdGD-accel : Variante accélérée de la méthode de gradient adaptatif

Détails d'Implémentation

  • Utilisation d'une longueur de pas fixe
  • Descente de gradient hyperbolique (HGD) : ϕ(x)=cosh(x)1\phi(x) = \cosh(\|x\|) - 1
  • Version séparable : ϕ(x)=i=1ncosh(xi)1\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1

Résultats Expérimentaux

Résultats Principaux

  1. Classification MNIST : iHGD atteint rapidement une petite perte d'entraînement, avec des performances supérieures à SGD et Adam
  2. Classification CIFAR-10 : La méthode proposée affiche des performances comparables à SGD et SGDm, ces derniers étant l'état de l'art pour ce problème
  3. Factorisation matricielle : iHGDm surpasse significativement les autres méthodes et affiche une plus grande stabilité sur différentes initialisations aléatoires
  4. Récupération de phase : sHGD affiche des performances similaires aux méthodes d'écrêtage de gradient

Découvertes Clés

  1. Longueur de pas adaptative : Pour les fonctions de référence dont la croissance dépasse la quadratique, le préconditionneur forme naturellement une forme sigmoïde, fournissant une règle de longueur de pas adaptative implicite
  2. Stabilité : Sur les problèmes non-convexes tels que la factorisation matricielle, la méthode proposée affiche une meilleure stabilité
  3. Applicabilité générale : La méthode affiche de bonnes performances sur différents types de tâches d'apprentissage automatique

Travaux Connexes

Préconditionnement Dual-Espace/Descente de Gradient Anisotrope

  • Initialement introduit dans 32 pour les problèmes essentiellement lisses convexes
  • Inégalité de descente anisotrope introduite dans 24
  • 36 montre que cette méthode inclut de nombreux algorithmes populaires

Écrêtage de Gradient et Lissité Généralisée

  • Concept de lissité (L0,L1)(L_0, L_1) introduit dans 48
  • Analyse du cadre d'écrêtage général avec quantité de mouvement dans 47
  • De nombreux travaux étudient ces méthodes sous des hypothèses de bruit et de lissité assouplies

Conclusion et Discussion

Conclusions Principales

  1. Extension réussie des méthodes de descente de gradient anisotrope pour inclure la quantité de mouvement de boule lourde
  2. Fournit des garanties de convergence sous des conditions plus souples que la lissité Lipschitz traditionnelle
  3. Développement de versions stochastiques et analyse sous de nouvelles hypothèses de bruit
  4. Vérification expérimentale de l'efficacité de la méthode sur diverses tâches d'apprentissage automatique

Limitations

  1. Le paramètre de quantité de mouvement est limité à β[0,0.5)\beta \in [0, 0.5), ne pouvant pas être étendu à β[0,1)\beta \in [0, 1)
  2. L'hypothèse de continuité Lipschitz du préconditionneur est plus stricte que la lissité anisotrope
  3. Absence d'analyse complète de la méthode stochastique avec quantité de mouvement

Directions Futures

  1. Analyse unifiée des algorithmes de quantité de mouvement sous des hypothèses de fonction de référence assouplies
  2. Extension à des paramètres de quantité de mouvement arbitraires β[0,1)\beta \in [0, 1)
  3. Extension des algorithmes de type gradient proximal complets pour inclure la quantité de mouvement
  4. Suppression de la dépendance à la taille de lot pour les algorithmes stochastiques et inclusion de la quantité de mouvement

Évaluation Approfondie

Avantages

  1. Innovation théorique : Fournit la première analyse de méthode de quantité de mouvement sous les conditions de lissité anisotrope
  2. Cadre unifié : Unifie plusieurs méthodes telles que l'écrêtage de gradient dans un cadre de préconditionnement non-linéaire
  3. Valeur pratique : La méthode affiche de bonnes performances sur les tâches réelles d'apprentissage automatique
  4. Profondeur d'analyse : Fournit une analyse théorique complète dans les cadres déterministe et stochastique

Insuffisances

  1. Restrictions de paramètres : Les restrictions sur le paramètre de quantité de mouvement (β<0.5\beta < 0.5) sont plus strictes que l'analyse standard
  2. Force des hypothèses : Certains résultats théoriques nécessitent des hypothèses techniques supplémentaires
  3. Étendue expérimentale : Les expériences se concentrent principalement sur les tâches standard d'apprentissage automatique, manquant de vérification d'applications plus larges

Influence

  1. Contribution théorique : Fournit de nouveaux outils et perspectives pour l'analyse théorique des méthodes de préconditionnement non-linéaire
  2. Valeur pratique : Fournit de nouvelles méthodes pour traiter les problèmes d'optimisation au-delà des hypothèses de lissité standard
  3. Reproductibilité : Les auteurs fournissent une implémentation de code public

Scénarios d'Application

  1. Entraînement de réseaux de neurones, particulièrement dans les scénarios où les gradients peuvent être importants
  2. Problèmes d'optimisation non-convexe, tels que la factorisation matricielle
  3. Applications nécessitant l'écrêtage ou la normalisation de gradient
  4. Problèmes d'optimisation au-delà de la lissité Lipschitz standard

Références

L'article contient 48 références couvrant les domaines pertinents de la théorie de l'optimisation, de l'apprentissage automatique et des méthodes numériques, fournissant une base théorique solide pour la recherche.