2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos

We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.

academic

Méthodes de Gradient Préconditionné Non-Linéairement : Analyse de la Quantité de Mouvement et Stochastique

Informations Fondamentales

ID de l'article : 2510.11312
Titre : Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
Auteurs : Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
Classification : math.OC (Optimisation et Contrôle)
Conférence de Publication : 39ème Conférence sur les Systèmes de Traitement de l'Information Neuronale (NeurIPS 2025)
Lien de l'article : https://arxiv.org/abs/2510.11312

Résumé

Cet article étudie les méthodes de gradient préconditionné non-linéairement pour les problèmes d'optimisation non-convexe lisse, en mettant l'accent sur les préconditioneurs sigmoïdes qui exécutent essentiellement la technique largement utilisée d'écrêtage de gradient. Sur la base de cette idée, les auteurs introduisent un nouvel algorithme de type boule lourde et fournissent des garanties de convergence sous des conditions de lissité généralisée plus souples que les restrictions de lissité Lipschitz traditionnelles, couvrant ainsi une classe de fonctions plus large. De plus, les auteurs développent des variantes stochastiques de la méthode de base et étudient ses propriétés de convergence sous différentes hypothèses de bruit.

Contexte de Recherche et Motivation

Problème à résoudre : Les méthodes traditionnelles de descente de gradient (GD) et de descente de gradient stochastique (SGD) nécessitent un réglage prudent des paramètres ou des stratégies de recherche linéaire coûteuses lorsqu'elles traitent des applications modernes d'apprentissage automatique qui ne satisfont pas l'hypothèse globale de gradient Lipschitz.
Importance du problème : La plupart des fonctions de coût dans les applications modernes d'apprentissage profond ne satisfont pas l'hypothèse traditionnelle de gradient Lipschitz, et les techniques d'écrêtage de gradient sont devenues une pratique standard pour des tâches telles que les modèles de langage, utilisées pour stabiliser l'entraînement des réseaux de neurones.
Limitations des méthodes existantes :
- Les méthodes GD/SGD standard convergent difficilement lorsqu'elles traitent des problèmes au-delà de la lissité Lipschitz
- L'analyse théorique des méthodes d'écrêtage de gradient existantes est principalement limitée à des conditions de lissité spécifiques
- Absence d'analyse des méthodes de quantité de mouvement dans des cadres plus généraux
Motivation de la recherche : Unifier les méthodes d'écrêtage de gradient dans un cadre de préconditionnement non-linéaire et étendre à une analyse théorique plus générale incluant les variantes de quantité de mouvement et stochastiques.

Contributions Principales

Extension des méthodes de descente anisotrope : Étude des garanties de convergence dans un cadre non-convexe général en incorporant la quantité de mouvement de boule lourde dans l'itération de base.
Proposition d'extensions stochastiques : Analyse de la version stochastique de la méthode de base sous différentes hypothèses de bruit, incluant des conditions plus souples que la variance bornée.
Contributions à l'analyse théorique :
- Preuve de la convergence de l'algorithme de quantité de mouvement sous l'inégalité de descente anisotrope
- Preuve du taux de convergence linéaire sous les conditions PL généralisées
- Analyse des méthodes stochastiques sous de nouvelles hypothèses de bruit
Vérification expérimentale : Démonstration de bonnes performances de la méthode proposée sur diverses tâches d'apprentissage automatique, incluant l'entraînement de réseaux de neurones et la factorisation matricielle.

Détails de la Méthode

Définition de la Tâche

Considérez le problème de minimisation général : $\min_{x \in \mathbb{R}^n} f(x)$ où $f: \mathbb{R}^n \to \mathbb{R}$ est une fonction lisse et potentiellement non-convexe.

Cadre Principal : Méthode de Gradient Préconditionné Non-Linéairement

Méthode de base : $x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))$

où $\phi: \mathbb{R}^n \to \mathbb{R}$ est une fonction de référence convexe, $\phi^*$ est sa conjuguée convexe, et $\nabla \phi^*$ génère le préconditionneur.

Idée clé : En choisissant une fonction de référence $\phi$ fortement convexe avec un domaine borné, l'application $\nabla \phi^*$ mappe $\mathbb{R}^n$ vers la boule $n$ -unitaire, réalisant naturellement l'écrêtage de gradient.

Algorithme 1 : Méthode de Gradient Préconditionné Non-Linéairement avec Quantité de Mouvement (m-NPGM)

Entrée : Choisir x⁰ ∈ ℝⁿ, γ, β > 0, définir m⁻¹ = 0ⁿ
Répéter k = 0, 1, ... jusqu'à convergence :
1. Calculer mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Calculer xᵏ⁺¹ = xᵏ - γmᵏ

Forme équivalente : $x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})$

Inégalité de Descente Anisotrope

Définition : Une fonction $f$ satisfait la propriété de descente anisotrope par rapport à $\phi$ si pour tous $x, \bar{x} \in \mathbb{R}^n$ : $f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y})$ où $\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))$ .

Points d'Innovation Technique

Conception de la quantité de mouvement : Contrairement aux méthodes standard, la quantité de mouvement dans cet article est estimée par une combinaison convexe de gradients préconditionnés, plutôt que d'agréger d'abord les gradients puis de les préconditionner.
Lissité généralisée : La lissité anisotrope impose moins de restrictions que la lissité $(L_0, L_1)$ , couvrant une classe de fonctions plus large.
Cadre d'analyse unifié : Fournit une analyse de convergence unifiée basée sur la convexité de la fonction de référence $\phi$ .

Résultats Théoriques

Théorème de Convergence Principal

Théorème 2.2 : Sous la condition de lissité anisotrope, pour $\beta \in [0, 0.5)$ et $\gamma = \alpha/L$ , $\alpha \leq 1$ : $\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}$

Théorème 2.4 : Sous la condition PL généralisée, pour une fonction de référence 2-homogène : $f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*)$ où $\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}$ .

Analyse de la Méthode Stochastique

Théorème 3.1 : Sous la condition de bruit $\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2$ : $\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2$

Configuration Expérimentale

Ensembles de Données

MNIST : Classification de chiffres manuscrits, utilisant un réseau entièrement connecté à deux couches
CIFAR-10/100 : Classification d'images, utilisant l'architecture ResNet-18/34
MovieLens 100K : Problème de factorisation matricielle
Récupération de phase : Problème d'optimisation non-convexe

Métriques d'Évaluation

Vitesse de convergence de la perte d'entraînement
Précision de test
Norme du gradient $\|\nabla f(x^k)\|$

Méthodes de Comparaison

SGD/SGDm : Descente de gradient stochastique standard et sa variante avec quantité de mouvement
Adam : Méthode de taux d'apprentissage adaptatif
GD/GDm : Descente de gradient standard et sa variante avec quantité de mouvement
AdGD-accel : Variante accélérée de la méthode de gradient adaptatif

Détails d'Implémentation

Utilisation d'une longueur de pas fixe
Descente de gradient hyperbolique (HGD) : $\phi(x) = \cosh(\|x\|) - 1$
Version séparable : $\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1$

Résultats Expérimentaux

Résultats Principaux

Classification MNIST : iHGD atteint rapidement une petite perte d'entraînement, avec des performances supérieures à SGD et Adam
Classification CIFAR-10 : La méthode proposée affiche des performances comparables à SGD et SGDm, ces derniers étant l'état de l'art pour ce problème
Factorisation matricielle : iHGDm surpasse significativement les autres méthodes et affiche une plus grande stabilité sur différentes initialisations aléatoires
Récupération de phase : sHGD affiche des performances similaires aux méthodes d'écrêtage de gradient

Découvertes Clés

Longueur de pas adaptative : Pour les fonctions de référence dont la croissance dépasse la quadratique, le préconditionneur forme naturellement une forme sigmoïde, fournissant une règle de longueur de pas adaptative implicite
Stabilité : Sur les problèmes non-convexes tels que la factorisation matricielle, la méthode proposée affiche une meilleure stabilité
Applicabilité générale : La méthode affiche de bonnes performances sur différents types de tâches d'apprentissage automatique

Travaux Connexes

Préconditionnement Dual-Espace/Descente de Gradient Anisotrope

Initialement introduit dans 32 pour les problèmes essentiellement lisses convexes
Inégalité de descente anisotrope introduite dans 24
36 montre que cette méthode inclut de nombreux algorithmes populaires

Écrêtage de Gradient et Lissité Généralisée

Concept de lissité $(L_0, L_1)$ introduit dans 48
Analyse du cadre d'écrêtage général avec quantité de mouvement dans 47
De nombreux travaux étudient ces méthodes sous des hypothèses de bruit et de lissité assouplies

Conclusion et Discussion

Conclusions Principales

Extension réussie des méthodes de descente de gradient anisotrope pour inclure la quantité de mouvement de boule lourde
Fournit des garanties de convergence sous des conditions plus souples que la lissité Lipschitz traditionnelle
Développement de versions stochastiques et analyse sous de nouvelles hypothèses de bruit
Vérification expérimentale de l'efficacité de la méthode sur diverses tâches d'apprentissage automatique

Limitations

Le paramètre de quantité de mouvement est limité à $\beta \in [0, 0.5)$ , ne pouvant pas être étendu à $\beta \in [0, 1)$
L'hypothèse de continuité Lipschitz du préconditionneur est plus stricte que la lissité anisotrope
Absence d'analyse complète de la méthode stochastique avec quantité de mouvement

Directions Futures

Analyse unifiée des algorithmes de quantité de mouvement sous des hypothèses de fonction de référence assouplies
Extension à des paramètres de quantité de mouvement arbitraires $\beta \in [0, 1)$
Extension des algorithmes de type gradient proximal complets pour inclure la quantité de mouvement
Suppression de la dépendance à la taille de lot pour les algorithmes stochastiques et inclusion de la quantité de mouvement

Évaluation Approfondie

Avantages

Innovation théorique : Fournit la première analyse de méthode de quantité de mouvement sous les conditions de lissité anisotrope
Cadre unifié : Unifie plusieurs méthodes telles que l'écrêtage de gradient dans un cadre de préconditionnement non-linéaire
Valeur pratique : La méthode affiche de bonnes performances sur les tâches réelles d'apprentissage automatique
Profondeur d'analyse : Fournit une analyse théorique complète dans les cadres déterministe et stochastique

Insuffisances

Restrictions de paramètres : Les restrictions sur le paramètre de quantité de mouvement ( $\beta < 0.5$ ) sont plus strictes que l'analyse standard
Force des hypothèses : Certains résultats théoriques nécessitent des hypothèses techniques supplémentaires
Étendue expérimentale : Les expériences se concentrent principalement sur les tâches standard d'apprentissage automatique, manquant de vérification d'applications plus larges

Influence

Contribution théorique : Fournit de nouveaux outils et perspectives pour l'analyse théorique des méthodes de préconditionnement non-linéaire
Valeur pratique : Fournit de nouvelles méthodes pour traiter les problèmes d'optimisation au-delà des hypothèses de lissité standard
Reproductibilité : Les auteurs fournissent une implémentation de code public

Scénarios d'Application

Entraînement de réseaux de neurones, particulièrement dans les scénarios où les gradients peuvent être importants
Problèmes d'optimisation non-convexe, tels que la factorisation matricielle
Applications nécessitant l'écrêtage ou la normalisation de gradient
Problèmes d'optimisation au-delà de la lissité Lipschitz standard

Références

L'article contient 48 références couvrant les domaines pertinents de la théorie de l'optimisation, de l'apprentissage automatique et des méthodes numériques, fournissant une base théorique solide pour la recherche.