Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic
Méthodes de Gradient Préconditionné Non-Linéairement : Analyse de la Quantité de Mouvement et Stochastique
Cet article étudie les méthodes de gradient préconditionné non-linéairement pour les problèmes d'optimisation non-convexe lisse, en mettant l'accent sur les préconditioneurs sigmoïdes qui exécutent essentiellement la technique largement utilisée d'écrêtage de gradient. Sur la base de cette idée, les auteurs introduisent un nouvel algorithme de type boule lourde et fournissent des garanties de convergence sous des conditions de lissité généralisée plus souples que les restrictions de lissité Lipschitz traditionnelles, couvrant ainsi une classe de fonctions plus large. De plus, les auteurs développent des variantes stochastiques de la méthode de base et étudient ses propriétés de convergence sous différentes hypothèses de bruit.
Problème à résoudre : Les méthodes traditionnelles de descente de gradient (GD) et de descente de gradient stochastique (SGD) nécessitent un réglage prudent des paramètres ou des stratégies de recherche linéaire coûteuses lorsqu'elles traitent des applications modernes d'apprentissage automatique qui ne satisfont pas l'hypothèse globale de gradient Lipschitz.
Importance du problème : La plupart des fonctions de coût dans les applications modernes d'apprentissage profond ne satisfont pas l'hypothèse traditionnelle de gradient Lipschitz, et les techniques d'écrêtage de gradient sont devenues une pratique standard pour des tâches telles que les modèles de langage, utilisées pour stabiliser l'entraînement des réseaux de neurones.
Limitations des méthodes existantes :
Les méthodes GD/SGD standard convergent difficilement lorsqu'elles traitent des problèmes au-delà de la lissité Lipschitz
L'analyse théorique des méthodes d'écrêtage de gradient existantes est principalement limitée à des conditions de lissité spécifiques
Absence d'analyse des méthodes de quantité de mouvement dans des cadres plus généraux
Motivation de la recherche : Unifier les méthodes d'écrêtage de gradient dans un cadre de préconditionnement non-linéaire et étendre à une analyse théorique plus générale incluant les variantes de quantité de mouvement et stochastiques.
Extension des méthodes de descente anisotrope : Étude des garanties de convergence dans un cadre non-convexe général en incorporant la quantité de mouvement de boule lourde dans l'itération de base.
Proposition d'extensions stochastiques : Analyse de la version stochastique de la méthode de base sous différentes hypothèses de bruit, incluant des conditions plus souples que la variance bornée.
Contributions à l'analyse théorique :
Preuve de la convergence de l'algorithme de quantité de mouvement sous l'inégalité de descente anisotrope
Preuve du taux de convergence linéaire sous les conditions PL généralisées
Analyse des méthodes stochastiques sous de nouvelles hypothèses de bruit
Vérification expérimentale : Démonstration de bonnes performances de la méthode proposée sur diverses tâches d'apprentissage automatique, incluant l'entraînement de réseaux de neurones et la factorisation matricielle.
où ϕ:Rn→R est une fonction de référence convexe, ϕ∗ est sa conjuguée convexe, et ∇ϕ∗ génère le préconditionneur.
Idée clé : En choisissant une fonction de référence ϕ fortement convexe avec un domaine borné, l'application ∇ϕ∗ mappe Rn vers la boule n-unitaire, réalisant naturellement l'écrêtage de gradient.
Définition : Une fonction f satisfait la propriété de descente anisotrope par rapport à ϕ si pour tous x,xˉ∈Rn :
f(x)≤f(xˉ)+L1⋆ϕ(x−yˉ)−L1⋆ϕ(xˉ−yˉ)
où yˉ=xˉ−L1∇ϕ∗(∇f(xˉ)).
Conception de la quantité de mouvement : Contrairement aux méthodes standard, la quantité de mouvement dans cet article est estimée par une combinaison convexe de gradients préconditionnés, plutôt que d'agréger d'abord les gradients puis de les préconditionner.
Lissité généralisée : La lissité anisotrope impose moins de restrictions que la lissité (L0,L1), couvrant une classe de fonctions plus large.
Cadre d'analyse unifié : Fournit une analyse de convergence unifiée basée sur la convexité de la fonction de référence ϕ.
Classification MNIST : iHGD atteint rapidement une petite perte d'entraînement, avec des performances supérieures à SGD et Adam
Classification CIFAR-10 : La méthode proposée affiche des performances comparables à SGD et SGDm, ces derniers étant l'état de l'art pour ce problème
Factorisation matricielle : iHGDm surpasse significativement les autres méthodes et affiche une plus grande stabilité sur différentes initialisations aléatoires
Récupération de phase : sHGD affiche des performances similaires aux méthodes d'écrêtage de gradient
Longueur de pas adaptative : Pour les fonctions de référence dont la croissance dépasse la quadratique, le préconditionneur forme naturellement une forme sigmoïde, fournissant une règle de longueur de pas adaptative implicite
Stabilité : Sur les problèmes non-convexes tels que la factorisation matricielle, la méthode proposée affiche une meilleure stabilité
Applicabilité générale : La méthode affiche de bonnes performances sur différents types de tâches d'apprentissage automatique
Restrictions de paramètres : Les restrictions sur le paramètre de quantité de mouvement (β<0.5) sont plus strictes que l'analyse standard
Force des hypothèses : Certains résultats théoriques nécessitent des hypothèses techniques supplémentaires
Étendue expérimentale : Les expériences se concentrent principalement sur les tâches standard d'apprentissage automatique, manquant de vérification d'applications plus larges
L'article contient 48 références couvrant les domaines pertinents de la théorie de l'optimisation, de l'apprentissage automatique et des méthodes numériques, fournissant une base théorique solide pour la recherche.