A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Xie, Wang, Wu et al.
Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
academic
Un Conte de Deux Géométries : Optimiseurs Adaptatifs et Descente Non-Euclidienne
Titre: A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Auteurs: Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)
Cet article étudie systématiquement les différences essentielles entre deux familles d'algorithmes—les optimiseurs adaptatifs (tels qu'Adam, Shampoo) et la descente de plus grande pente normalisée (NSD, telle que Lion, Muon)—dans l'exploitation des structures géométriques non-euclidiennes. L'étude révèle que bien que ces deux approches soient équivalentes lors de la désactivation des moyennes mobiles exponentielles (EMA), leurs analyses théoriques reposent sur des hypothèses géométriques différentes : les optimiseurs adaptatifs nécessitent une « lissité adaptative » plus forte, tandis que la NSD ne requiert que la lissité standard. Cet article étend la théorie de la lissité adaptative au cadre non-convexe et prouve qu'elle caractérise précisément la convergence des optimiseurs adaptatifs. Plus important encore, l'étude démontre que la lissité adaptative permet aux optimiseurs adaptatifs avec momentum de Nesterov d'atteindre une accélération (O(T⁻²)) dans le cadre convexe, tandis que la lissité standard dans certaines géométries non-euclidiennes ne peut pas garantir cela. De plus, l'article introduit le concept de « variance de gradient adaptative », prouvant qu'il fournit des garanties de convergence sans dépendance dimensionnelle pour la NSD, ce qui est inatteignable sous l'hypothèse standard de variance de gradient.
Cet article vise à répondre à deux questions fondamentales :
Q1: Les méthodes adaptatives (telles qu'Adam, Shampoo) et les méthodes de descente non-euclidienne correspondantes (telles que Lion, Muon) exploitent-elles de la même manière la géométrie non-euclidienne de la fonction de perte ?
Q2: Les hypothèses de lissité plus fortes dans les méthodes adaptatives apportent-elles des avantages réels en optimisation ?
Valeur Pratique: Les optimiseurs adaptatifs comme Adam sont indispensables à l'entraînement de modèles d'apprentissage automatique à grande échelle (tels que LLaMA, DeepSeek, etc.), mais récemment, des méthodes NSD simples comme Lion et Muon ont montré une efficacité remarquable, soulevant des questions sur les différences essentielles entre ces deux classes de méthodes.
Lacune Théorique: Bien que Bernstein & Newhouse (2024) aient montré que les deux classes de méthodes sont équivalentes lors de la désactivation de l'EMA (par exemple, Adam équivaut à ℓ∞-NSD, Shampoo équivaut à NSD de norme spectrale), une caractérisation théorique systématique fait défaut.
Perspective Géométrique: La performance supérieure des deux classes de méthodes est liée à l'exploitation de la géométrie non-euclidienne de la fonction de perte, mais leurs analyses théoriques reposent sur des hypothèses géométriques essentiellement différentes.
Théorie de Convergence Incomplète: La théorie de la lissité adaptative n'a été établie que dans le cadre convexe (Xie et al., 2025b), le cas non-convexe manque de caractérisation.
Force des Hypothèses Peu Claire: La lissité adaptative est toujours au moins aussi grande que la lissité standard, mais si cette hypothèse plus forte apporte des avantages réels n'a pas été prouvé.
Problème de Dépendance Dimensionnelle: La NSD en optimisation stochastique présente une dépendance dimensionnelle (par exemple, le facteur √d de SignGD), manquant d'hypothèses de bruit plus fines.
Théorie de Convergence Non-Convexe: Extension de la théorie de la lissité adaptative au cadre non-convexe, prouvant qu'elle caractérise précisément le taux de convergence des optimiseurs adaptatifs (Théorèmes C.2, C.7, C.8), atteignant le taux optimal Õ(T⁻¹/⁴).
Garanties de Convergence Accélérée: Preuve que la lissité adaptative permet aux optimiseurs adaptatifs avec momentum de Nesterov d'atteindre un taux accéléré Õ(T⁻²) dans le cadre convexe (Théorème 4.4), tandis que la lissité ℓ∞ standard ne permet à tout optimiseur d'atteindre que Ω(T⁻¹) (Guzmán & Nemirovski, 2015).
Variance de Gradient Adaptative: Introduction du concept de variance de gradient adaptative (Définition 4.1), prouvant qu'il fournit des garanties de convergence sans dépendance dimensionnelle pour la NSD avec momentum (Théorème 4.6), et prouvant par une borne inférieure (Théorème 4.9) que la dépendance dimensionnelle est inévitable sous l'hypothèse standard de variance de gradient.
Cadre d'Analyse Unifié: Fourniture d'un cadre d'analyse unifié couvrant des méthodes adaptatives largement applicables telles qu'AdaGrad, AdaGrad-Norm, Shampoo unilatéral, etc., avec une contribution technique centrale consistant en nouvelles inégalités matricielles (Lemmes 3.3, 3.4) traitant les préconditioneurs non-commutatifs.
Séparation Théorique: Établissement systématique de séparations quantitatives entre les deux classes d'hypothèses géométriques (standard vs adaptative) sur les dimensions de lissité et de bruit, approfondissant la compréhension théorique de l'adaptativité.
Considérez le problème d'optimisation :
minx∈Rdf(x)
où f:Rd→R peut être non-convexe. Dans le cadre stochastique, on accède à la fonction objectif via des gradients stochastiques ∇ft(x) satisfaisant E[∇ft(x)]=∇f(x).
Définition 2.1: H⊆S+d est appelé ensemble de préconditioneurs bien structurés si H=S+d∩K, où K⊆Md est une sous-algèbre matricielle contenant la matrice identité.
Exemples:
Ensemble de matrices diagonales D+d (correspondant à Adam)
Matrices PSD complètes S+d (correspondant à AdaGrad matriciel)
Matrices scalaires {cId:c>0} (correspondant à AdaGrad-Norm)
Structure produit de Kronecker SdL+⊗IdR (correspondant à Shampoo unilatéral)
Pour un ensemble de préconditioneurs bien structurés H, définissez la norme induite :
∥x∥H:=supH∈H,Tr(H)≤1∥x∥H=supH∈H,Tr(H)≤1x⊤Hx
Lemme 2.2: La norme duale satisfait
∥x∥H,∗=infH∈H,Tr(H)≤1∥x∥H−1
Cette dualité est clé pour comprendre les deux géométries : ∥⋅∥H est le supremum ponctuel de tous les ∥⋅∥H, tandis que ∥⋅∥H,∗ est l'infimum ponctuel des normes duales correspondantes.
Pour les matrices définies positives X,Y satisfaisant Y⪯X, pour tout 0≤c≤C:
X−1/2(X−Y)X−1/2⪯π23(logC−logc)(logX−logY)+(π2λmin(X)212cd+π212C−1d)Tr(X−Y)⋅I
Signification:
Lorsque les matrices commutent, on peut utiliser le téléscopage logarithmique pour obtenir des bornes serrées
Dans le cas non-commutatif, le deuxième terme quantifie le « coût de non-commutativité », introduisant un facteur logd
En choisissant soigneusement c,C, on équilibre les deux termes pour obtenir la borne centrale du Lemme 3.3
Intuition: La variance adaptative exige un contrôle uniforme du bruit dans toutes les géométries induites par les préconditioneurs, ce qui est plus fort que le simple contrôle dans une norme fixe.
Note: Cet article est un travail purement théorique et ne contient pas de section expérimentale. Tous les résultats sont des taux de convergence théoriques et des preuves de bornes inférieures.
Pour les optimiseurs adaptatifs de type cumulatif (classe AdaGrad), sur des fonctions non-convexes déterministes :
T1∑t=0T−1∥∇f(xt)∥H,∗≤T1(ξ+dϵ1/4ξ)
où :
ξ=O~(ηΔ0+η⋅ΛH(f)log2d)
En choisissant η=ΛH(f)log2dΔ0, on atteint O~(TΔ0ΛH(f)logd).
Points Clés:
Le taux de convergence dépend de la lissité adaptativeΛH(f) plutôt que de la lissité standard
Pour les préconditioneurs diagonaux (comme Adam), pas de facteur logd
Les préconditioneurs bien structurés généraux introduisent un facteur logd (coût de non-commutativité)
Pour les optimiseurs adaptatifs avec momentum de Nesterov (Algorithme 2), sur des fonctions convexes en choisissant αt=t+22 et η=D :
E[f(xˉT)−f(x∗)]=O~(T2ΛH(f)D2log2d+T2dϵD+TσHDlogd)
Comparaison:
Sous lissité adaptative: Taux d'accélération O(T−2) (partie déterministe)
Sous lissité ℓ∞ standard: Guzmán & Nemirovski (2015) prouvent que toute méthode du premier ordre atteint seulement Ω(T−1)
Signification: Preuve que la lissité adaptative a un avantage substantiel—elle permet l'accélération, tandis que la lissité standard ne le peut pas.
Pour la NSD (Algorithme 3) sous variance de gradient adaptative σH :
E[T1∑t=0T−1∥∇f(xt)∥H,∗]≤ηTΔ0+α2ηL∥⋅∥H(f)+αT2σH+2σHα
En choisissant de manière optimale α=σHTΔ0L∥⋅∥H(f) et η=L∥⋅∥H(f)1/4σH1/2Δ03/4T−3/4 :
Taux=O(T1/4(Δ0L∥⋅∥H(f))1/4σH)
Sans Dépendance Dimensionnelle: Comparé à O~(ρd/T1/4) de Pethick et al. (2025) (où ρ=supx∥x∥2∥x∥H,∗ peut atteindre Θ(d)), ce résultat élimine complètement la dépendance dimensionnelle.
Sous l'hypothèse standard de variance ℓ₁ E[∥∇ft(x)−∇f(x)∥12]≤σ2, pour SignGD (ℓ∞-NSD) il existe des instances difficiles telles que :
E[mint∈[T]∥∇f(xt)∥1]=min{e−25−41(dLΔ0σ2)1/4T−1/2,e−25−21σ}
Signification:
Atteindre une erreur ϵ<e−25−1/2σ nécessite T=Ω(ϵ−2(dLΔ0σ2)1/2) étapes
La dépendance dimensionnelle Ω(d1/2) est inévitable sous l'hypothèse standard de variance
Contraste avec la borne supérieure sans dépendance dimensionnelle du Théorème 4.6, prouvant l'avantage essentiel de la variance adaptative
Dualité Géométrique: Bien que les optimiseurs adaptatifs et la NSD exploitent tous deux la géométrie non-euclidienne, ils dépendent d'hypothèses géométriques essentiellement différentes :
Optimiseurs Adaptatifs: Nécessitent la lissité adaptative ΛH(f), s'adaptant automatiquement au meilleur préconditioneur
NSD: Nécessitent seulement la lissité standard L∥⋅∥H(f), mais doivent spécifier la norme à l'avance
Valeur de l'Adaptativité: Les hypothèses adaptatives plus fortes apportent des avantages substantiels :
Accélération: Atteindre O(T⁻²) dans le cas convexe vs Ω(T⁻¹) sous hypothèses standard
Sans Dépendance Dimensionnelle: Éliminer la dépendance dimensionnelle dans le cas stochastique
Cadre Théorique Unifié: Première établissement d'une théorie de convergence non-convexe pour une large classe de méthodes adaptatives incluant Shampoo unilatéral, avec la technique centrale étant les nouvelles inégalités matricielles traitant les préconditioneurs non-commutatifs.
Serretté: Les preuves de bornes inférieures démontrent que :
La dépendance dimensionnelle est inévitable sous l'hypothèse standard de variance (Théorème 4.9)
L'avantage de la variance adaptative n'est pas seulement une hypothèse technique, mais une différence essentielle
Travail Purement Théorique: Absence de vérification expérimentale des prédictions théoriques (par exemple, comportement de convergence réel sous différentes géométries)
Facteurs Constants:
Les préconditioneurs non-diagonaux introduisent un facteur logd (peut ne pas être significatif en pratique)
L'algorithme d'accélération nécessite de connaître D=maxt∥xt−x∗∥H (atténué par une version avec projection)
Conditions d'Hypothèse:
L'Hypothèse C.1 (borne de covariance ponctuelle) est plus forte que l'hypothèse standard d'espérance
Les résultats d'accélération exigent la convexité
Portée d'Application:
Comment vérifier en pratique l'hypothèse de variance adaptative ?
Quels problèmes réels satisfont la lissité adaptative ?
Analyse EMA: La variante EMA nécessite de choisir β=1−Θ(Tlogd), tandis qu'en pratique on utilise généralement un β fixe (par exemple 0.9, 0.999)
Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" - Fondation du cas convexe de cet article
Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" - Borne inférieure sous lissité ℓ∞
Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" - Analyse récente de la NSD
Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" - Travail parallèle
Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" - Équivalence entre Adam et NSD
Gupta et al. (2017): "A unified approach to adaptive regularization" - Cadre des optimiseurs adaptatifs
Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" - Fondation de concavité du Lemme A.7
Résumé: Cet article représente une avancée importante dans la théorie de l'optimisation adaptative, révélant systématiquement les différences essentielles entre les méthodes adaptatives et la NSD dans leurs hypothèses géométriques, et prouvant rigoureusement la valeur substantielle de l'adaptativité. Bien qu'il manque de vérification expérimentale, sa profondeur théorique et ses innovations techniques en font une référence importante dans ce domaine. La contribution centrale réside dans l'établissement d'un système théorique complet des « deux géométries », fournissant une nouvelle perspective pour comprendre et concevoir les algorithmes d'optimisation adaptative.