2025-11-27T08:46:18.590812

A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent

Xie, Wang, Wu et al.
Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
academic

Un Conte de Deux Géométries : Optimiseurs Adaptatifs et Descente Non-Euclidienne

Informations Fondamentales

  • ID de l'article: 2511.20584
  • Titre: A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
  • Auteurs: Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)
  • Classification: cs.LG (Apprentissage Automatique)
  • Date de publication: 25 novembre 2025 (arXiv v1)
  • Lien de l'article: https://arxiv.org/abs/2511.20584

Résumé

Cet article étudie systématiquement les différences essentielles entre deux familles d'algorithmes—les optimiseurs adaptatifs (tels qu'Adam, Shampoo) et la descente de plus grande pente normalisée (NSD, telle que Lion, Muon)—dans l'exploitation des structures géométriques non-euclidiennes. L'étude révèle que bien que ces deux approches soient équivalentes lors de la désactivation des moyennes mobiles exponentielles (EMA), leurs analyses théoriques reposent sur des hypothèses géométriques différentes : les optimiseurs adaptatifs nécessitent une « lissité adaptative » plus forte, tandis que la NSD ne requiert que la lissité standard. Cet article étend la théorie de la lissité adaptative au cadre non-convexe et prouve qu'elle caractérise précisément la convergence des optimiseurs adaptatifs. Plus important encore, l'étude démontre que la lissité adaptative permet aux optimiseurs adaptatifs avec momentum de Nesterov d'atteindre une accélération (O(T⁻²)) dans le cadre convexe, tandis que la lissité standard dans certaines géométries non-euclidiennes ne peut pas garantir cela. De plus, l'article introduit le concept de « variance de gradient adaptative », prouvant qu'il fournit des garanties de convergence sans dépendance dimensionnelle pour la NSD, ce qui est inatteignable sous l'hypothèse standard de variance de gradient.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Cet article vise à répondre à deux questions fondamentales :

  1. Q1: Les méthodes adaptatives (telles qu'Adam, Shampoo) et les méthodes de descente non-euclidienne correspondantes (telles que Lion, Muon) exploitent-elles de la même manière la géométrie non-euclidienne de la fonction de perte ?
  2. Q2: Les hypothèses de lissité plus fortes dans les méthodes adaptatives apportent-elles des avantages réels en optimisation ?

Importance de la Recherche

  • Valeur Pratique: Les optimiseurs adaptatifs comme Adam sont indispensables à l'entraînement de modèles d'apprentissage automatique à grande échelle (tels que LLaMA, DeepSeek, etc.), mais récemment, des méthodes NSD simples comme Lion et Muon ont montré une efficacité remarquable, soulevant des questions sur les différences essentielles entre ces deux classes de méthodes.
  • Lacune Théorique: Bien que Bernstein & Newhouse (2024) aient montré que les deux classes de méthodes sont équivalentes lors de la désactivation de l'EMA (par exemple, Adam équivaut à ℓ∞-NSD, Shampoo équivaut à NSD de norme spectrale), une caractérisation théorique systématique fait défaut.
  • Perspective Géométrique: La performance supérieure des deux classes de méthodes est liée à l'exploitation de la géométrie non-euclidienne de la fonction de perte, mais leurs analyses théoriques reposent sur des hypothèses géométriques essentiellement différentes.

Limitations des Approches Existantes

  1. Théorie de Convergence Incomplète: La théorie de la lissité adaptative n'a été établie que dans le cadre convexe (Xie et al., 2025b), le cas non-convexe manque de caractérisation.
  2. Force des Hypothèses Peu Claire: La lissité adaptative est toujours au moins aussi grande que la lissité standard, mais si cette hypothèse plus forte apporte des avantages réels n'a pas été prouvé.
  3. Problème de Dépendance Dimensionnelle: La NSD en optimisation stochastique présente une dépendance dimensionnelle (par exemple, le facteur √d de SignGD), manquant d'hypothèses de bruit plus fines.

Contributions Principales

  1. Théorie de Convergence Non-Convexe: Extension de la théorie de la lissité adaptative au cadre non-convexe, prouvant qu'elle caractérise précisément le taux de convergence des optimiseurs adaptatifs (Théorèmes C.2, C.7, C.8), atteignant le taux optimal Õ(T⁻¹/⁴).
  2. Garanties de Convergence Accélérée: Preuve que la lissité adaptative permet aux optimiseurs adaptatifs avec momentum de Nesterov d'atteindre un taux accéléré Õ(T⁻²) dans le cadre convexe (Théorème 4.4), tandis que la lissité ℓ∞ standard ne permet à tout optimiseur d'atteindre que Ω(T⁻¹) (Guzmán & Nemirovski, 2015).
  3. Variance de Gradient Adaptative: Introduction du concept de variance de gradient adaptative (Définition 4.1), prouvant qu'il fournit des garanties de convergence sans dépendance dimensionnelle pour la NSD avec momentum (Théorème 4.6), et prouvant par une borne inférieure (Théorème 4.9) que la dépendance dimensionnelle est inévitable sous l'hypothèse standard de variance de gradient.
  4. Cadre d'Analyse Unifié: Fourniture d'un cadre d'analyse unifié couvrant des méthodes adaptatives largement applicables telles qu'AdaGrad, AdaGrad-Norm, Shampoo unilatéral, etc., avec une contribution technique centrale consistant en nouvelles inégalités matricielles (Lemmes 3.3, 3.4) traitant les préconditioneurs non-commutatifs.
  5. Séparation Théorique: Établissement systématique de séparations quantitatives entre les deux classes d'hypothèses géométriques (standard vs adaptative) sur les dimensions de lissité et de bruit, approfondissant la compréhension théorique de l'adaptativité.

Explication Détaillée de la Méthode

Définition du Problème

Considérez le problème d'optimisation : minxRdf(x)\min_{x \in \mathbb{R}^d} f(x)

f:RdRf: \mathbb{R}^d \to \mathbb{R} peut être non-convexe. Dans le cadre stochastique, on accède à la fonction objectif via des gradients stochastiques ft(x)\nabla f_t(x) satisfaisant E[ft(x)]=f(x)\mathbb{E}[\nabla f_t(x)] = \nabla f(x).

Concepts Fondamentaux

1. Ensemble de Préconditioneurs Bien Structurés (Well-structured Preconditioner Set)

Définition 2.1: HS+d\mathcal{H} \subseteq \mathbb{S}_+^d est appelé ensemble de préconditioneurs bien structurés si H=S+dK\mathcal{H} = \mathbb{S}_+^d \cap \mathcal{K}, où KMd\mathcal{K} \subseteq \mathbb{M}^d est une sous-algèbre matricielle contenant la matrice identité.

Exemples:

  • Ensemble de matrices diagonales D+d\mathcal{D}_+^d (correspondant à Adam)
  • Matrices PSD complètes S+d\mathbb{S}_+^d (correspondant à AdaGrad matriciel)
  • Matrices scalaires {cId:c>0}\{cI_d: c>0\} (correspondant à AdaGrad-Norm)
  • Structure produit de Kronecker SdL+IdR\mathbb{S}_{d_L}^+ \otimes I_{d_R} (correspondant à Shampoo unilatéral)

2. Normes Induites et Normes Duales

Pour un ensemble de préconditioneurs bien structurés H\mathcal{H}, définissez la norme induite : xH:=supHH,Tr(H)1xH=supHH,Tr(H)1xHx\|x\|_{\mathcal{H}} := \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_H = \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sqrt{x^\top H x}

Lemme 2.2: La norme duale satisfait xH,=infHH,Tr(H)1xH1\|x\|_{\mathcal{H},*} = \inf_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_{H^{-1}}

Cette dualité est clé pour comprendre les deux géométries : H\|\cdot\|_{\mathcal{H}} est le supremum ponctuel de tous les H\|\cdot\|_H, tandis que H,\|\cdot\|_{\mathcal{H},*} est l'infimum ponctuel des normes duales correspondantes.

3. Deux Classes de Lissité

Lissité Standard (Définition 2.3): L(f):=min{L:f(x)f(y)Lxy,x,y}L_{\|\cdot\|}(f) := \min\{L: \|\nabla f(x) - \nabla f(y)\|_* \leq L\|x-y\|, \forall x,y\}

Lissité Adaptative (Définition 2.4): ΛH(f):=minHH,Tr(H)1LH(f)=minHH,x:H2f(x)HTr(H)\Lambda_{\mathcal{H}}(f) := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} L_{\|\cdot\|_H}(f) = \min_{H \in \mathcal{H}, \forall x: -H \preceq \nabla^2 f(x) \preceq H} \text{Tr}(H)

Relation (Proposition 2.5): LH(f)ΛH(f)dLH(f)L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f)

La lissité adaptative est toujours au moins aussi grande que la lissité standard, mais diffère d'au plus un facteur dimensionnel dd.

Cadre Unifié d'Optimiseurs Adaptatifs (Algorithme 1)

Structure de l'Algorithme:

Entrée: Point initial x₀, taux d'apprentissage η, ensemble de préconditioneurs H, 
        constante de stabilité ϵ
Initialisation: M₋₁ = 0
Pour t = 0, 1, ..., T-1:
    gₜ ← ∇fₜ(xₜ)
    Mₜ ← Mode d'accumulation(Mₜ₋₁, gₜ)  // trois variantes
    Vₜ ← argmin_{H∈H} ⟨Mₜ + ϵI, H⁻¹⟩ + Tr(H)
    xₜ₊₁ ← xₜ - ηVₜ⁻¹gₜ
Retourner x_T

Trois Variantes d'Accumulation:

  1. Type Cumulatif: Mt=Mt1+gtgtM_t = M_{t-1} + g_t g_t^\top (AdaGrad)
  2. Type EMA: Mt=βMt1+(1β)gtgtM_t = \beta M_{t-1} + (1-\beta)g_t g_t^\top (Adam)
  3. Type Pondéré: Mt=βMt1+gtgtM_t = \beta M_{t-1} + g_t g_t^\top (pour analyse unifiée)

Observation Clé: Vt=PH(Mt+ϵI)V_t = \mathcal{P}_{\mathcal{H}}(M_t + \epsilon I), où PH(M)2\mathcal{P}_{\mathcal{H}}(M)^2 est la projection de MM sur H\mathcal{H} (Lemme A.4).

Points d'Innovation Technique

1. Nouvelle Inégalité Matricielle (Lemme 3.4)

Pour les matrices définies positives X,YX, Y satisfaisant YXY \preceq X, pour tout 0cC0 \leq c \leq C: X1/2(XY)X1/23(logClogc)π2(logXlogY)+(12cdπ2λmin(X)2+12C1dπ2)Tr(XY)IX^{-1/2}(X-Y)X^{-1/2} \preceq \frac{3(\log C - \log c)}{\pi^2}(\log X - \log Y) + \left(\frac{12cd}{\pi^2\lambda_{\min}(X)^2} + \frac{12C^{-1}d}{\pi^2}\right)\text{Tr}(X-Y) \cdot I

Signification:

  • Lorsque les matrices commutent, on peut utiliser le téléscopage logarithmique pour obtenir des bornes serrées
  • Dans le cas non-commutatif, le deuxième terme quantifie le « coût de non-commutativité », introduisant un facteur logd\log d
  • En choisissant soigneusement c,Cc, C, on équilibre les deux termes pour obtenir la borne centrale du Lemme 3.3

2. Contrôle des Termes du Deuxième Ordre (Lemme 3.3)

Pour l'algorithme pondéré, définissez ST=t=0T1Vt1(Vt2βVt12)Vt1S_T = \sum_{t=0}^{T-1} V_t^{-1}(V_t^2 - \beta V_{t-1}^2)V_t^{-1}, alors : t=0T1Vt1gtH2Tr(H)STop\sum_{t=0}^{T-1} \|V_t^{-1}g_t\|_H^2 \leq \text{Tr}(H) \|S_T\|_{\text{op}}

et il existe des constantes C1,C2C_1, C_2 telles que : STopC1(1+log(1+dϵt=0T1gt22+d2(1β)T))((1β)Tβ+logVT12/ϵop)+C2\|S_T\|_{\text{op}} \leq C_1\left(1 + \log\left(1 + \frac{d}{\epsilon}\sum_{t=0}^{T-1}\|g_t\|_2^2 + d^2(1-\beta)T\right)\right)\left(\frac{(1-\beta)T}{\beta} + \log\|V_{T-1}^2/\epsilon\|_{\text{op}}\right) + C_2

Cas Particulier: Lorsque H\mathcal{H} est commutatif (par exemple, matrices diagonales), on améliore à STop(1β)T+logVT12/ϵop\|S_T\|_{\text{op}} \leq (1-\beta)T + \log\|V_{T-1}^2/\epsilon\|_{\text{op}}.

3. Variance de Gradient Adaptative (Définition 4.1)

σH({ft})2:=minHH,Tr(H)1supt,xE[ft(x)E[ft(x)]H12]\sigma_{\mathcal{H}}(\{f_t\})^2 := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sup_{t, x} \mathbb{E}[\|\nabla f_t(x) - \mathbb{E}[\nabla f_t(x)]\|_{H^{-1}}^2]

Relation (Proposition 4.2): σH,({ft})2σH({ft})2dσH,({ft})2\sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2 \leq \sigma_{\mathcal{H}}(\{f_t\})^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2

Intuition: La variance adaptative exige un contrôle uniforme du bruit dans toutes les géométries induites par les préconditioneurs, ce qui est plus fort que le simple contrôle dans une norme fixe.

Configuration Expérimentale

Note: Cet article est un travail purement théorique et ne contient pas de section expérimentale. Tous les résultats sont des taux de convergence théoriques et des preuves de bornes inférieures.

Configuration d'Analyse Théorique

Conditions d'Hypothèse

  1. Lissité:
    • Lissité standard : f(x)f(y)H,LH(f)xyH\|\nabla f(x) - \nabla f(y)\|_{\mathcal{H},*} \leq L_{\|\cdot\|_{\mathcal{H}}}(f)\|x-y\|_{\mathcal{H}}
    • Lissité adaptative : ΛH(f)=minHH,Tr(H)1LH(f)\Lambda_{\mathcal{H}}(f) = \min_{H \in \mathcal{H}, \text{Tr}(H)\leq 1} L_{\|\cdot\|_H}(f)
  2. Hypothèse de Bruit (Hypothèse C.1):
    • E[ft(x)]=f(x)\mathbb{E}[\nabla f_t(x)] = \nabla f(x)
    • Il existe Σ0\Sigma \succeq 0 tel que Σf(x)f(x)ft(x)ft(x)Σ-\Sigma \preceq \nabla f(x)\nabla f(x)^\top - \nabla f_t(x)\nabla f_t(x)^\top \preceq \Sigma
  3. Convexité: Certains résultats (accélération) exigent que ff soit une fonction convexe

Méthode d'Analyse

  • Lemme de Descente: Utilisation de la lissité pour établir des relations de descente en une seule étape
  • Téléscopage: Téléscopage des sommes pour les termes accumulés
  • Inégalités Matricielles: Contrôle des changements de préconditioneurs introduisant des termes du deuxième ordre
  • Méthode Probabiliste: Le bruit aléatoire est traité via l'espérance conditionnelle et la décomposition de variance
  • Bornes Inférieures Constructives: Preuve de la serretté par construction d'instances difficiles soigneusement conçues

Résultats Expérimentaux

Résultats Théoriques Principaux

1. Taux de Convergence Non-Convexe (Théorème 3.2)

Pour les optimiseurs adaptatifs de type cumulatif (classe AdaGrad), sur des fonctions non-convexes déterministes : 1Tt=0T1f(xt)H,1T(ξ+dϵ1/4ξ)\frac{1}{T}\sum_{t=0}^{T-1} \|\nabla f(x_t)\|_{\mathcal{H},*} \leq \frac{1}{\sqrt{T}}\left(\xi + \sqrt{d}\epsilon^{1/4}\sqrt{\xi}\right)

où : ξ=O~(Δ0η+ηΛH(f)log2d)\xi = \tilde{O}\left(\frac{\Delta_0}{\eta} + \eta \cdot \Lambda_{\mathcal{H}}(f) \log^2 d\right)

En choisissant η=Δ0ΛH(f)log2d\eta = \sqrt{\frac{\Delta_0}{\Lambda_{\mathcal{H}}(f)\log^2 d}}, on atteint O~(Δ0ΛH(f)logdT)\tilde{O}\left(\frac{\sqrt{\Delta_0 \Lambda_{\mathcal{H}}(f)}\log d}{\sqrt{T}}\right).

Points Clés:

  • Le taux de convergence dépend de la lissité adaptative ΛH(f)\Lambda_{\mathcal{H}}(f) plutôt que de la lissité standard
  • Pour les préconditioneurs diagonaux (comme Adam), pas de facteur logd\log d
  • Les préconditioneurs bien structurés généraux introduisent un facteur logd\log d (coût de non-commutativité)

2. Taux de Convergence Accélérée (Théorème 4.4)

Pour les optimiseurs adaptatifs avec momentum de Nesterov (Algorithme 2), sur des fonctions convexes en choisissant αt=2t+2\alpha_t = \frac{2}{t+2} et η=D\eta = D : E[f(xˉT)f(x)]=O~(ΛH(f)D2log2dT2+dϵDT2+σHDlogdT)\mathbb{E}[f(\bar{x}_T) - f(x^*)] = \tilde{O}\left(\frac{\Lambda_{\mathcal{H}}(f)D^2\log^2 d}{T^2} + \frac{d\sqrt{\epsilon}D}{T^2} + \frac{\sigma_{\mathcal{H}}D\log d}{\sqrt{T}}\right)

Comparaison:

  • Sous lissité adaptative: Taux d'accélération O(T2)O(T^{-2}) (partie déterministe)
  • Sous lissité ℓ∞ standard: Guzmán & Nemirovski (2015) prouvent que toute méthode du premier ordre atteint seulement Ω(T1)\Omega(T^{-1})

Signification: Preuve que la lissité adaptative a un avantage substantiel—elle permet l'accélération, tandis que la lissité standard ne le peut pas.

3. Taux de Convergence Sans Dépendance Dimensionnelle (Théorème 4.6)

Pour la NSD (Algorithme 3) sous variance de gradient adaptative σH\sigma_{\mathcal{H}} : E[1Tt=0T1f(xt)H,]Δ0ηT+2ηαLH(f)+2σHαT+2σHα\mathbb{E}\left[\frac{1}{T}\sum_{t=0}^{T-1}\|\nabla f(x_t)\|_{\mathcal{H},*}\right] \leq \frac{\Delta_0}{\eta T} + \frac{2\eta}{\alpha}L_{\|\cdot\|_{\mathcal{H}}}(f) + \frac{2\sigma_{\mathcal{H}}}{\alpha T} + 2\sigma_{\mathcal{H}}\sqrt{\alpha}

En choisissant de manière optimale α=Δ0LH(f)σHT\alpha = \frac{\sqrt{\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f)}}{\sigma_{\mathcal{H}}\sqrt{T}} et η=Δ03/4LH(f)1/4σH1/2T3/4\eta = \frac{\Delta_0^{3/4}}{L_{\|\cdot\|_{\mathcal{H}}}(f)^{1/4}\sigma_{\mathcal{H}}^{1/2}}T^{-3/4} : Taux=O((Δ0LH(f))1/4σHT1/4)\text{Taux} = O\left(\frac{(\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f))^{1/4}\sqrt{\sigma_{\mathcal{H}}}}{T^{1/4}}\right)

Sans Dépendance Dimensionnelle: Comparé à O~(ρd/T1/4)\tilde{O}(\rho\sqrt{d}/T^{1/4}) de Pethick et al. (2025) (où ρ=supxxH,x2\rho = \sup_x \frac{\|x\|_{\mathcal{H},*}}{\|x\|_2} peut atteindre Θ(d)\Theta(\sqrt{d})), ce résultat élimine complètement la dépendance dimensionnelle.

4. Borne Inférieure de Dépendance Dimensionnelle (Théorème 4.9)

Sous l'hypothèse standard de variance ℓ₁ E[ft(x)f(x)12]σ2\mathbb{E}[\|\nabla f_t(x) - \nabla f(x)\|_1^2] \leq \sigma^2, pour SignGD (ℓ∞-NSD) il existe des instances difficiles telles que : E[mint[T]f(xt)1]=min{e2514(dLΔ0σ2)1/4T1/2,e2512σ}\mathbb{E}\left[\min_{t \in [T]}\|\nabla f(x_t)\|_1\right] = \min\left\{e^{-25-\frac{1}{4}}(dL\Delta_0\sigma^2)^{1/4}T^{-1/2}, e^{-25-\frac{1}{2}}\sigma\right\}

Signification:

  • Atteindre une erreur ϵ<e251/2σ\epsilon < e^{-25-1/2}\sigma nécessite T=Ω(ϵ2(dLΔ0σ2)1/2)T = \Omega(\epsilon^{-2}(dL\Delta_0\sigma^2)^{1/2}) étapes
  • La dépendance dimensionnelle Ω(d1/2)\Omega(d^{1/2}) est inévitable sous l'hypothèse standard de variance
  • Contraste avec la borne supérieure sans dépendance dimensionnelle du Théorème 4.6, prouvant l'avantage essentiel de la variance adaptative

Aperçus Clés

1. Quantification de la Séparation Géométrique

Relations entre les deux classes de lissité et variance :

  • Lissité: LH(f)ΛH(f)dLH(f)L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f)
  • Variance: σH,2σH2dσH,2\sigma_{\|\cdot\|_{\mathcal{H},*}}^2 \leq \sigma_{\mathcal{H}}^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}^2

L'écart est au maximum la dimension dd, mais est serré dans certains cas (par exemple, matrices diagonales vs matrices complètes).

2. Inefficacité de la Moyenne (Averaging Ineffectiveness)

Dans les géométries non-euclidiennes, la moyenne ne peut pas réduire efficacement la norme :

  • ℓ₂: 1ni=1nxi2=O(1/n)\|\frac{1}{n}\sum_{i=1}^n x_i\|_2 = O(1/\sqrt{n}) (efficace)
  • ℓ₁: 1ni=1nxi1=O(d/n)\|\frac{1}{n}\sum_{i=1}^n x_i\|_1 = O(\sqrt{d}/\sqrt{n}) (dépendance dimensionnelle)

Cela explique pourquoi :

  • L'accélération nécessite une lissité adaptative plus forte
  • Le momentum ne peut pas éliminer la dépendance dimensionnelle sous variance standard

3. Coût de Non-Commutativité

Les préconditioneurs bien structurés généraux (comme Shampoo unilatéral) introduisent un facteur logd\log d, provenant de :

  • Les matrices ne commutent pas, empêchant le téléscopage direct
  • Le terme non-commutatif dans le Lemme 3.4 : 12cdπ2λmin2Tr(XY)I\frac{12cd}{\pi^2\lambda_{\min}^2}\text{Tr}(X-Y) \cdot I
  • En choisissant soigneusement les paramètres, le coût est contrôlé à logd\log d

Travaux Connexes

Optimiseurs Adaptatifs

  1. Préconditionnement Matriciel: Shampoo (Gupta et al., 2018) et ses variantes (SOAP, PolarGrad, AdaMuon)
  2. Préconditionnement Diagonal: AdaGrad (Duchi et al., 2011), Adam (Kingma & Ba, 2014)
  3. Théorie de Convergence:
    • Cas convexe : Xie et al. (2025b) établissent la théorie de lissité adaptative
    • Cas diagonal : Maladkar et al. (2024), Xie et al. (2025a)
  4. Variance Adaptative: Frans et al. (2025) pointent la perspective de blanchiment matriciel

Descente de Plus Grande Pente Normalisée (NSD)

  1. Analyse de Convergence:
    • Cutkosky & Mehta (2020): Taux non-convexe O(T⁻³·⁵)
    • Pethick et al. (2025), Kovalev (2025b): Analyse sous normes générales
  2. Équivalence:
    • Lion = ℓ∞-NSD (Sfyraki & Wang, 2025)
    • Muon = NSD de norme spectrale (Chen et al., 2025)
  3. Dépendance Dimensionnelle: Jiang et al. (2025) améliorations pour SignGD

Méthodes Accélérées

  1. Perspective de Descente Miroir: Kelner et al. (2014), Allen-Zhu & Orecchia (2014)
  2. Accélération Adaptative: Cutkosky (2019), Kavis et al. (2019), Joulani et al. (2020) pour adaptativité diagonale/coordonnée
  3. Bornes Inférieures: Guzmán & Nemirovski (2015) prouvent la borne inférieure Ω(T⁻¹) sous lissité ℓ∞

Comparaison des Contributions de cet Article

  • vs Xie et al. (2025b): Extension au cadre non-convexe + stochastique
  • vs Kovalev (2025a): Hypothèses plus faibles (éviter l'Hypothèse 4), préconditioneurs plus généraux
  • vs Pethick et al. (2025): Élimination de la dépendance dimensionnelle via variance adaptative
  • vs méthodes d'accélération existantes: Première preuve d'accélération sous préconditioneurs bien structurés généraux

Conclusion et Discussion

Conclusions Principales

  1. Dualité Géométrique: Bien que les optimiseurs adaptatifs et la NSD exploitent tous deux la géométrie non-euclidienne, ils dépendent d'hypothèses géométriques essentiellement différentes :
    • Optimiseurs Adaptatifs: Nécessitent la lissité adaptative ΛH(f)\Lambda_{\mathcal{H}}(f), s'adaptant automatiquement au meilleur préconditioneur
    • NSD: Nécessitent seulement la lissité standard LH(f)L_{\|\cdot\|_{\mathcal{H}}}(f), mais doivent spécifier la norme à l'avance
  2. Valeur de l'Adaptativité: Les hypothèses adaptatives plus fortes apportent des avantages substantiels :
    • Accélération: Atteindre O(T⁻²) dans le cas convexe vs Ω(T⁻¹) sous hypothèses standard
    • Sans Dépendance Dimensionnelle: Éliminer la dépendance dimensionnelle dans le cas stochastique
  3. Cadre Théorique Unifié: Première établissement d'une théorie de convergence non-convexe pour une large classe de méthodes adaptatives incluant Shampoo unilatéral, avec la technique centrale étant les nouvelles inégalités matricielles traitant les préconditioneurs non-commutatifs.
  4. Serretté: Les preuves de bornes inférieures démontrent que :
    • La dépendance dimensionnelle est inévitable sous l'hypothèse standard de variance (Théorème 4.9)
    • L'avantage de la variance adaptative n'est pas seulement une hypothèse technique, mais une différence essentielle

Limitations

  1. Travail Purement Théorique: Absence de vérification expérimentale des prédictions théoriques (par exemple, comportement de convergence réel sous différentes géométries)
  2. Facteurs Constants:
    • Les préconditioneurs non-diagonaux introduisent un facteur logd\log d (peut ne pas être significatif en pratique)
    • L'algorithme d'accélération nécessite de connaître D=maxtxtxHD = \max_t \|x_t - x^*\|_{\mathcal{H}} (atténué par une version avec projection)
  3. Conditions d'Hypothèse:
    • L'Hypothèse C.1 (borne de covariance ponctuelle) est plus forte que l'hypothèse standard d'espérance
    • Les résultats d'accélération exigent la convexité
  4. Portée d'Application:
    • Comment vérifier en pratique l'hypothèse de variance adaptative ?
    • Quels problèmes réels satisfont la lissité adaptative ?
  5. Analyse EMA: La variante EMA nécessite de choisir β=1Θ(logdT)\beta = 1 - \Theta(\frac{\log d}{T}), tandis qu'en pratique on utilise généralement un β\beta fixe (par exemple 0.9, 0.999)

Directions Futures

  1. Vérification Expérimentale:
    • Vérifier l'hypothèse de lissité adaptative sur des tâches d'apprentissage profond réelles
    • Comparer le comportement de convergence empirique sous différentes géométries
  2. Relâchement des Hypothèses:
    • Explorer des hypothèses de bruit plus faibles (par exemple, seulement l'espérance bornée)
    • Possibilité d'accélération dans le cas non-convexe
  3. Amélioration d'Algorithmes:
    • Sélection adaptative de la structure de préconditioneur H\mathcal{H}
    • Nouveaux algorithmes d'optimisation incorporant la lissité adaptative
  4. Autres Géométries:
    • Extension à la divergence de Bregman, géométrie Riemannienne
    • Autres préconditioneurs structurés (par exemple, creux, bas rang)
  5. Amélioration des Bornes Inférieures:
    • Bornes inférieures sous lissité adaptative (actuellement seulement sous lissité standard)
    • Bornes inférieures plus serrées dans le cas non-convexe

Évaluation Approfondie

Points Forts

  1. Profondeur Théorique:
    • Première établissement systématique de séparations quantitatives entre les deux classes d'hypothèses géométriques
    • L'inégalité matricielle centrale (Lemme 3.4) a une valeur indépendante, pouvant s'appliquer à d'autres problèmes d'analyse matricielle
    • Les techniques de preuve sont sophistiquées, particulièrement la méthode de traitement de la non-commutativité
  2. Unification:
    • Couvre une large classe de méthodes : AdaGrad, Adam, Shampoo, etc.
    • L'analyse d'équivalence des trois modes d'accumulation (cumulatif, EMA, pondéré) est claire
    • Le traitement parallèle de la lissité et de la variance révèle les structures sous-jacentes
  3. Complétude:
    • Preuves de bornes supérieures + inférieures démontrant la serretté
    • Couverture complète : déterministe + stochastique, convexe + non-convexe
    • Appendice technique détaillé (48 pages), forte reproductibilité
  4. Perspicacité:
    • L'« inefficacité de la moyenne » explique l'origine de la dépendance dimensionnelle
    • La dualité (supremum vs infimum) fournit une intuition géométrique
    • Quantification précise du coût de non-commutativité
  5. Qualité de Rédaction:
    • Structure claire, introduction via exemples Adam/SignGD
    • La Figure 1 illustre intuitivement la dualité
    • Bon équilibre entre détails techniques et intuition

Insuffisances

  1. Pertinence Pratique:
    • Absence de vérification expérimentale des prédictions théoriques
    • L'universalité de la lissité adaptative dans les problèmes réels est inconnue
    • Le facteur logd\log d est-il significatif en pratique ?
  2. Force des Hypothèses:
    • L'Hypothèse C.1 est plus forte que l'hypothèse standard (presque partout vs espérance)
    • L'algorithme d'accélération nécessite la convexité et la connaissance de DD
    • L'EMA nécessite β=1Θ(logd/T)\beta = 1 - \Theta(\log d / T), incompatible avec la pratique
  3. Limitations Techniques:
    • Le gap entre cas diagonal et cas général (facteur logd\log d) peut-il être éliminé ?
    • L'impossibilité d'accélération non-convexe n'est pas prouvée
    • Absence de bornes inférieures sous lissité adaptative
  4. Détails de Présentation:
    • La notation Õ cache les dépendances logarithmiques sur plusieurs paramètres (pas seulement dd)
    • Certaines constantes (comme C1,C2C_1, C_2) ne sont pas explicites
    • La stratégie de choix de c,Cc, C dans le Lemme 3.4 pourrait être plus explicite
  5. Travaux Connexes:
    • Les différences avec le travail parallèle de Kovalev & Borodich (2025) pourraient être plus détaillées
    • La connexion avec la théorie classique de la descente miroir pourrait être approfondie

Impact Potentiel

  1. Contributions Théoriques:
    • Nouvelle perspective pour la théorie de l'optimisation adaptative (hiérarchie d'hypothèses géométriques)
    • Les techniques d'inégalités matricielles peuvent influencer les domaines connexes (analyse matricielle, information quantique)
    • Le cadre unifié peut devenir un standard pour les analyses futures
  2. Valeur Pratique:
    • Guidance pour le choix d'optimiseur : quand utiliser les méthodes adaptatives vs NSD ?
    • Inspiration pour la conception de nouveaux algorithmes (sélection adaptative de H\mathcal{H})
    • Fondement théorique pour l'ajustement d'hyperparamètres (par exemple, choix de β\beta)
  3. Reproductibilité:
    • Travail purement théorique, résultats vérifiables
    • Techniques de preuve détaillées, extensibles à d'autres contextes
    • Définitions claires, facilitant les références futures
  4. Limitations:
    • L'absence d'expériences limite l'impact immédiat
    • La vérification des conditions d'hypothèse nécessite des travaux futurs
    • Le gap avec la pratique doit être comblé

Scénarios d'Application

  1. Recherche Théorique:
    • Analyse de convergence des algorithmes d'optimisation
    • Théorie de l'optimisation sous géométries non-euclidiennes
    • Fondements théoriques des méthodes adaptatives
  2. Conception d'Algorithmes:
    • Guidance pour la conception de nouveaux optimiseurs adaptatifs
    • Sélection de structures de préconditioneurs
    • Amélioration des méthodes d'accélération
  3. Applications Pratiques:
    • Choix d'optimiseur pour l'apprentissage automatique à grande échelle
    • Compréhension du succès d'Adam et autres méthodes
    • Diagnostic théorique des problèmes de convergence
  4. Enseignement:
    • Matériel avancé pour les cours de théorie de l'optimisation
    • Cas d'étude en optimisation non-euclidienne
    • Applications des techniques d'analyse matricielle

Références (Références Clés Sélectionnées)

  1. Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" - Fondation du cas convexe de cet article
  2. Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" - Borne inférieure sous lissité ℓ∞
  3. Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" - Analyse récente de la NSD
  4. Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" - Travail parallèle
  5. Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" - Équivalence entre Adam et NSD
  6. Gupta et al. (2017): "A unified approach to adaptive regularization" - Cadre des optimiseurs adaptatifs
  7. Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" - Fondation de concavité du Lemme A.7

Résumé: Cet article représente une avancée importante dans la théorie de l'optimisation adaptative, révélant systématiquement les différences essentielles entre les méthodes adaptatives et la NSD dans leurs hypothèses géométriques, et prouvant rigoureusement la valeur substantielle de l'adaptativité. Bien qu'il manque de vérification expérimentale, sa profondeur théorique et ses innovations techniques en font une référence importante dans ce domaine. La contribution centrale réside dans l'établissement d'un système théorique complet des « deux géométries », fournissant une nouvelle perspective pour comprendre et concevoir les algorithmes d'optimisation adaptative.