2025-11-27T08:46:18.590812

A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent

Xie, Wang, Wu et al.

Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.

academic

Un Conte de Deux Géométries : Optimiseurs Adaptatifs et Descente Non-Euclidienne

Informations Fondamentales

ID de l'article: 2511.20584
Titre: A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Auteurs: Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)
Classification: cs.LG (Apprentissage Automatique)
Date de publication: 25 novembre 2025 (arXiv v1)
Lien de l'article: https://arxiv.org/abs/2511.20584

Résumé

Cet article étudie systématiquement les différences essentielles entre deux familles d'algorithmes—les optimiseurs adaptatifs (tels qu'Adam, Shampoo) et la descente de plus grande pente normalisée (NSD, telle que Lion, Muon)—dans l'exploitation des structures géométriques non-euclidiennes. L'étude révèle que bien que ces deux approches soient équivalentes lors de la désactivation des moyennes mobiles exponentielles (EMA), leurs analyses théoriques reposent sur des hypothèses géométriques différentes : les optimiseurs adaptatifs nécessitent une « lissité adaptative » plus forte, tandis que la NSD ne requiert que la lissité standard. Cet article étend la théorie de la lissité adaptative au cadre non-convexe et prouve qu'elle caractérise précisément la convergence des optimiseurs adaptatifs. Plus important encore, l'étude démontre que la lissité adaptative permet aux optimiseurs adaptatifs avec momentum de Nesterov d'atteindre une accélération (O(T⁻²)) dans le cadre convexe, tandis que la lissité standard dans certaines géométries non-euclidiennes ne peut pas garantir cela. De plus, l'article introduit le concept de « variance de gradient adaptative », prouvant qu'il fournit des garanties de convergence sans dépendance dimensionnelle pour la NSD, ce qui est inatteignable sous l'hypothèse standard de variance de gradient.

Contexte et Motivation de la Recherche

Problèmes Fondamentaux

Cet article vise à répondre à deux questions fondamentales :

Q1: Les méthodes adaptatives (telles qu'Adam, Shampoo) et les méthodes de descente non-euclidienne correspondantes (telles que Lion, Muon) exploitent-elles de la même manière la géométrie non-euclidienne de la fonction de perte ?
Q2: Les hypothèses de lissité plus fortes dans les méthodes adaptatives apportent-elles des avantages réels en optimisation ?

Importance de la Recherche

Valeur Pratique: Les optimiseurs adaptatifs comme Adam sont indispensables à l'entraînement de modèles d'apprentissage automatique à grande échelle (tels que LLaMA, DeepSeek, etc.), mais récemment, des méthodes NSD simples comme Lion et Muon ont montré une efficacité remarquable, soulevant des questions sur les différences essentielles entre ces deux classes de méthodes.
Lacune Théorique: Bien que Bernstein & Newhouse (2024) aient montré que les deux classes de méthodes sont équivalentes lors de la désactivation de l'EMA (par exemple, Adam équivaut à ℓ∞-NSD, Shampoo équivaut à NSD de norme spectrale), une caractérisation théorique systématique fait défaut.
Perspective Géométrique: La performance supérieure des deux classes de méthodes est liée à l'exploitation de la géométrie non-euclidienne de la fonction de perte, mais leurs analyses théoriques reposent sur des hypothèses géométriques essentiellement différentes.

Limitations des Approches Existantes

Théorie de Convergence Incomplète: La théorie de la lissité adaptative n'a été établie que dans le cadre convexe (Xie et al., 2025b), le cas non-convexe manque de caractérisation.
Force des Hypothèses Peu Claire: La lissité adaptative est toujours au moins aussi grande que la lissité standard, mais si cette hypothèse plus forte apporte des avantages réels n'a pas été prouvé.
Problème de Dépendance Dimensionnelle: La NSD en optimisation stochastique présente une dépendance dimensionnelle (par exemple, le facteur √d de SignGD), manquant d'hypothèses de bruit plus fines.

Contributions Principales

Théorie de Convergence Non-Convexe: Extension de la théorie de la lissité adaptative au cadre non-convexe, prouvant qu'elle caractérise précisément le taux de convergence des optimiseurs adaptatifs (Théorèmes C.2, C.7, C.8), atteignant le taux optimal Õ(T⁻¹/⁴).
Garanties de Convergence Accélérée: Preuve que la lissité adaptative permet aux optimiseurs adaptatifs avec momentum de Nesterov d'atteindre un taux accéléré Õ(T⁻²) dans le cadre convexe (Théorème 4.4), tandis que la lissité ℓ∞ standard ne permet à tout optimiseur d'atteindre que Ω(T⁻¹) (Guzmán & Nemirovski, 2015).
Variance de Gradient Adaptative: Introduction du concept de variance de gradient adaptative (Définition 4.1), prouvant qu'il fournit des garanties de convergence sans dépendance dimensionnelle pour la NSD avec momentum (Théorème 4.6), et prouvant par une borne inférieure (Théorème 4.9) que la dépendance dimensionnelle est inévitable sous l'hypothèse standard de variance de gradient.
Cadre d'Analyse Unifié: Fourniture d'un cadre d'analyse unifié couvrant des méthodes adaptatives largement applicables telles qu'AdaGrad, AdaGrad-Norm, Shampoo unilatéral, etc., avec une contribution technique centrale consistant en nouvelles inégalités matricielles (Lemmes 3.3, 3.4) traitant les préconditioneurs non-commutatifs.
Séparation Théorique: Établissement systématique de séparations quantitatives entre les deux classes d'hypothèses géométriques (standard vs adaptative) sur les dimensions de lissité et de bruit, approfondissant la compréhension théorique de l'adaptativité.

Explication Détaillée de la Méthode

Définition du Problème

Considérez le problème d'optimisation : $\min_{x \in \mathbb{R}^d} f(x)$

où $f: \mathbb{R}^d \to \mathbb{R}$ peut être non-convexe. Dans le cadre stochastique, on accède à la fonction objectif via des gradients stochastiques $\nabla f_t(x)$ satisfaisant $\mathbb{E}[\nabla f_t(x)] = \nabla f(x)$ .

Concepts Fondamentaux

1. Ensemble de Préconditioneurs Bien Structurés (Well-structured Preconditioner Set)

Définition 2.1: $\mathcal{H} \subseteq \mathbb{S}_+^d$ est appelé ensemble de préconditioneurs bien structurés si $\mathcal{H} = \mathbb{S}_+^d \cap \mathcal{K}$ , où $\mathcal{K} \subseteq \mathbb{M}^d$ est une sous-algèbre matricielle contenant la matrice identité.

Exemples:

Ensemble de matrices diagonales $\mathcal{D}_+^d$ (correspondant à Adam)
Matrices PSD complètes $\mathbb{S}_+^d$ (correspondant à AdaGrad matriciel)
Matrices scalaires $\{cI_d: c>0\}$ (correspondant à AdaGrad-Norm)
Structure produit de Kronecker $\mathbb{S}_{d_L}^+ \otimes I_{d_R}$ (correspondant à Shampoo unilatéral)

2. Normes Induites et Normes Duales

Pour un ensemble de préconditioneurs bien structurés $\mathcal{H}$ , définissez la norme induite : $\|x\|_{\mathcal{H}} := \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_H = \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sqrt{x^\top H x}$

Lemme 2.2: La norme duale satisfait $\|x\|_{\mathcal{H},*} = \inf_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_{H^{-1}}$

Cette dualité est clé pour comprendre les deux géométries : $\|\cdot\|_{\mathcal{H}}$ est le supremum ponctuel de tous les $\|\cdot\|_H$ , tandis que $\|\cdot\|_{\mathcal{H},*}$ est l'infimum ponctuel des normes duales correspondantes.

3. Deux Classes de Lissité

Lissité Standard (Définition 2.3): $L_{\|\cdot\|}(f) := \min\{L: \|\nabla f(x) - \nabla f(y)\|_* \leq L\|x-y\|, \forall x,y\}$

Lissité Adaptative (Définition 2.4): $\Lambda_{\mathcal{H}}(f) := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} L_{\|\cdot\|_H}(f) = \min_{H \in \mathcal{H}, \forall x: -H \preceq \nabla^2 f(x) \preceq H} \text{Tr}(H)$

Relation (Proposition 2.5): $L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f)$

La lissité adaptative est toujours au moins aussi grande que la lissité standard, mais diffère d'au plus un facteur dimensionnel $d$ .

Cadre Unifié d'Optimiseurs Adaptatifs (Algorithme 1)

Structure de l'Algorithme:

Entrée: Point initial x₀, taux d'apprentissage η, ensemble de préconditioneurs H, 
        constante de stabilité ϵ
Initialisation: M₋₁ = 0
Pour t = 0, 1, ..., T-1:
    gₜ ← ∇fₜ(xₜ)
    Mₜ ← Mode d'accumulation(Mₜ₋₁, gₜ)  // trois variantes
    Vₜ ← argmin_{H∈H} ⟨Mₜ + ϵI, H⁻¹⟩ + Tr(H)
    xₜ₊₁ ← xₜ - ηVₜ⁻¹gₜ
Retourner x_T

Trois Variantes d'Accumulation:

Type Cumulatif: $M_t = M_{t-1} + g_t g_t^\top$ (AdaGrad)
Type EMA: $M_t = \beta M_{t-1} + (1-\beta)g_t g_t^\top$ (Adam)
Type Pondéré: $M_t = \beta M_{t-1} + g_t g_t^\top$ (pour analyse unifiée)

Observation Clé: $V_t = \mathcal{P}_{\mathcal{H}}(M_t + \epsilon I)$ , où $\mathcal{P}_{\mathcal{H}}(M)^2$ est la projection de $M$ sur $\mathcal{H}$ (Lemme A.4).

Points d'Innovation Technique

1. Nouvelle Inégalité Matricielle (Lemme 3.4)

Pour les matrices définies positives $X, Y$ satisfaisant $Y \preceq X$ , pour tout $0 \leq c \leq C$ : $X^{-1/2}(X-Y)X^{-1/2} \preceq \frac{3(\log C - \log c)}{\pi^2}(\log X - \log Y) + \left(\frac{12cd}{\pi^2\lambda_{\min}(X)^2} + \frac{12C^{-1}d}{\pi^2}\right)\text{Tr}(X-Y) \cdot I$

Signification:

Lorsque les matrices commutent, on peut utiliser le téléscopage logarithmique pour obtenir des bornes serrées
Dans le cas non-commutatif, le deuxième terme quantifie le « coût de non-commutativité », introduisant un facteur $\log d$
En choisissant soigneusement $c, C$ , on équilibre les deux termes pour obtenir la borne centrale du Lemme 3.3

2. Contrôle des Termes du Deuxième Ordre (Lemme 3.3)

Pour l'algorithme pondéré, définissez $S_T = \sum_{t=0}^{T-1} V_t^{-1}(V_t^2 - \beta V_{t-1}^2)V_t^{-1}$ , alors : $\sum_{t=0}^{T-1} \|V_t^{-1}g_t\|_H^2 \leq \text{Tr}(H) \|S_T\|_{\text{op}}$

et il existe des constantes $C_1, C_2$ telles que : $\|S_T\|_{\text{op}} \leq C_1\left(1 + \log\left(1 + \frac{d}{\epsilon}\sum_{t=0}^{T-1}\|g_t\|_2^2 + d^2(1-\beta)T\right)\right)\left(\frac{(1-\beta)T}{\beta} + \log\|V_{T-1}^2/\epsilon\|_{\text{op}}\right) + C_2$

Cas Particulier: Lorsque $\mathcal{H}$ est commutatif (par exemple, matrices diagonales), on améliore à $\|S_T\|_{\text{op}} \leq (1-\beta)T + \log\|V_{T-1}^2/\epsilon\|_{\text{op}}$ .

3. Variance de Gradient Adaptative (Définition 4.1)

$\sigma_{\mathcal{H}}(\{f_t\})^2 := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sup_{t, x} \mathbb{E}[\|\nabla f_t(x) - \mathbb{E}[\nabla f_t(x)]\|_{H^{-1}}^2]$

Relation (Proposition 4.2): $\sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2 \leq \sigma_{\mathcal{H}}(\{f_t\})^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2$

Intuition: La variance adaptative exige un contrôle uniforme du bruit dans toutes les géométries induites par les préconditioneurs, ce qui est plus fort que le simple contrôle dans une norme fixe.

Configuration Expérimentale

Note: Cet article est un travail purement théorique et ne contient pas de section expérimentale. Tous les résultats sont des taux de convergence théoriques et des preuves de bornes inférieures.

Configuration d'Analyse Théorique

Conditions d'Hypothèse

Lissité:
- Lissité standard : $\|\nabla f(x) - \nabla f(y)\|_{\mathcal{H},*} \leq L_{\|\cdot\|_{\mathcal{H}}}(f)\|x-y\|_{\mathcal{H}}$
- Lissité adaptative : $\Lambda_{\mathcal{H}}(f) = \min_{H \in \mathcal{H}, \text{Tr}(H)\leq 1} L_{\|\cdot\|_H}(f)$
Hypothèse de Bruit (Hypothèse C.1):
- $\mathbb{E}[\nabla f_t(x)] = \nabla f(x)$
- Il existe $\Sigma \succeq 0$ tel que $-\Sigma \preceq \nabla f(x)\nabla f(x)^\top - \nabla f_t(x)\nabla f_t(x)^\top \preceq \Sigma$
Convexité: Certains résultats (accélération) exigent que $f$ soit une fonction convexe

Méthode d'Analyse

Lemme de Descente: Utilisation de la lissité pour établir des relations de descente en une seule étape
Téléscopage: Téléscopage des sommes pour les termes accumulés
Inégalités Matricielles: Contrôle des changements de préconditioneurs introduisant des termes du deuxième ordre
Méthode Probabiliste: Le bruit aléatoire est traité via l'espérance conditionnelle et la décomposition de variance
Bornes Inférieures Constructives: Preuve de la serretté par construction d'instances difficiles soigneusement conçues

Résultats Expérimentaux

Résultats Théoriques Principaux

1. Taux de Convergence Non-Convexe (Théorème 3.2)

Pour les optimiseurs adaptatifs de type cumulatif (classe AdaGrad), sur des fonctions non-convexes déterministes : $\frac{1}{T}\sum_{t=0}^{T-1} \|\nabla f(x_t)\|_{\mathcal{H},*} \leq \frac{1}{\sqrt{T}}\left(\xi + \sqrt{d}\epsilon^{1/4}\sqrt{\xi}\right)$

où : $\xi = \tilde{O}\left(\frac{\Delta_0}{\eta} + \eta \cdot \Lambda_{\mathcal{H}}(f) \log^2 d\right)$

En choisissant $\eta = \sqrt{\frac{\Delta_0}{\Lambda_{\mathcal{H}}(f)\log^2 d}}$ , on atteint $\tilde{O}\left(\frac{\sqrt{\Delta_0 \Lambda_{\mathcal{H}}(f)}\log d}{\sqrt{T}}\right)$ .

Points Clés:

Le taux de convergence dépend de la lissité adaptative $\Lambda_{\mathcal{H}}(f)$ plutôt que de la lissité standard
Pour les préconditioneurs diagonaux (comme Adam), pas de facteur $\log d$
Les préconditioneurs bien structurés généraux introduisent un facteur $\log d$ (coût de non-commutativité)

2. Taux de Convergence Accélérée (Théorème 4.4)

Pour les optimiseurs adaptatifs avec momentum de Nesterov (Algorithme 2), sur des fonctions convexes en choisissant $\alpha_t = \frac{2}{t+2}$ et $\eta = D$ : $\mathbb{E}[f(\bar{x}_T) - f(x^*)] = \tilde{O}\left(\frac{\Lambda_{\mathcal{H}}(f)D^2\log^2 d}{T^2} + \frac{d\sqrt{\epsilon}D}{T^2} + \frac{\sigma_{\mathcal{H}}D\log d}{\sqrt{T}}\right)$

Comparaison:

Sous lissité adaptative: Taux d'accélération $O(T^{-2})$ (partie déterministe)
Sous lissité ℓ∞ standard: Guzmán & Nemirovski (2015) prouvent que toute méthode du premier ordre atteint seulement $\Omega(T^{-1})$

Signification: Preuve que la lissité adaptative a un avantage substantiel—elle permet l'accélération, tandis que la lissité standard ne le peut pas.

3. Taux de Convergence Sans Dépendance Dimensionnelle (Théorème 4.6)

Pour la NSD (Algorithme 3) sous variance de gradient adaptative $\sigma_{\mathcal{H}}$ : $\mathbb{E}\left[\frac{1}{T}\sum_{t=0}^{T-1}\|\nabla f(x_t)\|_{\mathcal{H},*}\right] \leq \frac{\Delta_0}{\eta T} + \frac{2\eta}{\alpha}L_{\|\cdot\|_{\mathcal{H}}}(f) + \frac{2\sigma_{\mathcal{H}}}{\alpha T} + 2\sigma_{\mathcal{H}}\sqrt{\alpha}$

En choisissant de manière optimale $\alpha = \frac{\sqrt{\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f)}}{\sigma_{\mathcal{H}}\sqrt{T}}$ et $\eta = \frac{\Delta_0^{3/4}}{L_{\|\cdot\|_{\mathcal{H}}}(f)^{1/4}\sigma_{\mathcal{H}}^{1/2}}T^{-3/4}$ : $\text{Taux} = O\left(\frac{(\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f))^{1/4}\sqrt{\sigma_{\mathcal{H}}}}{T^{1/4}}\right)$

Sans Dépendance Dimensionnelle: Comparé à $\tilde{O}(\rho\sqrt{d}/T^{1/4})$ de Pethick et al. (2025) (où $\rho = \sup_x \frac{\|x\|_{\mathcal{H},*}}{\|x\|_2}$ peut atteindre $\Theta(\sqrt{d})$ ), ce résultat élimine complètement la dépendance dimensionnelle.

4. Borne Inférieure de Dépendance Dimensionnelle (Théorème 4.9)

Sous l'hypothèse standard de variance ℓ₁ $\mathbb{E}[\|\nabla f_t(x) - \nabla f(x)\|_1^2] \leq \sigma^2$ , pour SignGD (ℓ∞-NSD) il existe des instances difficiles telles que : $\mathbb{E}\left[\min_{t \in [T]}\|\nabla f(x_t)\|_1\right] = \min\left\{e^{-25-\frac{1}{4}}(dL\Delta_0\sigma^2)^{1/4}T^{-1/2}, e^{-25-\frac{1}{2}}\sigma\right\}$

Signification:

Atteindre une erreur $\epsilon < e^{-25-1/2}\sigma$ nécessite $T = \Omega(\epsilon^{-2}(dL\Delta_0\sigma^2)^{1/2})$ étapes
La dépendance dimensionnelle $\Omega(d^{1/2})$ est inévitable sous l'hypothèse standard de variance
Contraste avec la borne supérieure sans dépendance dimensionnelle du Théorème 4.6, prouvant l'avantage essentiel de la variance adaptative

Aperçus Clés

1. Quantification de la Séparation Géométrique

Relations entre les deux classes de lissité et variance :

Lissité: $L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f)$
Variance: $\sigma_{\|\cdot\|_{\mathcal{H},*}}^2 \leq \sigma_{\mathcal{H}}^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}^2$

L'écart est au maximum la dimension $d$ , mais est serré dans certains cas (par exemple, matrices diagonales vs matrices complètes).

2. Inefficacité de la Moyenne (Averaging Ineffectiveness)

Dans les géométries non-euclidiennes, la moyenne ne peut pas réduire efficacement la norme :

ℓ₂: $\|\frac{1}{n}\sum_{i=1}^n x_i\|_2 = O(1/\sqrt{n})$ (efficace)
ℓ₁: $\|\frac{1}{n}\sum_{i=1}^n x_i\|_1 = O(\sqrt{d}/\sqrt{n})$ (dépendance dimensionnelle)

Cela explique pourquoi :

L'accélération nécessite une lissité adaptative plus forte
Le momentum ne peut pas éliminer la dépendance dimensionnelle sous variance standard

3. Coût de Non-Commutativité

Les préconditioneurs bien structurés généraux (comme Shampoo unilatéral) introduisent un facteur $\log d$ , provenant de :

Les matrices ne commutent pas, empêchant le téléscopage direct
Le terme non-commutatif dans le Lemme 3.4 : $\frac{12cd}{\pi^2\lambda_{\min}^2}\text{Tr}(X-Y) \cdot I$
En choisissant soigneusement les paramètres, le coût est contrôlé à $\log d$

Travaux Connexes

Optimiseurs Adaptatifs

Préconditionnement Matriciel: Shampoo (Gupta et al., 2018) et ses variantes (SOAP, PolarGrad, AdaMuon)
Préconditionnement Diagonal: AdaGrad (Duchi et al., 2011), Adam (Kingma & Ba, 2014)
Théorie de Convergence:
- Cas convexe : Xie et al. (2025b) établissent la théorie de lissité adaptative
- Cas diagonal : Maladkar et al. (2024), Xie et al. (2025a)
Variance Adaptative: Frans et al. (2025) pointent la perspective de blanchiment matriciel

Descente de Plus Grande Pente Normalisée (NSD)

Analyse de Convergence:
- Cutkosky & Mehta (2020): Taux non-convexe O(T⁻³·⁵)
- Pethick et al. (2025), Kovalev (2025b): Analyse sous normes générales
Équivalence:
- Lion = ℓ∞-NSD (Sfyraki & Wang, 2025)
- Muon = NSD de norme spectrale (Chen et al., 2025)
Dépendance Dimensionnelle: Jiang et al. (2025) améliorations pour SignGD

Méthodes Accélérées

Perspective de Descente Miroir: Kelner et al. (2014), Allen-Zhu & Orecchia (2014)
Accélération Adaptative: Cutkosky (2019), Kavis et al. (2019), Joulani et al. (2020) pour adaptativité diagonale/coordonnée
Bornes Inférieures: Guzmán & Nemirovski (2015) prouvent la borne inférieure Ω(T⁻¹) sous lissité ℓ∞

Comparaison des Contributions de cet Article

vs Xie et al. (2025b): Extension au cadre non-convexe + stochastique
vs Kovalev (2025a): Hypothèses plus faibles (éviter l'Hypothèse 4), préconditioneurs plus généraux
vs Pethick et al. (2025): Élimination de la dépendance dimensionnelle via variance adaptative
vs méthodes d'accélération existantes: Première preuve d'accélération sous préconditioneurs bien structurés généraux

Conclusion et Discussion

Conclusions Principales

Dualité Géométrique: Bien que les optimiseurs adaptatifs et la NSD exploitent tous deux la géométrie non-euclidienne, ils dépendent d'hypothèses géométriques essentiellement différentes :
- Optimiseurs Adaptatifs: Nécessitent la lissité adaptative $\Lambda_{\mathcal{H}}(f)$ , s'adaptant automatiquement au meilleur préconditioneur
- NSD: Nécessitent seulement la lissité standard $L_{\|\cdot\|_{\mathcal{H}}}(f)$ , mais doivent spécifier la norme à l'avance
Valeur de l'Adaptativité: Les hypothèses adaptatives plus fortes apportent des avantages substantiels :
- Accélération: Atteindre O(T⁻²) dans le cas convexe vs Ω(T⁻¹) sous hypothèses standard
- Sans Dépendance Dimensionnelle: Éliminer la dépendance dimensionnelle dans le cas stochastique
Cadre Théorique Unifié: Première établissement d'une théorie de convergence non-convexe pour une large classe de méthodes adaptatives incluant Shampoo unilatéral, avec la technique centrale étant les nouvelles inégalités matricielles traitant les préconditioneurs non-commutatifs.
Serretté: Les preuves de bornes inférieures démontrent que :
- La dépendance dimensionnelle est inévitable sous l'hypothèse standard de variance (Théorème 4.9)
- L'avantage de la variance adaptative n'est pas seulement une hypothèse technique, mais une différence essentielle

Limitations

Travail Purement Théorique: Absence de vérification expérimentale des prédictions théoriques (par exemple, comportement de convergence réel sous différentes géométries)
Facteurs Constants:
- Les préconditioneurs non-diagonaux introduisent un facteur $\log d$ (peut ne pas être significatif en pratique)
- L'algorithme d'accélération nécessite de connaître $D = \max_t \|x_t - x^*\|_{\mathcal{H}}$ (atténué par une version avec projection)
Conditions d'Hypothèse:
- L'Hypothèse C.1 (borne de covariance ponctuelle) est plus forte que l'hypothèse standard d'espérance
- Les résultats d'accélération exigent la convexité
Portée d'Application:
- Comment vérifier en pratique l'hypothèse de variance adaptative ?
- Quels problèmes réels satisfont la lissité adaptative ?
Analyse EMA: La variante EMA nécessite de choisir $\beta = 1 - \Theta(\frac{\log d}{T})$ , tandis qu'en pratique on utilise généralement un $\beta$ fixe (par exemple 0.9, 0.999)

Directions Futures

Vérification Expérimentale:
- Vérifier l'hypothèse de lissité adaptative sur des tâches d'apprentissage profond réelles
- Comparer le comportement de convergence empirique sous différentes géométries
Relâchement des Hypothèses:
- Explorer des hypothèses de bruit plus faibles (par exemple, seulement l'espérance bornée)
- Possibilité d'accélération dans le cas non-convexe
Amélioration d'Algorithmes:
- Sélection adaptative de la structure de préconditioneur $\mathcal{H}$
- Nouveaux algorithmes d'optimisation incorporant la lissité adaptative
Autres Géométries:
- Extension à la divergence de Bregman, géométrie Riemannienne
- Autres préconditioneurs structurés (par exemple, creux, bas rang)
Amélioration des Bornes Inférieures:
- Bornes inférieures sous lissité adaptative (actuellement seulement sous lissité standard)
- Bornes inférieures plus serrées dans le cas non-convexe

Évaluation Approfondie

Points Forts

Profondeur Théorique:
- Première établissement systématique de séparations quantitatives entre les deux classes d'hypothèses géométriques
- L'inégalité matricielle centrale (Lemme 3.4) a une valeur indépendante, pouvant s'appliquer à d'autres problèmes d'analyse matricielle
- Les techniques de preuve sont sophistiquées, particulièrement la méthode de traitement de la non-commutativité
Unification:
- Couvre une large classe de méthodes : AdaGrad, Adam, Shampoo, etc.
- L'analyse d'équivalence des trois modes d'accumulation (cumulatif, EMA, pondéré) est claire
- Le traitement parallèle de la lissité et de la variance révèle les structures sous-jacentes
Complétude:
- Preuves de bornes supérieures + inférieures démontrant la serretté
- Couverture complète : déterministe + stochastique, convexe + non-convexe
- Appendice technique détaillé (48 pages), forte reproductibilité
Perspicacité:
- L'« inefficacité de la moyenne » explique l'origine de la dépendance dimensionnelle
- La dualité (supremum vs infimum) fournit une intuition géométrique
- Quantification précise du coût de non-commutativité
Qualité de Rédaction:
- Structure claire, introduction via exemples Adam/SignGD
- La Figure 1 illustre intuitivement la dualité
- Bon équilibre entre détails techniques et intuition

Insuffisances

Pertinence Pratique:
- Absence de vérification expérimentale des prédictions théoriques
- L'universalité de la lissité adaptative dans les problèmes réels est inconnue
- Le facteur $\log d$ est-il significatif en pratique ?
Force des Hypothèses:
- L'Hypothèse C.1 est plus forte que l'hypothèse standard (presque partout vs espérance)
- L'algorithme d'accélération nécessite la convexité et la connaissance de $D$
- L'EMA nécessite $\beta = 1 - \Theta(\log d / T)$ , incompatible avec la pratique
Limitations Techniques:
- Le gap entre cas diagonal et cas général (facteur $\log d$ ) peut-il être éliminé ?
- L'impossibilité d'accélération non-convexe n'est pas prouvée
- Absence de bornes inférieures sous lissité adaptative
Détails de Présentation:
- La notation Õ cache les dépendances logarithmiques sur plusieurs paramètres (pas seulement $d$ )
- Certaines constantes (comme $C_1, C_2$ ) ne sont pas explicites
- La stratégie de choix de $c, C$ dans le Lemme 3.4 pourrait être plus explicite
Travaux Connexes:
- Les différences avec le travail parallèle de Kovalev & Borodich (2025) pourraient être plus détaillées
- La connexion avec la théorie classique de la descente miroir pourrait être approfondie

Impact Potentiel

Contributions Théoriques:
- Nouvelle perspective pour la théorie de l'optimisation adaptative (hiérarchie d'hypothèses géométriques)
- Les techniques d'inégalités matricielles peuvent influencer les domaines connexes (analyse matricielle, information quantique)
- Le cadre unifié peut devenir un standard pour les analyses futures
Valeur Pratique:
- Guidance pour le choix d'optimiseur : quand utiliser les méthodes adaptatives vs NSD ?
- Inspiration pour la conception de nouveaux algorithmes (sélection adaptative de $\mathcal{H}$ )
- Fondement théorique pour l'ajustement d'hyperparamètres (par exemple, choix de $\beta$ )
Reproductibilité:
- Travail purement théorique, résultats vérifiables
- Techniques de preuve détaillées, extensibles à d'autres contextes
- Définitions claires, facilitant les références futures
Limitations:
- L'absence d'expériences limite l'impact immédiat
- La vérification des conditions d'hypothèse nécessite des travaux futurs
- Le gap avec la pratique doit être comblé

Scénarios d'Application

Recherche Théorique:
- Analyse de convergence des algorithmes d'optimisation
- Théorie de l'optimisation sous géométries non-euclidiennes
- Fondements théoriques des méthodes adaptatives
Conception d'Algorithmes:
- Guidance pour la conception de nouveaux optimiseurs adaptatifs
- Sélection de structures de préconditioneurs
- Amélioration des méthodes d'accélération
Applications Pratiques:
- Choix d'optimiseur pour l'apprentissage automatique à grande échelle
- Compréhension du succès d'Adam et autres méthodes
- Diagnostic théorique des problèmes de convergence
Enseignement:
- Matériel avancé pour les cours de théorie de l'optimisation
- Cas d'étude en optimisation non-euclidienne
- Applications des techniques d'analyse matricielle

Références (Références Clés Sélectionnées)

Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" - Fondation du cas convexe de cet article
Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" - Borne inférieure sous lissité ℓ∞
Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" - Analyse récente de la NSD
Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" - Travail parallèle
Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" - Équivalence entre Adam et NSD
Gupta et al. (2017): "A unified approach to adaptive regularization" - Cadre des optimiseurs adaptatifs
Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" - Fondation de concavité du Lemme A.7

Résumé: Cet article représente une avancée importante dans la théorie de l'optimisation adaptative, révélant systématiquement les différences essentielles entre les méthodes adaptatives et la NSD dans leurs hypothèses géométriques, et prouvant rigoureusement la valeur substantielle de l'adaptativité. Bien qu'il manque de vérification expérimentale, sa profondeur théorique et ses innovations techniques en font une référence importante dans ce domaine. La contribution centrale réside dans l'établissement d'un système théorique complet des « deux géométries », fournissant une nouvelle perspective pour comprendre et concevoir les algorithmes d'optimisation adaptative.