A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Xie, Wang, Wu et al.
Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
academic
Un Racconto di Due Geometrie: Ottimizzatori Adattivi e Discesa Non-Euclidea
Titolo: A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent
Autori: Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)
Classificazione: cs.LG (Machine Learning)
Data di Pubblicazione: 25 novembre 2025 (arXiv v1)
Questo articolo studia sistematicamente le differenze essenziali tra due famiglie di algoritmi nel sfruttare strutture geometriche non-euclidee: gli ottimizzatori adattivi (come Adam, Shampoo) e la discesa del gradiente normalizzato (NSD, come Lion, Muon). Lo studio rivela che, sebbene i due approcci siano equivalenti quando si disattiva la media mobile esponenziale (EMA), le loro analisi teoriche si basano su ipotesi geometriche diverse: gli ottimizzatori adattivi richiedono una più forte "levigatezza adattiva" (adaptive smoothness), mentre NSD richiede solo levigatezza standard. L'articolo estende la teoria della levigatezza adattiva al caso non-convesso e dimostra che caratterizza precisamente il tasso di convergenza degli ottimizzatori adattivi. Più importante ancora, lo studio mostra che la levigatezza adattiva consente agli ottimizzatori adattivi con momento di Nesterov di raggiungere accelerazione nel caso convesso (O(T⁻²)), mentre la levigatezza standard in alcune geometrie non-euclidee non può fornire questa garanzia. Inoltre, l'articolo introduce il concetto di "varianza del gradiente adattiva", dimostrando che fornisce garanzie di convergenza indipendenti dalla dimensione per NSD, il che è irraggiungibile sotto l'ipotesi di varianza del gradiente standard.
L'articolo mira a rispondere a due domande fondamentali:
Q1: I metodi adattivi (come Adam, Shampoo) e i corrispondenti metodi di discesa non-euclidea (come Lion, Muon) sfruttano la geometria non-euclidea della funzione di perdita nello stesso modo?
Q2: L'ipotesi di levigatezza più forte nei metodi adattivi porta a vantaggi reali nell'ottimizzazione?
Valore Pratico: Gli ottimizzatori adattivi come Adam sono indispensabili nell'addestramento di modelli di machine learning su larga scala (come LLaMA, DeepSeek, ecc.), ma recentemente metodi semplici come Lion e Muon hanno dimostrato un'efficacia sorprendente, sollevando questioni sulle differenze essenziali tra i due approcci.
Lacuna Teorica: Sebbene Bernstein & Newhouse (2024) abbiano indicato che i due metodi sono equivalenti quando si disattiva l'EMA (ad esempio, Adam è equivalente a ℓ∞-NSD, Shampoo è equivalente a NSD con norma spettrale), manca una caratterizzazione teorica sistematica.
Prospettiva Geometrica: La prestazione superiore di entrambi i metodi è correlata allo sfruttamento della geometria non-euclidea della funzione di perdita, ma le loro analisi teoriche si basano su ipotesi geometriche essenzialmente diverse.
Teoria di Convergenza Incompleta: La teoria della levigatezza adattiva è stata stabilita solo nel caso convesso (Xie et al., 2025b), mancando la caratterizzazione nel caso non-convesso.
Intensità delle Ipotesi Non Chiarita: La levigatezza adattiva è sempre non inferiore alla levigatezza standard, ma se questa ipotesi più forte porta a vantaggi reali non è stato provato.
Problema della Dipendenza dalla Dimensione: NSD nell'ottimizzazione stocastica presenta problemi di dipendenza dalla dimensione (come il fattore √d di SignGD), mancando ipotesi di rumore più raffinate.
Teoria di Convergenza Non-Convessa: Estende la teoria della levigatezza adattiva al caso non-convesso, dimostrando che caratterizza precisamente il tasso di convergenza degli ottimizzatori adattivi (Teoremi C.2, C.7, C.8), raggiungendo il tasso ottimale Õ(T⁻¹/⁴).
Garanzie di Convergenza Accelerata: Dimostra che la levigatezza adattiva consente agli ottimizzatori adattivi con momento di Nesterov di raggiungere il tasso accelerato Õ(T⁻²) nel caso convesso (Teorema 4.4), mentre la levigatezza ℓ∞ standard consente a qualsiasi ottimizzatore di raggiungere solo Ω(T⁻¹) (Guzmán & Nemirovski, 2015).
Varianza del Gradiente Adattiva: Introduce il concetto di varianza del gradiente adattiva (Definizione 4.1), dimostrando che fornisce garanzie di convergenza indipendenti dalla dimensione per NSD con momento (Teorema 4.6), e attraverso limiti inferiori (Teorema 4.9) dimostra che la dipendenza dalla dimensione è inevitabile sotto l'ipotesi di varianza del gradiente standard.
Framework di Analisi Unificato: Fornisce un framework di analisi unificato che copre ampi metodi adattivi come AdaGrad, AdaGrad-Norm, Shampoo unilaterale, ecc., con il contributo tecnico principale di nuove disuguaglianze matriciali (Lemmi 3.3, 3.4) per gestire precondizionatori non-commutativi.
Separazione Teorica: Stabilisce sistematicamente separazioni quantitative tra i due tipi di ipotesi geometriche (standard vs adattiva) su due dimensioni: levigatezza e rumore, approfondendo la comprensione teorica dell'adattività.
Considerare il problema di ottimizzazione:
minx∈Rdf(x)
dove f:Rd→R può essere non-convessa. Nel contesto stocastico, si accede alla funzione obiettivo attraverso gradienti stocastici ∇ft(x) che soddisfano E[∇ft(x)]=∇f(x).
Definizione 2.1: H⊆S+d è detto insieme di precondizionatori ben strutturati se H=S+d∩K, dove K⊆Md è una sottoalgebra di matrici contenente la matrice identità.
Esempi:
Insieme di matrici diagonali D+d (corrispondente ad Adam)
Matrici PSD complete S+d (corrispondente ad AdaGrad completo)
Matrici scalari {cId:c>0} (corrispondente ad AdaGrad-Norm)
Struttura di prodotto di Kronecker SdL+⊗IdR (corrispondente a Shampoo unilaterale)
Per un insieme di precondizionatori ben strutturati H, definire la norma indotta:
∥x∥H:=supH∈H,Tr(H)≤1∥x∥H=supH∈H,Tr(H)≤1x⊤Hx
Lemma 2.2: La norma duale soddisfa
∥x∥H,∗=infH∈H,Tr(H)≤1∥x∥H−1
Questa dualità è la chiave per comprendere le due geometrie: ∥⋅∥H è il supremo puntuale di tutti i ∥⋅∥H, mentre ∥⋅∥H,∗ è l'infimo puntuale delle corrispondenti norme duali.
Intuizione: La varianza adattiva richiede il controllo uniforme del rumore in tutte le geometrie indotte dai precondizionatori, il che è più forte che controllare solo in una norma fissa.
Nota: Questo articolo è un lavoro puramente teorico e non contiene sezioni di esperimenti. Tutti i risultati sono tassi di convergenza teorici e prove di limiti inferiori.
Per ottimizzatori adattivi con momento di Nesterov (Algoritmo 2), su funzioni convesse scegliendo αt=t+22 e η=D:
E[f(xˉT)−f(x∗)]=O~(T2ΛH(f)D2log2d+T2dϵD+TσHDlogd)
Confronto:
Sotto levigatezza adattiva: Tasso di accelerazione O(T−2) (parte deterministica)
Sotto levigatezza ℓ∞ standard: Guzmán & Nemirovski (2015) provano che qualsiasi metodo del primo ordine può raggiungere solo Ω(T−1)
Significato: Dimostra il vantaggio sostanziale della levigatezza adattiva — consente l'accelerazione, mentre la levigatezza standard non può.
Per NSD (Algoritmo 3) sotto varianza del gradiente adattiva σH:
E[T1∑t=0T−1∥∇f(xt)∥H,∗]≤ηTΔ0+α2ηL∥⋅∥H(f)+αT2σH+2σHα
Con scelta ottimale α=σHTΔ0L∥⋅∥H(f) e η=L∥⋅∥H(f)1/4σH1/2Δ03/4T−3/4:
Tasso=O(T1/4(Δ0L∥⋅∥H(f))1/4σH)
Indipendenza dalla Dimensione: Rispetto a O~(ρd/T1/4) di Pethick et al. (2025) (dove ρ=supx∥x∥2∥x∥H,∗ può raggiungere Θ(d)), questo risultato elimina completamente la dipendenza dalla dimensione.
Sotto l'ipotesi di varianza ℓ₁ standard E[∥∇ft(x)−∇f(x)∥12]≤σ2, per SignGD (ℓ∞-NSD) esiste un'istanza difficile tale che:
E[mint∈[T]∥∇f(xt)∥1]=min{e−25−41(dLΔ0σ2)1/4T−1/2,e−25−21σ}
Dualità Geometrica: Gli ottimizzatori adattivi e NSD, sebbene entrambi sfruttino la geometria non-euclidea, dipendono da ipotesi geometriche essenzialmente diverse:
NSD: Richiedono solo levigatezza standard L∥⋅∥H(f), ma devono specificare la norma in anticipo
Valore dell'Adattività: Le ipotesi adattive più forti portano vantaggi sostanziali:
Accelerazione: Raggiungere O(T⁻²) nel caso convesso vs Ω(T⁻¹) sotto ipotesi standard
Indipendenza dalla Dimensione: Nel caso stocastico, eliminare la dipendenza dalla dimensione
Framework Teorico Unificato: Prima teoria di convergenza non-convessa per ampi metodi adattivi incluso Shampoo unilaterale, con tecnica principale di nuove disuguaglianze matriciali per gestire precondizionatori non-commutativi.
Stretta: Le prove di limiti inferiori mostrano che:
La dipendenza dalla dimensione è inevitabile sotto l'ipotesi di varianza standard (Teorema 4.9)
Il vantaggio della varianza adattiva non è solo un'ipotesi tecnica, ma una differenza essenziale
Xie et al. (2025b): "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" - Base della teoria del caso convesso di questo articolo
Guzmán & Nemirovski (2015): "On lower complexity bounds for large-scale smooth convex optimization" - Limiti inferiori sotto levigatezza ℓ∞
Pethick et al. (2025): "Training deep learning models with norm-constrained lmos" - Analisi recente di NSD
Kovalev (2025a): "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" - Lavoro parallelo
Bernstein & Newhouse (2024): "Old optimizer, new norm: An anthology" - Equivalenza tra Adam e NSD
Gupta et al. (2017): "A unified approach to adaptive regularization" - Framework degli ottimizzatori adattivi
Lieb (1973): "Convex trace functions and the wigner-yanase-dyson conjecture" - Base della concavità del Lemma A.7
Sintesi: Questo articolo rappresenta un progresso importante nella teoria dell'ottimizzazione adattiva, rivelando sistematicamente le differenze essenziali tra metodi adattivi e NSD nelle ipotesi geometriche, e provando rigorosamente il valore sostanziale dell'adattività. Sebbene manchi di verifica sperimentale, la sua profondità teorica e innovazione tecnica lo rendono un riferimento importante nel campo. Il contributo principale risiede nell'istituzione di un sistema teorico completo delle "due geometrie", fornendo una nuova prospettiva per comprendere e progettare algoritmi di ottimizzazione adattiva.