Adaptive optimizers can reduce to normalized steepest descent (NSD) when only adapting to the current gradient, suggesting a close connection between the two algorithmic families. A key distinction between their analyses, however, lies in the geometries, e.g., smoothness notions, they rely on. In the convex setting, adaptive optimizers are governed by a stronger adaptive smoothness condition, while NSD relies on the standard notion of smoothness. We extend the theory of adaptive smoothness to the nonconvex setting and show that it precisely characterizes the convergence of adaptive optimizers. Moreover, we establish that adaptive smoothness enables acceleration of adaptive optimizers with Nesterov momentum in the convex setting, a guarantee unattainable under standard smoothness for certain non-Euclidean geometry. We further develop an analogous comparison for stochastic optimization by introducing adaptive gradient variance, which parallels adaptive smoothness and leads to dimension-free convergence guarantees that cannot be achieved under standard gradient variance for certain non-Euclidean geometry.
A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent 论文ID : 2511.20584标题 : A Tale of Two Geometries: Adaptive Optimizers and Non-Euclidean Descent作者 : Shuo Xie (Toyota Technological Institute at Chicago), Tianhao Wang (UC San Diego), Beining Wu (University of Chicago), Zhiyuan Li (Toyota Technological Institute at Chicago)分类 : cs.LG (Machine Learning)发表时间 : 2025年11月25日 (arXiv v1)论文链接 : https://arxiv.org/abs/2511.20584 本文系统研究了自适应优化器(如Adam、Shampoo)与归一化最速下降(NSD,如Lion、Muon)两类算法家族在利用非欧几里得几何结构时的本质区别。研究发现,虽然两者在关闭指数移动平均(EMA)时可以等价,但其理论分析依赖于不同的几何假设:自适应优化器需要更强的"自适应光滑性"(adaptive smoothness),而NSD仅需标准光滑性。本文将自适应光滑性理论扩展到非凸设置,并证明其精确刻画了自适应优化器的收敛性。更重要的是,研究表明自适应光滑性能够使自适应优化器在凸设置下通过Nesterov动量实现加速(O(T⁻²)),而标准光滑性在某些非欧几里得几何下无法达到此保证。此外,论文引入了"自适应梯度方差"概念,证明其能为NSD提供无维度依赖的收敛保证,这在标准梯度方差假设下是不可达到的。
本文旨在回答两个基本问题:
Q1 : 自适应方法(如Adam、Shampoo)与相应的非欧几里得下降方法(如Lion、Muon)是否以相同方式利用损失函数的非欧几里得几何?Q2 : 自适应方法中更强的光滑性假设是否能带来优化上的实际收益?实践价值 : Adam等自适应优化器在大规模机器学习模型训练中不可或缺(如LLaMA、DeepSeek等),但最近Lion、Muon等简单的NSD方法展现出惊人的有效性,引发了对两类方法本质区别的思考。理论缺失 : 尽管Bernstein & Newhouse (2024)指出两类方法在关闭EMA时等价(如Adam等价于ℓ∞-NSD,Shampoo等价于谱范数NSD),但缺乏系统性的理论刻画。几何视角 : 两类方法的优越性能都与利用损失函数的非欧几里得几何有关,但其理论分析依赖的几何假设存在本质差异。收敛理论不完整 : 自适应光滑性理论仅在凸设置下建立(Xie et al., 2025b),非凸情况缺乏刻画。假设强度未明 : 自适应光滑性总是不小于标准光滑性,但这种更强假设是否带来实际收益未被证明。维度依赖问题 : NSD在随机优化中存在维度依赖问题(如SignGD的√d因子),缺乏更精细的噪声假设。非凸收敛理论 : 将自适应光滑性理论扩展到非凸设置,证明其精确刻画自适应优化器的收敛率(Theorems C.2, C.7, C.8),达到最优Õ(T⁻¹/⁴)速率。加速收敛保证 : 证明自适应光滑性能使带Nesterov动量的自适应优化器在凸设置下达到Õ(T⁻²)加速率(Theorem 4.4),而标准ℓ∞光滑性下任何优化器仅能达到Ω(T⁻¹)(Guzmán & Nemirovski, 2015)。自适应梯度方差 : 引入自适应梯度方差概念(Definition 4.1),证明其能为带动量的NSD提供无维度依赖的收敛保证(Theorem 4.6),并通过下界(Theorem 4.9)证明标准梯度方差下维度依赖不可避免。统一分析框架 : 提供覆盖AdaGrad、AdaGrad-Norm、单侧Shampoo等广泛自适应方法的统一分析框架,核心技术贡献是新的矩阵不等式(Lemma 3.3, 3.4)处理非交换预条件子。理论分离 : 系统性地建立了两类几何假设(标准vs自适应)在光滑性和噪声两个维度上的定量分离,深化了对自适应性的理论理解。考虑优化问题:
min x ∈ R d f ( x ) \min_{x \in \mathbb{R}^d} f(x) min x ∈ R d f ( x )
其中f : R d → R f: \mathbb{R}^d \to \mathbb{R} f : R d → R 可能是非凸的。在随机设置下,通过随机梯度∇ f t ( x ) \nabla f_t(x) ∇ f t ( x ) 访问目标函数,满足E [ ∇ f t ( x ) ] = ∇ f ( x ) \mathbb{E}[\nabla f_t(x)] = \nabla f(x) E [ ∇ f t ( x )] = ∇ f ( x ) 。
Definition 2.1 : H ⊆ S + d \mathcal{H} \subseteq \mathbb{S}_+^d H ⊆ S + d 称为良构预条件子集,如果H = S + d ∩ K \mathcal{H} = \mathbb{S}_+^d \cap \mathcal{K} H = S + d ∩ K ,其中K ⊆ M d \mathcal{K} \subseteq \mathbb{M}^d K ⊆ M d 是包含单位矩阵的矩阵子代数。
示例 :
对角矩阵集合D + d \mathcal{D}_+^d D + d (对应Adam) 全PSD矩阵S + d \mathbb{S}_+^d S + d (对应全矩阵AdaGrad) 标量矩阵{ c I d : c > 0 } \{cI_d: c>0\} { c I d : c > 0 } (对应AdaGrad-Norm) Kronecker积结构S d L + ⊗ I d R \mathbb{S}_{d_L}^+ \otimes I_{d_R} S d L + ⊗ I d R (对应单侧Shampoo) 对于良构预条件子集H \mathcal{H} H ,定义诱导范数:
∥ x ∥ H : = sup H ∈ H , Tr ( H ) ≤ 1 ∥ x ∥ H = sup H ∈ H , Tr ( H ) ≤ 1 x ⊤ H x \|x\|_{\mathcal{H}} := \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_H = \sup_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sqrt{x^\top H x} ∥ x ∥ H := sup H ∈ H , Tr ( H ) ≤ 1 ∥ x ∥ H = sup H ∈ H , Tr ( H ) ≤ 1 x ⊤ H x
Lemma 2.2 : 对偶范数满足
∥ x ∥ H , ∗ = inf H ∈ H , Tr ( H ) ≤ 1 ∥ x ∥ H − 1 \|x\|_{\mathcal{H},*} = \inf_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \|x\|_{H^{-1}} ∥ x ∥ H , ∗ = inf H ∈ H , Tr ( H ) ≤ 1 ∥ x ∥ H − 1
这一对偶性是理解两类几何的关键:∥ ⋅ ∥ H \|\cdot\|_{\mathcal{H}} ∥ ⋅ ∥ H 是所有∥ ⋅ ∥ H \|\cdot\|_H ∥ ⋅ ∥ H 的逐点上确界,而∥ ⋅ ∥ H , ∗ \|\cdot\|_{\mathcal{H},*} ∥ ⋅ ∥ H , ∗ 是对应对偶范数的逐点下确界。
标准光滑性(Definition 2.3) :
L ∥ ⋅ ∥ ( f ) : = min { L : ∥ ∇ f ( x ) − ∇ f ( y ) ∥ ∗ ≤ L ∥ x − y ∥ , ∀ x , y } L_{\|\cdot\|}(f) := \min\{L: \|\nabla f(x) - \nabla f(y)\|_* \leq L\|x-y\|, \forall x,y\} L ∥ ⋅ ∥ ( f ) := min { L : ∥∇ f ( x ) − ∇ f ( y ) ∥ ∗ ≤ L ∥ x − y ∥ , ∀ x , y }
自适应光滑性(Definition 2.4) :
Λ H ( f ) : = min H ∈ H , Tr ( H ) ≤ 1 L ∥ ⋅ ∥ H ( f ) = min H ∈ H , ∀ x : − H ⪯ ∇ 2 f ( x ) ⪯ H Tr ( H ) \Lambda_{\mathcal{H}}(f) := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} L_{\|\cdot\|_H}(f) = \min_{H \in \mathcal{H}, \forall x: -H \preceq \nabla^2 f(x) \preceq H} \text{Tr}(H) Λ H ( f ) := min H ∈ H , Tr ( H ) ≤ 1 L ∥ ⋅ ∥ H ( f ) = min H ∈ H , ∀ x : − H ⪯ ∇ 2 f ( x ) ⪯ H Tr ( H )
关系(Proposition 2.5) :
L ∥ ⋅ ∥ H ( f ) ≤ Λ H ( f ) ≤ d ⋅ L ∥ ⋅ ∥ H ( f ) L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f) L ∥ ⋅ ∥ H ( f ) ≤ Λ H ( f ) ≤ d ⋅ L ∥ ⋅ ∥ H ( f )
自适应光滑性总是不小于标准光滑性,但至多相差维度因子d d d 。
算法结构 :
输入: 初始点x₀, 学习率η, 预条件子集H, 稳定常数ϵ
初始化: M₋₁ = 0
For t = 0, 1, ..., T-1:
gₜ ← ∇fₜ(xₜ)
Mₜ ← 累积方式(Mₜ₋₁, gₜ) // 三种变体
Vₜ ← argmin_{H∈H} ⟨Mₜ + ϵI, H⁻¹⟩ + Tr(H)
xₜ₊₁ ← xₜ - ηVₜ⁻¹gₜ
返回 x_T
三种累积变体 :
累积型(Cumulative) : M t = M t − 1 + g t g t ⊤ M_t = M_{t-1} + g_t g_t^\top M t = M t − 1 + g t g t ⊤ (AdaGrad)EMA型 : M t = β M t − 1 + ( 1 − β ) g t g t ⊤ M_t = \beta M_{t-1} + (1-\beta)g_t g_t^\top M t = β M t − 1 + ( 1 − β ) g t g t ⊤ (Adam)加权型(Weighted) : M t = β M t − 1 + g t g t ⊤ M_t = \beta M_{t-1} + g_t g_t^\top M t = β M t − 1 + g t g t ⊤ (统一分析用)关键观察 : V t = P H ( M t + ϵ I ) V_t = \mathcal{P}_{\mathcal{H}}(M_t + \epsilon I) V t = P H ( M t + ϵ I ) ,其中P H ( M ) 2 \mathcal{P}_{\mathcal{H}}(M)^2 P H ( M ) 2 是M M M 在H \mathcal{H} H 上的投影(Lemma A.4)。
对于正定矩阵X , Y X, Y X , Y 满足Y ⪯ X Y \preceq X Y ⪯ X ,对任意0 ≤ c ≤ C 0 \leq c \leq C 0 ≤ c ≤ C :
X − 1 / 2 ( X − Y ) X − 1 / 2 ⪯ 3 ( log C − log c ) π 2 ( log X − log Y ) + ( 12 c d π 2 λ min ( X ) 2 + 12 C − 1 d π 2 ) Tr ( X − Y ) ⋅ I X^{-1/2}(X-Y)X^{-1/2} \preceq \frac{3(\log C - \log c)}{\pi^2}(\log X - \log Y) + \left(\frac{12cd}{\pi^2\lambda_{\min}(X)^2} + \frac{12C^{-1}d}{\pi^2}\right)\text{Tr}(X-Y) \cdot I X − 1/2 ( X − Y ) X − 1/2 ⪯ π 2 3 ( l o g C − l o g c ) ( log X − log Y ) + ( π 2 λ m i n ( X ) 2 12 c d + π 2 12 C − 1 d ) Tr ( X − Y ) ⋅ I
意义 :
当矩阵交换时,可用对数伸缩(logarithmic telescoping)得到紧界 非交换情况下,第二项量化了"非交换代价",引入log d \log d log d 因子 通过精心选择c , C c, C c , C 平衡两项,得到Lemma 3.3的核心界 对加权算法,定义S T = ∑ t = 0 T − 1 V t − 1 ( V t 2 − β V t − 1 2 ) V t − 1 S_T = \sum_{t=0}^{T-1} V_t^{-1}(V_t^2 - \beta V_{t-1}^2)V_t^{-1} S T = ∑ t = 0 T − 1 V t − 1 ( V t 2 − β V t − 1 2 ) V t − 1 ,则:
∑ t = 0 T − 1 ∥ V t − 1 g t ∥ H 2 ≤ Tr ( H ) ∥ S T ∥ op \sum_{t=0}^{T-1} \|V_t^{-1}g_t\|_H^2 \leq \text{Tr}(H) \|S_T\|_{\text{op}} ∑ t = 0 T − 1 ∥ V t − 1 g t ∥ H 2 ≤ Tr ( H ) ∥ S T ∥ op
且存在常数C 1 , C 2 C_1, C_2 C 1 , C 2 使得:
∥ S T ∥ op ≤ C 1 ( 1 + log ( 1 + d ϵ ∑ t = 0 T − 1 ∥ g t ∥ 2 2 + d 2 ( 1 − β ) T ) ) ( ( 1 − β ) T β + log ∥ V T − 1 2 / ϵ ∥ op ) + C 2 \|S_T\|_{\text{op}} \leq C_1\left(1 + \log\left(1 + \frac{d}{\epsilon}\sum_{t=0}^{T-1}\|g_t\|_2^2 + d^2(1-\beta)T\right)\right)\left(\frac{(1-\beta)T}{\beta} + \log\|V_{T-1}^2/\epsilon\|_{\text{op}}\right) + C_2 ∥ S T ∥ op ≤ C 1 ( 1 + log ( 1 + ϵ d ∑ t = 0 T − 1 ∥ g t ∥ 2 2 + d 2 ( 1 − β ) T ) ) ( β ( 1 − β ) T + log ∥ V T − 1 2 / ϵ ∥ op ) + C 2
特殊情况 : 当H \mathcal{H} H 可交换(如对角矩阵)时,改进为∥ S T ∥ op ≤ ( 1 − β ) T + log ∥ V T − 1 2 / ϵ ∥ op \|S_T\|_{\text{op}} \leq (1-\beta)T + \log\|V_{T-1}^2/\epsilon\|_{\text{op}} ∥ S T ∥ op ≤ ( 1 − β ) T + log ∥ V T − 1 2 / ϵ ∥ op 。
σ H ( { f t } ) 2 : = min H ∈ H , Tr ( H ) ≤ 1 sup t , x E [ ∥ ∇ f t ( x ) − E [ ∇ f t ( x ) ] ∥ H − 1 2 ] \sigma_{\mathcal{H}}(\{f_t\})^2 := \min_{H \in \mathcal{H}, \text{Tr}(H) \leq 1} \sup_{t, x} \mathbb{E}[\|\nabla f_t(x) - \mathbb{E}[\nabla f_t(x)]\|_{H^{-1}}^2] σ H ({ f t } ) 2 := min H ∈ H , Tr ( H ) ≤ 1 sup t , x E [ ∥∇ f t ( x ) − E [ ∇ f t ( x )] ∥ H − 1 2 ]
关系(Proposition 4.2) :
σ ∥ ⋅ ∥ H , ∗ ( { f t } ) 2 ≤ σ H ( { f t } ) 2 ≤ d ⋅ σ ∥ ⋅ ∥ H , ∗ ( { f t } ) 2 \sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2 \leq \sigma_{\mathcal{H}}(\{f_t\})^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}(\{f_t\})^2 σ ∥ ⋅ ∥ H , ∗ ({ f t } ) 2 ≤ σ H ({ f t } ) 2 ≤ d ⋅ σ ∥ ⋅ ∥ H , ∗ ({ f t } ) 2
直觉 : 自适应方差要求在所有预条件子诱导的几何下统一控制噪声,比仅在固定范数下控制更强。
注 : 本文为纯理论工作,不包含实验部分。所有结果均为理论收敛率和下界证明。
光滑性 :标准光滑性:∥ ∇ f ( x ) − ∇ f ( y ) ∥ H , ∗ ≤ L ∥ ⋅ ∥ H ( f ) ∥ x − y ∥ H \|\nabla f(x) - \nabla f(y)\|_{\mathcal{H},*} \leq L_{\|\cdot\|_{\mathcal{H}}}(f)\|x-y\|_{\mathcal{H}} ∥∇ f ( x ) − ∇ f ( y ) ∥ H , ∗ ≤ L ∥ ⋅ ∥ H ( f ) ∥ x − y ∥ H 自适应光滑性:Λ H ( f ) = min H ∈ H , Tr ( H ) ≤ 1 L ∥ ⋅ ∥ H ( f ) \Lambda_{\mathcal{H}}(f) = \min_{H \in \mathcal{H}, \text{Tr}(H)\leq 1} L_{\|\cdot\|_H}(f) Λ H ( f ) = min H ∈ H , Tr ( H ) ≤ 1 L ∥ ⋅ ∥ H ( f ) 噪声假设(Assumption C.1) :E [ ∇ f t ( x ) ] = ∇ f ( x ) \mathbb{E}[\nabla f_t(x)] = \nabla f(x) E [ ∇ f t ( x )] = ∇ f ( x ) 存在Σ ⪰ 0 \Sigma \succeq 0 Σ ⪰ 0 使得− Σ ⪯ ∇ f ( x ) ∇ f ( x ) ⊤ − ∇ f t ( x ) ∇ f t ( x ) ⊤ ⪯ Σ -\Sigma \preceq \nabla f(x)\nabla f(x)^\top - \nabla f_t(x)\nabla f_t(x)^\top \preceq \Sigma − Σ ⪯ ∇ f ( x ) ∇ f ( x ) ⊤ − ∇ f t ( x ) ∇ f t ( x ) ⊤ ⪯ Σ 凸性 : 部分结果(加速)要求f f f 为凸函数下降引理 : 利用光滑性建立单步下降关系望远镜求和 : 对累积项进行伸缩求和矩阵不等式 : 控制预条件子变化引入的二阶项概率方法 : 随机噪声通过条件期望和方差分解处理构造性下界 : 通过精心设计的硬实例证明紧性对累积型自适应优化器(AdaGrad类),在确定性非凸函数上:
1 T ∑ t = 0 T − 1 ∥ ∇ f ( x t ) ∥ H , ∗ ≤ 1 T ( ξ + d ϵ 1 / 4 ξ ) \frac{1}{T}\sum_{t=0}^{T-1} \|\nabla f(x_t)\|_{\mathcal{H},*} \leq \frac{1}{\sqrt{T}}\left(\xi + \sqrt{d}\epsilon^{1/4}\sqrt{\xi}\right) T 1 ∑ t = 0 T − 1 ∥∇ f ( x t ) ∥ H , ∗ ≤ T 1 ( ξ + d ϵ 1/4 ξ )
其中:
ξ = O ~ ( Δ 0 η + η ⋅ Λ H ( f ) log 2 d ) \xi = \tilde{O}\left(\frac{\Delta_0}{\eta} + \eta \cdot \Lambda_{\mathcal{H}}(f) \log^2 d\right) ξ = O ~ ( η Δ 0 + η ⋅ Λ H ( f ) log 2 d )
选择η = Δ 0 Λ H ( f ) log 2 d \eta = \sqrt{\frac{\Delta_0}{\Lambda_{\mathcal{H}}(f)\log^2 d}} η = Λ H ( f ) l o g 2 d Δ 0 时,达到O ~ ( Δ 0 Λ H ( f ) log d T ) \tilde{O}\left(\frac{\sqrt{\Delta_0 \Lambda_{\mathcal{H}}(f)}\log d}{\sqrt{T}}\right) O ~ ( T Δ 0 Λ H ( f ) l o g d ) 。
关键点 :
收敛率依赖于自适应光滑性 Λ H ( f ) \Lambda_{\mathcal{H}}(f) Λ H ( f ) 而非标准光滑性 对角预条件子(如Adam)无log d \log d log d 因子 一般良构预条件子引入log d \log d log d 因子(非交换代价) 对带Nesterov动量的自适应优化器(Algorithm 2),在凸函数上选择α t = 2 t + 2 \alpha_t = \frac{2}{t+2} α t = t + 2 2 和η = D \eta = D η = D :
E [ f ( x ˉ T ) − f ( x ∗ ) ] = O ~ ( Λ H ( f ) D 2 log 2 d T 2 + d ϵ D T 2 + σ H D log d T ) \mathbb{E}[f(\bar{x}_T) - f(x^*)] = \tilde{O}\left(\frac{\Lambda_{\mathcal{H}}(f)D^2\log^2 d}{T^2} + \frac{d\sqrt{\epsilon}D}{T^2} + \frac{\sigma_{\mathcal{H}}D\log d}{\sqrt{T}}\right) E [ f ( x ˉ T ) − f ( x ∗ )] = O ~ ( T 2 Λ H ( f ) D 2 l o g 2 d + T 2 d ϵ D + T σ H D l o g d )
对比 :
自适应光滑性下 : O ( T − 2 ) O(T^{-2}) O ( T − 2 ) 加速率(确定性部分)标准ℓ∞光滑性下 : Guzmán & Nemirovski (2015)证明任何一阶方法仅能达到Ω ( T − 1 ) \Omega(T^{-1}) Ω ( T − 1 ) 意义 : 证明了自适应光滑性的实质性优势——能够实现加速,而标准光滑性不能。
对NSD(Algorithm 3)在自适应梯度方差σ H \sigma_{\mathcal{H}} σ H 下:
E [ 1 T ∑ t = 0 T − 1 ∥ ∇ f ( x t ) ∥ H , ∗ ] ≤ Δ 0 η T + 2 η α L ∥ ⋅ ∥ H ( f ) + 2 σ H α T + 2 σ H α \mathbb{E}\left[\frac{1}{T}\sum_{t=0}^{T-1}\|\nabla f(x_t)\|_{\mathcal{H},*}\right] \leq \frac{\Delta_0}{\eta T} + \frac{2\eta}{\alpha}L_{\|\cdot\|_{\mathcal{H}}}(f) + \frac{2\sigma_{\mathcal{H}}}{\alpha T} + 2\sigma_{\mathcal{H}}\sqrt{\alpha} E [ T 1 ∑ t = 0 T − 1 ∥∇ f ( x t ) ∥ H , ∗ ] ≤ η T Δ 0 + α 2 η L ∥ ⋅ ∥ H ( f ) + α T 2 σ H + 2 σ H α
最优选择α = Δ 0 L ∥ ⋅ ∥ H ( f ) σ H T \alpha = \frac{\sqrt{\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f)}}{\sigma_{\mathcal{H}}\sqrt{T}} α = σ H T Δ 0 L ∥ ⋅ ∥ H ( f ) 和η = Δ 0 3 / 4 L ∥ ⋅ ∥ H ( f ) 1 / 4 σ H 1 / 2 T − 3 / 4 \eta = \frac{\Delta_0^{3/4}}{L_{\|\cdot\|_{\mathcal{H}}}(f)^{1/4}\sigma_{\mathcal{H}}^{1/2}}T^{-3/4} η = L ∥ ⋅ ∥ H ( f ) 1/4 σ H 1/2 Δ 0 3/4 T − 3/4 时:
Rate = O ( ( Δ 0 L ∥ ⋅ ∥ H ( f ) ) 1 / 4 σ H T 1 / 4 ) \text{Rate} = O\left(\frac{(\Delta_0 L_{\|\cdot\|_{\mathcal{H}}}(f))^{1/4}\sqrt{\sigma_{\mathcal{H}}}}{T^{1/4}}\right) Rate = O ( T 1/4 ( Δ 0 L ∥ ⋅ ∥ H ( f ) ) 1/4 σ H )
无维度依赖 : 与Pethick et al. (2025)的O ~ ( ρ d / T 1 / 4 ) \tilde{O}(\rho\sqrt{d}/T^{1/4}) O ~ ( ρ d / T 1/4 ) 相比(其中ρ = sup x ∥ x ∥ H , ∗ ∥ x ∥ 2 \rho = \sup_x \frac{\|x\|_{\mathcal{H},*}}{\|x\|_2} ρ = sup x ∥ x ∥ 2 ∥ x ∥ H , ∗ 可达Θ ( d ) \Theta(\sqrt{d}) Θ ( d ) ),本结果完全消除了维度依赖。
在标准ℓ₁方差假设E [ ∥ ∇ f t ( x ) − ∇ f ( x ) ∥ 1 2 ] ≤ σ 2 \mathbb{E}[\|\nabla f_t(x) - \nabla f(x)\|_1^2] \leq \sigma^2 E [ ∥∇ f t ( x ) − ∇ f ( x ) ∥ 1 2 ] ≤ σ 2 下,对SignGD(ℓ∞-NSD)存在硬实例使得:
E [ min t ∈ [ T ] ∥ ∇ f ( x t ) ∥ 1 ] = min { e − 25 − 1 4 ( d L Δ 0 σ 2 ) 1 / 4 T − 1 / 2 , e − 25 − 1 2 σ } \mathbb{E}\left[\min_{t \in [T]}\|\nabla f(x_t)\|_1\right] = \min\left\{e^{-25-\frac{1}{4}}(dL\Delta_0\sigma^2)^{1/4}T^{-1/2}, e^{-25-\frac{1}{2}}\sigma\right\} E [ min t ∈ [ T ] ∥∇ f ( x t ) ∥ 1 ] = min { e − 25 − 4 1 ( d L Δ 0 σ 2 ) 1/4 T − 1/2 , e − 25 − 2 1 σ }
意义 :
达到误差ϵ < e − 25 − 1 / 2 σ \epsilon < e^{-25-1/2}\sigma ϵ < e − 25 − 1/2 σ 需要T = Ω ( ϵ − 2 ( d L Δ 0 σ 2 ) 1 / 2 ) T = \Omega(\epsilon^{-2}(dL\Delta_0\sigma^2)^{1/2}) T = Ω ( ϵ − 2 ( d L Δ 0 σ 2 ) 1/2 ) 步 维度依赖Ω ( d 1 / 2 ) \Omega(d^{1/2}) Ω ( d 1/2 ) 在标准方差假设下不可避免 与Theorem 4.6的无维度上界形成对比,证明自适应方差的本质优越性 两类光滑性和方差的关系:
光滑性 : L ∥ ⋅ ∥ H ( f ) ≤ Λ H ( f ) ≤ d ⋅ L ∥ ⋅ ∥ H ( f ) L_{\|\cdot\|_{\mathcal{H}}}(f) \leq \Lambda_{\mathcal{H}}(f) \leq d \cdot L_{\|\cdot\|_{\mathcal{H}}}(f) L ∥ ⋅ ∥ H ( f ) ≤ Λ H ( f ) ≤ d ⋅ L ∥ ⋅ ∥ H ( f ) 方差 : σ ∥ ⋅ ∥ H , ∗ 2 ≤ σ H 2 ≤ d ⋅ σ ∥ ⋅ ∥ H , ∗ 2 \sigma_{\|\cdot\|_{\mathcal{H},*}}^2 \leq \sigma_{\mathcal{H}}^2 \leq d \cdot \sigma_{\|\cdot\|_{\mathcal{H},*}}^2 σ ∥ ⋅ ∥ H , ∗ 2 ≤ σ H 2 ≤ d ⋅ σ ∥ ⋅ ∥ H , ∗ 2 差距至多为维度d d d ,但在某些情况下紧(如对角矩阵vs全矩阵)。
在非欧几里得几何下,平均不能有效降低范数:
ℓ₂ : ∥ 1 n ∑ i = 1 n x i ∥ 2 = O ( 1 / n ) \|\frac{1}{n}\sum_{i=1}^n x_i\|_2 = O(1/\sqrt{n}) ∥ n 1 ∑ i = 1 n x i ∥ 2 = O ( 1/ n ) (有效)ℓ₁ : ∥ 1 n ∑ i = 1 n x i ∥ 1 = O ( d / n ) \|\frac{1}{n}\sum_{i=1}^n x_i\|_1 = O(\sqrt{d}/\sqrt{n}) ∥ n 1 ∑ i = 1 n x i ∥ 1 = O ( d / n ) (维度依赖)这解释了为何:
加速需要更强的自适应光滑性 动量在标准方差下无法消除维度依赖 一般良构预条件子(如单侧Shampoo)引入log d \log d log d 因子,源于:
矩阵不交换导致无法直接伸缩求和 Lemma 3.4中的非交换项:12 c d π 2 λ min 2 Tr ( X − Y ) ⋅ I \frac{12cd}{\pi^2\lambda_{\min}^2}\text{Tr}(X-Y) \cdot I π 2 λ m i n 2 12 c d Tr ( X − Y ) ⋅ I 通过精心选择参数,将代价控制在log d \log d log d 矩阵预条件 : Shampoo (Gupta et al., 2018)及其变体(SOAP, PolarGrad, AdaMuon)对角预条件 : AdaGrad (Duchi et al., 2011), Adam (Kingma & Ba, 2014)收敛理论 :
凸情况:Xie et al. (2025b)建立自适应光滑性理论 对角情况:Maladkar et al. (2024), Xie et al. (2025a) 方差自适应 : Frans et al. (2025)指出矩阵白化视角收敛分析 :
Cutkosky & Mehta (2020): O(T⁻³·⁵)非凸率 Pethick et al. (2025), Kovalev (2025b): 一般范数下分析 等价性 :
Lion = ℓ∞-NSD (Sfyraki & Wang, 2025) Muon = 谱范数-NSD (Chen et al., 2025) 维度依赖 : Jiang et al. (2025)针对SignGD的改进镜像下降视角 : Kelner et al. (2014), Allen-Zhu & Orecchia (2014)自适应加速 : Cutkosky (2019), Kavis et al. (2019), Joulani et al. (2020)针对对角/坐标自适应下界 : Guzmán & Nemirovski (2015)证明ℓ∞光滑下的Ω(T⁻¹)下界vs Xie et al. (2025b) : 扩展到非凸+随机设置vs Kovalev (2025a) : 更弱的假设(避免Assumption 4),更广泛的预条件子vs Pethick et al. (2025) : 通过自适应方差消除维度依赖vs 现有加速方法 : 首次在一般良构预条件子下证明加速几何二元性 : 自适应优化器和NSD虽然都利用非欧几里得几何,但依赖本质不同的几何假设:自适应优化器 : 需要自适应光滑性Λ H ( f ) \Lambda_{\mathcal{H}}(f) Λ H ( f ) ,能自动适配最优预条件子NSD : 仅需标准光滑性L ∥ ⋅ ∥ H ( f ) L_{\|\cdot\|_{\mathcal{H}}}(f) L ∥ ⋅ ∥ H ( f ) ,但需预先指定范数自适应性的价值 : 更强的自适应假设带来实质性收益:加速 : 凸情况下达到O(T⁻²) vs 标准假设下的Ω(T⁻¹)无维度 : 随机情况下消除维度依赖统一理论框架 : 首次为包括单侧Shampoo在内的广泛自适应方法建立非凸收敛理论,核心技术是处理非交换预条件子的新矩阵不等式。紧性 : 下界证明表明:标准方差假设下维度依赖不可避免(Theorem 4.9) 自适应方差的优越性不仅是技术假设,而是本质区别 理论性工作 : 缺乏实验验证理论预测(如不同几何下的实际收敛行为)常数因子 :非对角预条件子引入log d \log d log d 因子(可能在实践中不显著) 加速算法需要已知D = max t ∥ x t − x ∗ ∥ H D = \max_t \|x_t - x^*\|_{\mathcal{H}} D = max t ∥ x t − x ∗ ∥ H (通过投影版本缓解) 假设条件 :Assumption C.1(逐点协方差上界)比标准期望假设更强 加速结果要求凸性 适用范围 :自适应方差假设在实践中如何验证? 哪些实际问题满足自适应光滑性? EMA分析 : EMA变体需要选择β = 1 − Θ ( log d T ) \beta = 1 - \Theta(\frac{\log d}{T}) β = 1 − Θ ( T l o g d ) ,实践中常用固定β \beta β (如0.9, 0.999)实验验证 :在实际深度学习任务中验证自适应光滑性假设 比较不同几何下的经验收敛行为 放松假设 :探索更弱的噪声假设(如仅期望有界) 非凸情况下的加速可能性 算法改进 :自适应选择预条件子结构H \mathcal{H} H 结合自适应光滑性的新优化算法 其他几何 :扩展到Bregman散度、Riemannian几何 其他结构化预条件子(如稀疏、低秩) 下界改进 :自适应光滑性下的下界(目前仅有标准光滑性下界) 非凸情况下的更紧下界 理论深度 :首次系统性地建立两类几何假设的定量分离 核心矩阵不等式(Lemma 3.4)具有独立价值,可能适用于其他矩阵分析问题 证明技术精巧,特别是处理非交换性的方法 统一性 :覆盖AdaGrad、Adam、Shampoo等广泛方法 三种累积方式(累积、EMA、加权)的等价性分析清晰 光滑性和方差的平行处理揭示深层结构 完整性 :上界+下界证明紧性 确定性+随机、凸+非凸全覆盖 技术附录详尽(48页),可复现性强 洞察力 :"平均无效性"解释了维度依赖的根源 对偶性(supremum vs infimum)的几何直觉 非交换代价的精确量化 写作质量 :结构清晰,从Adam/SignGD例子引入概念 图1直观展示对偶性 技术细节与直觉平衡好 实践相关性 :缺乏实验验证理论预测 自适应光滑性在实际问题中的普遍性未知 log d \log d log d 因子在实践中是否显著?假设强度 :Assumption C.1比标准假设强(几乎处处成立) 加速算法需要凸性和已知D D D EMA需要β = 1 − Θ ( log d / T ) \beta = 1 - \Theta(\log d / T) β = 1 − Θ ( log d / T ) ,与实践不符 技术局限 :对角情况vs一般情况的gap(log d \log d log d )能否消除? 非凸加速的不可能性未被证明 自适应光滑性的下界缺失 表述细节 :Õ记号隐藏了对多个参数的对数依赖(不仅是d d d ) 某些常数(如C 1 , C 2 C_1, C_2 C 1 , C 2 )未明确 Lemma 3.4中c , C c, C c , C 的选择策略可更明确 相关工作 :与Kovalev & Borodich (2025)并行工作的区别可更详细 与经典镜像下降理论的联系可深化 理论贡献 :为自适应优化理论提供新视角(几何假设的层次) 矩阵不等式技术可能影响相关领域(如矩阵分析、量子信息) 统一框架可能成为未来分析的标准 实用价值 :指导优化器选择:何时用自适应方法vs NSD? 启发新算法设计(如自适应选择H \mathcal{H} H ) 为超参数调优提供理论依据(如β \beta β 的选择) 可复现性 :纯理论工作,结果可验证 证明技术详尽,可扩展到其他设置 定义明确,便于后续研究引用 局限性 :缺乏实验限制immediate impact 假设条件的验证需要后续工作 与实践的gap需要弥合 理论研究 :优化算法收敛性分析 非欧几里得几何下的优化理论 自适应方法的理论基础 算法设计 :新自适应优化器的设计指导 预条件子结构的选择 加速方法的改进 实践应用 :大规模机器学习中的优化器选择 理解Adam等方法的成功原因 调试收敛问题的理论依据 教学 :优化理论课程的高级材料 非欧几里得优化的案例 矩阵分析技术的应用 Xie et al. (2025b) : "Structured Preconditioners in Adaptive Optimization: A Unified Analysis" - 本文的凸情况基础Guzmán & Nemirovski (2015) : "On lower complexity bounds for large-scale smooth convex optimization" - ℓ∞光滑性下的下界Pethick et al. (2025) : "Training deep learning models with norm-constrained lmos" - NSD的最新分析Kovalev (2025a) : "SGD with Adaptive Preconditioning: Unified Analysis and Momentum Acceleration" - 并行工作Bernstein & Newhouse (2024) : "Old optimizer, new norm: An anthology" - Adam与NSD的等价性Gupta et al. (2017) : "A unified approach to adaptive regularization" - 自适应优化器框架Lieb (1973) : "Convex trace functions and the wigner-yanase-dyson conjecture" - Lemma A.7的凹性基础总结 : 本文是自适应优化理论的重要进展,系统性地揭示了自适应方法与NSD在几何假设上的本质区别,并通过严格的理论分析证明了自适应性的实质价值。尽管缺乏实验验证,其理论深度和技术创新使其成为该领域的重要参考文献。核心贡献在于建立了"两类几何"的完整理论体系,为理解和设计自适应优化算法提供了新的视角。