In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma.
In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.
论文ID : 2504.06814标题 : Revisit First-order Methods for Geodesically Convex Optimization作者 : Yunlu Shu, Jiaxin Jiang, Lei Shi, Tianyu Wang (复旦大学)分类 : math.OC (数学优化与控制)发表时间 : 2025年10月16日 (arXiv v4版本)论文链接 : https://arxiv.org/abs/2504.06814 本文重新审视了测地凸优化中的一阶方法。Zhang和Sra在其开创性工作中全面研究了测地凸优化的梯度下降方法,特别是推导了关联优化过程中迭代点的比较不等式。本文引入了拟线性化(quasilinearization)概念到优化领域,提出了分析测地凸优化的新框架。通过利用这一技术,在比以往更弱的假设条件下,为确定性和随机设置建立了最先进的收敛率。拟线性化技术可能对其他非欧几里德优化问题具有价值。
本文研究Hadamard流形上的优化问题:
min x ∈ M f ( x ) \min_{x \in M} f(x) min x ∈ M f ( x )
其中M是配备黎曼度量g的Hadamard流形。
现有方法的局限性 :Zhang和Sra的经典方法依赖于两个强假设:(A1) 截面曲率的一致下界 (CBB条件) (A2) 轨迹直径的先验上界 实际问题 :许多重要的Hadamard流形不满足CBB条件,例如翘曲积流形,其曲率可能趋于负无穷。核心挑战 :如何在去除假设(A1)和(A2)的同时保持最先进的收敛率?引入拟线性化框架 :首次将Berg和Nikolaev的拟线性化概念应用于优化问题分析去除强假设 :在不需要曲率下界和有界域假设的条件下建立收敛保证确定性优化 :对测地凸函数实现O(1/t)收敛率随机优化 :对光滑测地凸函数实现Õ(1/√t)收敛率理论突破 :提供了Question (Q)的肯定答案,即可以在更弱假设下保持最优收敛率对于流形M上的任意两个有序测地线段x y → \overrightarrow{xy} x y 和z w → \overrightarrow{zw} z w ,拟线性化内积定义为:
⟨ x y → , z w → ⟩ = ∣ x y → ∣ ∣ z w → ∣ cos q ( x y → , z w → ) \langle\overrightarrow{xy}, \overrightarrow{zw}\rangle = |\overrightarrow{xy}||\overrightarrow{zw}|\cos_q(\overrightarrow{xy}, \overrightarrow{zw}) ⟨ x y , z w ⟩ = ∣ x y ∣∣ z w ∣ cos q ( x y , z w )
其中:
cos q ( x y → , z w → ) = ∣ x w → ∣ 2 + ∣ y z → ∣ 2 − ∣ x z → ∣ 2 − ∣ y w → ∣ 2 2 ∣ x y → ∣ ∣ z w → ∣ \cos_q(\overrightarrow{xy}, \overrightarrow{zw}) = \frac{|\overrightarrow{xw}|^2 + |\overrightarrow{yz}|^2 - |\overrightarrow{xz}|^2 - |\overrightarrow{yw}|^2}{2|\overrightarrow{xy}||\overrightarrow{zw}|} cos q ( x y , z w ) = 2∣ x y ∣∣ z w ∣ ∣ x w ∣ 2 + ∣ yz ∣ 2 − ∣ x z ∣ 2 − ∣ y w ∣ 2
函数f是q-凸的,如果:
f ( x ) ≥ f ( y ) + ⟨ y Exp y ( grad f ( y ) ) → , y x → ⟩ + μ 2 d 2 ( x , y ) f(x) \geq f(y) + \langle\overrightarrow{y\text{Exp}_y(\text{grad}f(y))}, \overrightarrow{yx}\rangle + \frac{\mu}{2}d^2(x,y) f ( x ) ≥ f ( y ) + ⟨ y Exp y ( grad f ( y )) , y x ⟩ + 2 μ d 2 ( x , y )
核心算法采用隐式近端更新:
x t = Exp x t + 1 ( η grad f ( x t + 1 ) ) x_t = \text{Exp}_{x_{t+1}}(\eta \text{grad}f(x_{t+1})) x t = Exp x t + 1 ( η grad f ( x t + 1 ))
等价于求解:
x t + 1 = arg min z { f ( z ) + 1 2 η d ( x t , z ) 2 } x_{t+1} = \arg\min_z \left\{f(z) + \frac{1}{2\eta}d(x_t, z)^2\right\} x t + 1 = arg min z { f ( z ) + 2 η 1 d ( x t , z ) 2 }
定理1(确定性情况) :设f是Hadamard流形M上的测地凸函数,近端梯度算法满足:
f ( x t ) − f ( x ∗ ) ≤ ∣ x 0 x ∗ → ∣ 2 η t f(x_t) - f(x^*) \leq \frac{|\overrightarrow{x_0x^*}|^2}{\eta t} f ( x t ) − f ( x ∗ ) ≤ η t ∣ x 0 x ∗ ∣ 2
定理2(随机情况) :在有界方差假设下,随机近端梯度算法with步长η t = 1 2 L t \eta_t = \frac{1}{2L\sqrt{t}} η t = 2 L t 1 满足:
1 ∑ t = 1 T α t ∑ t = 1 T α t ( E F ( x t ) − F ( x ∗ ) ) ≤ ∣ x 0 x ∗ → ∣ 2 2 ∑ t = 1 T α t + σ 2 log ( T + 1 ) ∑ t = 1 T α t \frac{1}{\sum_{t=1}^T \alpha_t}\sum_{t=1}^T \alpha_t(\mathbb{E}F(x_t) - F(x^*)) \leq \frac{|\overrightarrow{x_0x^*}|^2}{2\sum_{t=1}^T \alpha_t} + \frac{\sigma^2 \log(T+1)}{\sum_{t=1}^T \alpha_t} ∑ t = 1 T α t 1 ∑ t = 1 T α t ( E F ( x t ) − F ( x ∗ )) ≤ 2 ∑ t = 1 T α t ∣ x 0 x ∗ ∣ 2 + ∑ t = 1 T α t σ 2 l o g ( T + 1 )
拟线性化的优势 :适用于所有Hadamard流形,无需曲率下界 保持类似欧几里德空间的代数性质 与测地凸性自然兼容 证明技巧 :利用Lemma 2建立拟线性化内积与标准内积的关系 通过望远镜求和技术处理迭代不等式 巧妙避开了传统的三角比较定理限制 论文通过表格形式对比了不同方法的假设条件和收敛率:
方法 需要曲率下界? 需要有界域? 需要求解复杂方程? 收敛率 Zhang & Sra 是 是 否 O(t⁻¹) Liu et al. 否 是 是 O†(t⁻²) 本文方法 否 否 否 O(t⁻¹)
论文提供了近端算子的高效实现方法:
通过梯度下降求解强测地凸子问题 温启动策略提高计算效率 收敛保证:f ( z t ) − f ( z ∗ ) ≤ ( 1 − μ 4 L 0 ) t ( f ( z 0 ) − f ( z ∗ ) ) f(z_t) - f(z^*) \leq (1-\frac{\mu}{4L_0})^t(f(z_0) - f(z^*)) f ( z t ) − f ( z ∗ ) ≤ ( 1 − 4 L 0 μ ) t ( f ( z 0 ) − f ( z ∗ )) 经典工作 :Bonnabel (2013)和Zhang & Sra (2016)建立了基础分析框架后续研究 :多项工作尝试放松假设条件,但都未能完全解决Question (Q)技术路线 :传统方法依赖Toponogov三角比较定理,本文开辟了拟线性化新路径传统方法 :依赖截面曲率下界,分析复杂本文方法 :利用拟线性化,假设更弱,分析更简洁计算复杂度 :避免了求解涉及Exp⁻¹和Γ的复杂方程成功回答了十年来的开放问题Question (Q) 建立了在最弱假设下的最优收敛率 为非欧几里德优化提供了新的分析工具 仍需要Hadamard流形结构(非正曲率) 近端算子可能需要数值求解 常数因子可能不是最优的 扩展到非光滑优化问题 研究加速方法的可能性 应用到具体的机器学习问题 理论突破 :解决了领域内的重要开放问题方法创新 :拟线性化技术的引入具有开创性假设最弱 :在最少假设条件下实现最优收敛率分析简洁 :证明相比传统方法更加直接实验验证不足 :缺乏数值实验验证理论结果应用场景有限 :主要关注理论分析,实际应用展示不足常数分析 :未提供收敛常数的精确估计理论价值 :为黎曼优化理论做出重要贡献方法论意义 :拟线性化技术可能影响更广泛的非欧几里德优化实用潜力 :为实际应用中的流形优化提供更强的理论保证机器学习中的流形约束优化 计算几何中的测地问题 数值偏微分方程求解 经济学中的均衡计算 论文引用了61篇相关文献,主要包括:
Berg & Nikolaev (2008): 拟线性化的原始工作 Zhang & Sra (2016): 测地凸优化的经典分析 Bonnabel (2013): 黎曼流形上的随机梯度下降 多篇关于Hadamard流形优化的近期工作 总体评价 :这是一篇高质量的理论论文,通过引入拟线性化技术成功解决了测地凸优化领域的重要开放问题。虽然缺乏数值实验,但其理论贡献显著,为非欧几里德优化提供了新的分析框架和工具。