2025-11-10T03:06:05.923380

Revisit First-order Methods for Geodesically Convex Optimization

Shu, Jiang, Shi et al.

In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma. In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.

academic

Revisit First-order Methods for Geodesically Convex Optimization

基本信息

论文ID: 2504.06814
标题: Revisit First-order Methods for Geodesically Convex Optimization
作者: Yunlu Shu, Jiaxin Jiang, Lei Shi, Tianyu Wang (复旦大学)
分类: math.OC (数学优化与控制)
发表时间: 2025年10月16日 (arXiv v4版本)
论文链接: https://arxiv.org/abs/2504.06814

摘要

本文重新审视了测地凸优化中的一阶方法。Zhang和Sra在其开创性工作中全面研究了测地凸优化的梯度下降方法，特别是推导了关联优化过程中迭代点的比较不等式。本文引入了拟线性化(quasilinearization)概念到优化领域，提出了分析测地凸优化的新框架。通过利用这一技术，在比以往更弱的假设条件下，为确定性和随机设置建立了最先进的收敛率。拟线性化技术可能对其他非欧几里德优化问题具有价值。

研究背景与动机

问题定义

本文研究Hadamard流形上的优化问题： $\min_{x \in M} f(x)$ 其中M是配备黎曼度量g的Hadamard流形。

研究动机

现有方法的局限性：Zhang和Sra的经典方法依赖于两个强假设：
- (A1) 截面曲率的一致下界 (CBB条件)
- (A2) 轨迹直径的先验上界
实际问题：许多重要的Hadamard流形不满足CBB条件，例如翘曲积流形，其曲率可能趋于负无穷。
核心挑战：如何在去除假设(A1)和(A2)的同时保持最先进的收敛率？

核心贡献

引入拟线性化框架：首次将Berg和Nikolaev的拟线性化概念应用于优化问题分析
去除强假设：在不需要曲率下界和有界域假设的条件下建立收敛保证
确定性优化：对测地凸函数实现O(1/t)收敛率
随机优化：对光滑测地凸函数实现Õ(1/√t)收敛率
理论突破：提供了Question (Q)的肯定答案，即可以在更弱假设下保持最优收敛率

方法详解

拟线性化内积

对于流形M上的任意两个有序测地线段 $\overrightarrow{xy}$ 和 $\overrightarrow{zw}$ ，拟线性化内积定义为：

$\langle\overrightarrow{xy}, \overrightarrow{zw}\rangle = |\overrightarrow{xy}||\overrightarrow{zw}|\cos_q(\overrightarrow{xy}, \overrightarrow{zw})$

其中： $\cos_q(\overrightarrow{xy}, \overrightarrow{zw}) = \frac{|\overrightarrow{xw}|^2 + |\overrightarrow{yz}|^2 - |\overrightarrow{xz}|^2 - |\overrightarrow{yw}|^2}{2|\overrightarrow{xy}||\overrightarrow{zw}|}$

拟凸性定义

函数f是q-凸的，如果： $f(x) \geq f(y) + \langle\overrightarrow{y\text{Exp}_y(\text{grad}f(y))}, \overrightarrow{yx}\rangle + \frac{\mu}{2}d^2(x,y)$

近端梯度算法

核心算法采用隐式近端更新： $x_t = \text{Exp}_{x_{t+1}}(\eta \text{grad}f(x_{t+1}))$

等价于求解： $x_{t+1} = \arg\min_z \left\{f(z) + \frac{1}{2\eta}d(x_t, z)^2\right\}$

理论分析

主要定理

定理1（确定性情况）：设f是Hadamard流形M上的测地凸函数，近端梯度算法满足： $f(x_t) - f(x^*) \leq \frac{|\overrightarrow{x_0x^*}|^2}{\eta t}$

定理2（随机情况）：在有界方差假设下，随机近端梯度算法with步长 $\eta_t = \frac{1}{2L\sqrt{t}}$ 满足： $\frac{1}{\sum_{t=1}^T \alpha_t}\sum_{t=1}^T \alpha_t(\mathbb{E}F(x_t) - F(x^*)) \leq \frac{|\overrightarrow{x_0x^*}|^2}{2\sum_{t=1}^T \alpha_t} + \frac{\sigma^2 \log(T+1)}{\sum_{t=1}^T \alpha_t}$