In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma.
In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.
論文ID : 2504.06814タイトル : Revisit First-order Methods for Geodesically Convex Optimization著者 : Yunlu Shu, Jiaxin Jiang, Lei Shi, Tianyu Wang(復旦大学)分類 : math.OC(数学最適化および制御)発表日時 : 2025年10月16日(arXiv v4版)論文リンク : https://arxiv.org/abs/2504.06814 本論文は、測地凸最適化における一階法を再検討する。ZhangとSraの先駆的研究では、測地凸最適化の勾配降下法を包括的に研究し、特に最適化プロセスにおける反復点の比較不等式を導出した。本論文では、準線形化(quasilinearization)の概念を最適化分野に導入し、測地凸最適化を分析するための新しい枠組みを提案する。この技術を活用することで、従来よりも弱い仮定条件の下で、決定論的および確率的設定の両方に対して最先端の収束率を確立する。準線形化技術は、他の非ユークリッド最適化問題にも価値を持つ可能性がある。
本論文はHadamard多様体上の最適化問題を研究する:
min x ∈ M f ( x ) \min_{x \in M} f(x) min x ∈ M f ( x )
ここでMはリーマン計量gを備えたHadamard多様体である。
既存方法の限界 :ZhangとSraの古典的方法は2つの強い仮定に依存する:(A1) 断面曲率の一様下界(CBB条件) (A2) 軌跡直径の事前上界 実際的問題 :多くの重要なHadamard多様体はCBB条件を満たさない。例えば、ワープ積多様体では曲率が負の無限大に近づく可能性がある。中心的課題 :仮定(A1)と(A2)を削除しながら、最先端の収束率を維持するにはどうするか?準線形化枠組みの導入 :BergとNikolaevの準線形化概念を最適化問題分析に初めて適用強い仮定の削除 :曲率下界と有界領域の仮定なしに収束保証を確立決定論的最適化 :測地凸関数に対してO(1/t)収束率を実現確率的最適化 :滑らかな測地凸関数に対してÕ(1/√t)収束率を実現理論的突破 :質問(Q)に対する肯定的な答えを提供。すなわち、より弱い仮定の下で最適な収束率を維持できることを示す多様体M上の任意の2つの順序付き測地線分x y → \overrightarrow{xy} x y とz w → \overrightarrow{zw} z w に対して、準線形化内積は以下のように定義される:
⟨ x y → , z w → ⟩ = ∣ x y → ∣ ∣ z w → ∣ cos q ( x y → , z w → ) \langle\overrightarrow{xy}, \overrightarrow{zw}\rangle = |\overrightarrow{xy}||\overrightarrow{zw}|\cos_q(\overrightarrow{xy}, \overrightarrow{zw}) ⟨ x y , z w ⟩ = ∣ x y ∣∣ z w ∣ cos q ( x y , z w )
ここで:
cos q ( x y → , z w → ) = ∣ x w → ∣ 2 + ∣ y z → ∣ 2 − ∣ x z → ∣ 2 − ∣ y w → ∣ 2 2 ∣ x y → ∣ ∣ z w → ∣ \cos_q(\overrightarrow{xy}, \overrightarrow{zw}) = \frac{|\overrightarrow{xw}|^2 + |\overrightarrow{yz}|^2 - |\overrightarrow{xz}|^2 - |\overrightarrow{yw}|^2}{2|\overrightarrow{xy}||\overrightarrow{zw}|} cos q ( x y , z w ) = 2∣ x y ∣∣ z w ∣ ∣ x w ∣ 2 + ∣ yz ∣ 2 − ∣ x z ∣ 2 − ∣ y w ∣ 2
関数fがq-凸であるとは、以下を満たすことである:
f ( x ) ≥ f ( y ) + ⟨ y Exp y ( grad f ( y ) ) → , y x → ⟩ + μ 2 d 2 ( x , y ) f(x) \geq f(y) + \langle\overrightarrow{y\text{Exp}_y(\text{grad}f(y))}, \overrightarrow{yx}\rangle + \frac{\mu}{2}d^2(x,y) f ( x ) ≥ f ( y ) + ⟨ y Exp y ( grad f ( y )) , y x ⟩ + 2 μ d 2 ( x , y )
中核的なアルゴリズムは暗黙的な近接更新を採用する:
x t = Exp x t + 1 ( η grad f ( x t + 1 ) ) x_t = \text{Exp}_{x_{t+1}}(\eta \text{grad}f(x_{t+1})) x t = Exp x t + 1 ( η grad f ( x t + 1 ))
これは以下を解くことと等価である:
x t + 1 = arg min z { f ( z ) + 1 2 η d ( x t , z ) 2 } x_{t+1} = \arg\min_z \left\{f(z) + \frac{1}{2\eta}d(x_t, z)^2\right\} x t + 1 = arg min z { f ( z ) + 2 η 1 d ( x t , z ) 2 }
定理1(決定論的場合) :fをHadamard多様体M上の測地凸関数とし、近接勾配アルゴリズムが以下を満たすとする:
f ( x t ) − f ( x ∗ ) ≤ ∣ x 0 x ∗ → ∣ 2 η t f(x_t) - f(x^*) \leq \frac{|\overrightarrow{x_0x^*}|^2}{\eta t} f ( x t ) − f ( x ∗ ) ≤ η t ∣ x 0 x ∗ ∣ 2
定理2(確率的場合) :有界分散仮定の下で、ステップサイズη t = 1 2 L t \eta_t = \frac{1}{2L\sqrt{t}} η t = 2 L t 1 を用いた確率的近接勾配アルゴリズムは以下を満たす:
1 ∑ t = 1 T α t ∑ t = 1 T α t ( E F ( x t ) − F ( x ∗ ) ) ≤ ∣ x 0 x ∗ → ∣ 2 2 ∑ t = 1 T α t + σ 2 log ( T + 1 ) ∑ t = 1 T α t \frac{1}{\sum_{t=1}^T \alpha_t}\sum_{t=1}^T \alpha_t(\mathbb{E}F(x_t) - F(x^*)) \leq \frac{|\overrightarrow{x_0x^*}|^2}{2\sum_{t=1}^T \alpha_t} + \frac{\sigma^2 \log(T+1)}{\sum_{t=1}^T \alpha_t} ∑ t = 1 T α t 1 ∑ t = 1 T α t ( E F ( x t ) − F ( x ∗ )) ≤ 2 ∑ t = 1 T α t ∣ x 0 x ∗ ∣ 2 + ∑ t = 1 T α t σ 2 l o g ( T + 1 )
準線形化の利点 :すべてのHadamard多様体に適用可能で、曲率下界不要 ユークリッド空間と同様の代数的性質を保持 測地凸性と自然に適合 証明技法 :補題2を利用して準線形化内積と標準内積の関係を確立 望遠鏡和技法を用いて反復不等式を処理 従来の三角比較定理の制限を巧妙に回避 論文は表形式で異なる方法の仮定条件と収束率を比較している:
方法 曲率下界が必要か? 有界領域が必要か? 複雑な方程式の求解が必要か? 収束率 Zhang & Sra はい はい いいえ O(t⁻¹) Liu et al. いいえ はい はい O†(t⁻²) 本論文の方法 いいえ いいえ いいえ O(t⁻¹)
論文は近接作用素の効率的な実装方法を提供する:
勾配降下法による強測地凸部分問題の求解 ウォームスタート戦略による計算効率の向上 収束保証:f ( z t ) − f ( z ∗ ) ≤ ( 1 − μ 4 L 0 ) t ( f ( z 0 ) − f ( z ∗ ) ) f(z_t) - f(z^*) \leq (1-\frac{\mu}{4L_0})^t(f(z_0) - f(z^*)) f ( z t ) − f ( z ∗ ) ≤ ( 1 − 4 L 0 μ ) t ( f ( z 0 ) − f ( z ∗ )) 古典的研究 :Bonnabel(2013)およびZhang & Sra(2016)が基礎的分析枠組みを確立後続研究 :複数の研究が仮定条件の緩和を試みたが、質問(Q)を完全には解決できなかった技術的経路 :従来の方法はToponogov三角比較定理に依存していたが、本論文は準線形化の新しい経路を開拓従来の方法 :断面曲率下界に依存し、分析が複雑本論文の方法 :準線形化を利用し、仮定がより弱く、分析がより簡潔計算複雑性 :Exp⁻¹とΓを含む複雑な方程式の求解を回避10年来の開放問題である質問(Q)に成功裏に答えた 最も弱い仮定の下で最適な収束率を確立 非ユークリッド最適化に新しい分析ツールを提供 依然としてHadamard多様体構造(非正曲率)が必要 近接作用素は数値的に求解が必要な可能性がある 定数因子が最適でない可能性がある 非滑らかな最適化問題への拡張 加速法の可能性の研究 具体的な機械学習問題への応用 理論的突破 :領域内の重要な開放問題を解決方法論的革新 :準線形化技術の導入は独創的最弱の仮定 :最少の仮定条件の下で最適な収束率を実現分析の簡潔性 :従来の方法と比べてより直接的な証明実験検証の不足 :理論結果を検証する数値実験が欠如応用場面の限定 :主に理論分析に焦点を当てており、実用的応用の提示が不十分定数分析 :収束定数の正確な推定が提供されていない理論的価値 :リーマン最適化理論に重要な貢献方法論的意義 :準線形化技術はより広範な非ユークリッド最適化に影響を与える可能性実用的可能性 :実際の応用における多様体最適化に対してより強い理論的保証を提供機械学習における多様体制約付き最適化 計算幾何における測地問題 数値偏微分方程式の求解 経済学における均衡計算 論文は61篇の関連文献を引用しており、主なものは以下の通り:
Berg & Nikolaev(2008):準線形化の原始的研究 Zhang & Sra(2016):測地凸最適化の古典的分析 Bonnabel(2013):リーマン多様体上の確率的勾配降下法 多数の測地凸最適化に関する最近の研究 総合評価 :これは高品質な理論論文であり、準線形化技術の導入により測地凸最適化分野の重要な開放問題を成功裏に解決している。数値実験が欠如しているものの、その理論的貢献は顕著であり、非ユークリッド最適化に新しい分析枠組みとツールを提供している。