2025-11-10T03:06:05.923380

Revisit First-order Methods for Geodesically Convex Optimization

Shu, Jiang, Shi et al.

In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma. In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.

academic

측지 볼록 최적화를 위한 1차 방법 재검토

기본 정보

논문 ID: 2504.06814
제목: Revisit First-order Methods for Geodesically Convex Optimization
저자: Yunlu Shu, Jiaxin Jiang, Lei Shi, Tianyu Wang (푸단대학교)
분류: math.OC (수학 최적화 및 제어)
발표 시간: 2025년 10월 16일 (arXiv v4 버전)
논문 링크: https://arxiv.org/abs/2504.06814

초록

본 논문은 측지 볼록 최적화에서의 1차 방법을 재검토합니다. Zhang과 Sra의 획기적인 연구에서 측지 볼록 최적화의 경사 하강법을 포괄적으로 연구했으며, 특히 최적화 과정에서 반복점의 비교 부등식을 도출했습니다. 본 논문은 준선형화(quasilinearization) 개념을 최적화 분야에 도입하고, 측지 볼록 최적화 분석을 위한 새로운 프레임워크를 제시합니다. 이 기법을 활용하여 기존보다 더 약한 가정 조건 하에서 결정론적 및 확률론적 설정에 대한 최첨단 수렴률을 확립했습니다. 준선형화 기법은 다른 비유클리드 최적화 문제에도 가치가 있을 수 있습니다.

연구 배경 및 동기

문제 정의

본 논문은 Hadamard 다양체 위의 최적화 문제를 연구합니다: $\min_{x \in M} f(x)$ 여기서 M은 리만 메트릭 g를 갖춘 Hadamard 다양체입니다.

연구 동기

기존 방법의 한계: Zhang과 Sra의 고전적 방법은 두 가지 강한 가정에 의존합니다:
- (A1) 단면 곡률의 일정한 하한 (CBB 조건)
- (A2) 궤적 직경의 사전 상한
실제 문제: 많은 중요한 Hadamard 다양체가 CBB 조건을 만족하지 않습니다. 예를 들어, 뒤틀린 곱 다양체는 곡률이 음의 무한대로 수렴할 수 있습니다.
핵심 과제: 가정 (A1)과 (A2)를 제거하면서 동시에 최첨단 수렴률을 유지하는 방법은?

핵심 기여

준선형화 프레임워크 도입: Berg와 Nikolaev의 준선형화 개념을 최적화 문제 분석에 처음 적용
강한 가정 제거: 곡률 하한 및 유계 영역 가정 없이 수렴 보장 확립
결정론적 최적화: 측지 볼록 함수에 대해 O(1/t) 수렴률 달성
확률론적 최적화: 매끄러운 측지 볼록 함수에 대해 Õ(1/√t) 수렴률 달성
이론적 돌파: 더 약한 가정 하에서 최적 수렴률을 유지할 수 있다는 질문 (Q)에 대한 긍정적 답변 제시

방법 상세 설명

준선형화 내적

다양체 M 위의 임의의 두 순서 측지선 분할 $\overrightarrow{xy}$ 와 $\overrightarrow{zw}$ 에 대해, 준선형화 내적은 다음과 같이 정의됩니다:

$\langle\overrightarrow{xy}, \overrightarrow{zw}\rangle = |\overrightarrow{xy}||\overrightarrow{zw}|\cos_q(\overrightarrow{xy}, \overrightarrow{zw})$

여기서: $\cos_q(\overrightarrow{xy}, \overrightarrow{zw}) = \frac{|\overrightarrow{xw}|^2 + |\overrightarrow{yz}|^2 - |\overrightarrow{xz}|^2 - |\overrightarrow{yw}|^2}{2|\overrightarrow{xy}||\overrightarrow{zw}|}$

준볼록성 정의

함수 f는 q-볼록이라고 하면: $f(x) \geq f(y) + \langle\overrightarrow{y\text{Exp}_y(\text{grad}f(y))}, \overrightarrow{yx}\rangle + \frac{\mu}{2}d^2(x,y)$

근접 경사 알고리즘

핵심 알고리즘은 암시적 근접 업데이트를 사용합니다: $x_t = \text{Exp}_{x_{t+1}}(\eta \text{grad}f(x_{t+1}))$

이는 다음을 풀이하는 것과 동등합니다: $x_{t+1} = \arg\min_z \left\{f(z) + \frac{1}{2\eta}d(x_t, z)^2\right\}$

이론적 분석

주요 정리

정리 1 (결정론적 경우): f가 Hadamard 다양체 M 위의 측지 볼록 함수이고, 근접 경사 알고리즘이 만족할 때: $f(x_t) - f(x^*) \leq \frac{|\overrightarrow{x_0x^*}|^2}{\eta t}$

정리 2 (확률론적 경우): 유계 분산 가정 하에서, 단계 크기 $\eta_t = \frac{1}{2L\sqrt{t}}$ 를 갖는 확률론적 근접 경사 알고리즘이 만족할 때: $\frac{1}{\sum_{t=1}^T \alpha_t}\sum_{t=1}^T \alpha_t(\mathbb{E}F(x_t) - F(x^*)) \leq \frac{|\overrightarrow{x_0x^*}|^2}{2\sum_{t=1}^T \alpha_t} + \frac{\sigma^2 \log(T+1)}{\sum_{t=1}^T \alpha_t}$

핵심 기술적 통찰

준선형화의 장점:
- 모든 Hadamard 다양체에 적용 가능, 곡률 하한 불필요
- 유클리드 공간과 유사한 대수적 성질 유지
- 측지 볼록성과 자연스럽게 호환
증명 기법:
- 보조정리 2를 이용하여 준선형화 내적과 표준 내적의 관계 확립
- 망원급 합산 기법을 통한 반복 부등식 처리
- 전통적인 삼각형 비교 정리 제약 우회