2025-11-10T02:58:05.695123

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

Pischke

We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.

academic

비양의 곡률을 갖는 거리공간에서의 확률적 근접점 알고리즘의 평균제곱 및 선형 수렴

기본 정보

논문 ID: 2510.10697
제목: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
저자: Nicholas Pischke (University of Bath)
분류: math.OC (최적화 및 제어), cs.LG (기계학습)
발표 시간: 2025년 10월 14일 (arXiv 사전인쇄)
논문 링크: https://arxiv.org/abs/2510.10697

초록

본 논문은 분리가능한 Hadamard 공간의 일반적인 비선형 설정에서 확률적으로 교란된 단조 벡터장의 평균값의 영점을 근사하기 위한 확률적 근접점 알고리즘의 확률적 변형을 정의한다. 적절한 강단조성 가정, 확률적 독립성 가정 및 접공간 분리가능성 가정 하에서 알고리즘의 수렴성을 증명한다. 특수한 경우로서, P. Bianchi의 Hilbert 공간에서의 관련 연구를 Hadamard 다양체로 처음 일반화한다. 수렴 증명은 완전히 구성적이며, 평균 수렴 및 거의 확실한 수렴을 포함하여 반복에서 유일한 해로의 명시적 수렴률을 구성할 수 있다. 이러한 수렴률은 매우 일관성 있으며, 반복, 공간 또는 분포의 대부분의 데이터와 무관하다.

연구 배경 및 동기

해결해야 할 문제:
- 비선형 거리공간에서의 확률적 최적화 문제 해결: $\min_{x \in X} \int f(\xi, x) d\mu(\xi)$
- Hilbert 공간에서 더 일반적인 비양의 곡률 거리공간으로 확률적 근접점 알고리즘 일반화
문제의 중요성:
- 확률적 근사는 기계학습 및 최적화의 핵심 문제
- 비선형 공간에서의 최적화는 기계학습에 광범위하게 적용됨 (예: 다양체 학습)
- 기존 이론은 주로 Hilbert 공간에 국한되어 있으며 비선형 공간의 이론적 기초가 부족함
기존 방법의 한계:
- Bianchi의 연구는 Hilbert 공간에만 적용 가능
- 명시적 수렴률 분석 부재
- 비선형 공간에서의 확률적 근접점 알고리즘 이론이 불완전함
연구 동기:
- 성숙한 Hilbert 공간 이론을 CAT(0) 공간 및 Hadamard 다양체로 일반화
- 명시적이고 일관성 있는 수렴률 분석 제공
- 비선형 공간에서의 확률적 최적화의 이론적 기초 확립

핵심 기여

이론적 일반화: 확률적 근접점 알고리즘을 Hilbert 공간에서 분리가능한 Hadamard 공간으로 처음 일반화
수렴성 분석: 강단조성 가정 하에서 강수렴성 증명 (평균 수렴 및 거의 확실한 수렴 포함)
명시적 수렴률: 대부분의 반복 매개변수와 무관한 매우 일관성 있는 명시적 수렴률 구성
기술적 혁신: 거리공간에서의 확률적 단조 벡터장 이론 및 Aumann-Sturm 적분 개발
응용 확대: Hilbert 공간 및 Hadamard 다양체를 특수한 경우로 포함

방법론 상세 설명

문제 정의

확률공간 $(E, \mathcal{E}, \mu)$ 와 분리가능한 Hadamard 공간 $X$ 가 주어졌을 때, 확률적 단조 벡터장 $A: E \times X \to 2^{TX}$ 를 고려한다. 여기서 $A(s, x) \subseteq T_x X$ 이다. 목표는 평균 연산자 $\bar{A}(x) := \int A(s, x) d\mu(s)$ 의 영점을 찾는 것이다.

알고리즘 구조

확률적 근접점 알고리즘 (SPPA): $x_{n+1} := J_{\lambda_n}(\xi_{n+1}, x_n)$

여기서:

$x_0 \in X$ 는 초기점
$(\lambda_n) \subseteq (0, \infty)$ 는 $(\lambda_n) \in \ell^2_+ \setminus \ell^1_+$ 를 만족하는 매개변수 수열
$(\xi_{n+1})$ 은 분포 $\mu$ 를 갖는 독립동일분포 확률변수 수열
$J_\lambda(s, x) := \{z \in X | \frac{1}{\lambda}\log_z x \in A(s, z)\}$ 는 해 연산자

핵심 기술 요소

거리공간 기하학적 구조:
- CAT(0) 공간: 비양의 곡률 조건을 만족하는 완비 측지 거리공간
- 접공간 $T_x X$ : Aleksandrov 각도 및 유클리드 원뿔을 통해 구성
- 준내적: $g_x(t\gamma, s\eta) := ts\cos\angle_x(\gamma, \eta)$
단조 벡터장: $(x, u), (y, v) \in A$ 에 대해 다음을 만족: $g_x(u, \log_x y) \leq -g_y(v, \log_y x)$
강단조성 (매개변수 $\alpha > 0$ ): $g_x(u, \log_x y) \leq -g_y(v, \log_y x) - \alpha d^2(x, y)$
Yosida 근사: $A_\lambda(s, x) := \frac{1}{\lambda}\log_{J_\lambda(s,x)} x$

기술적 혁신점

거리공간에서의 확률론: Sturm의 적분 이론을 활용하여 거리공간 위의 확률변수 이론 수립
Aumann-Sturm 적분: Aumann 적분을 거리공간의 집합값 사상으로 일반화
확률적 준Fejér 단조성: 반복의 확률적 행동을 제어하기 위한 두 가지 핵심 부등식 수립
독립성 가정: 비선형 공간의 기술적 어려움을 처리하기 위해 조건 $E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0$ 도입

이론적 분석

핵심 가정

(A0) 매개변수 조건: $(\lambda_n) \in \ell^2_+ \setminus \ell^1_+$ , $(\xi_{n+1})$ 독립동일분포
(A1) 강단조성: $A(s, \cdot)$ 는 강단조, 계수 $\alpha(s) > 0$ , $\int \alpha d\mu > 0$
(A2) 영점 존재성: 유일한 영점 $x^* \in ZA^{(2)}$ 존재
(A3) 독립성: $E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0$

주요 정리

정리 4.7 (주요 수렴 결과): 가정 (A0)-(A3) 하에서 확률적 근접점 알고리즘은 다음을 만족한다:

평균 수렴: $E[d^2(x_n, x^*)] \to 0$
거의 확실한 수렴: $d^2(x_n, x^*) \to 0$ a.s.
명시적 수렴률: $\forall \varepsilon > 0, \forall n \geq \rho(\varepsilon): E[d^2(x_n, x^*)] < \varepsilon$ 여기서 $\rho(\varepsilon) := \theta(\chi(\varepsilon/2c), 2D/\varepsilon)$