2025-11-10T02:58:05.695123

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

Pischke
We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
academic

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

基本信息

  • 论文ID: 2510.10697
  • 标题: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
  • 作者: Nicholas Pischke (University of Bath)
  • 分类: math.OC (Optimization and Control), cs.LG (Machine Learning)
  • 发表时间: October 14, 2025 (arXiv preprint)
  • 论文链接: https://arxiv.org/abs/2510.10697

摘要

本文在可分离Hadamard空间的一般非线性设置中定义了随机邻近点算法的随机变体,用于逼近随机扰动单调向量场均值的零点。在适当的强单调性假设、概率独立性假设和切空间可分性假设下,证明了算法的收敛性。作为特例,首次将P. Bianchi在Hilbert空间中的相关工作推广到Hadamard流形。收敛证明是完全有效的,允许构造迭代向唯一解的显式收敛率,包括均值收敛和几乎必然收敛。这些收敛率具有高度一致性,独立于迭代、空间或分布的大部分数据。

研究背景与动机

  1. 要解决的问题
    • 在非线性度量空间中求解随机优化问题:minxXf(ξ,x)dμ(ξ)\min_{x \in X} \int f(\xi, x) d\mu(\xi)
    • 将随机邻近点算法从Hilbert空间推广到更一般的非正曲率度量空间
  2. 问题的重要性
    • 随机逼近是机器学习和优化的核心问题
    • 非线性空间上的优化在机器学习中应用广泛(如流形学习)
    • 现有理论主要局限于Hilbert空间,缺乏非线性空间的理论基础
  3. 现有方法的局限性
    • Bianchi的工作仅适用于Hilbert空间
    • 缺乏显式收敛率分析
    • 非线性空间中的随机邻近点算法理论不完善
  4. 研究动机
    • 将成熟的Hilbert空间理论推广到CAT(0)空间和Hadamard流形
    • 提供显式、一致的收敛率分析
    • 建立非线性空间中随机优化的理论基础

核心贡献

  1. 理论推广:首次将随机邻近点算法从Hilbert空间推广到可分离Hadamard空间
  2. 收敛性分析:在强单调性假设下证明了强收敛性,包括均值收敛和几乎必然收敛
  3. 显式收敛率:构造了高度一致的显式收敛率,独立于大部分迭代参数
  4. 技术创新:发展了度量空间中的随机单调向量场理论和Aumann-Sturm积分
  5. 应用拓展:涵盖了Hilbert空间和Hadamard流形作为特例

方法详解

任务定义

给定概率空间(E,E,μ)(E, \mathcal{E}, \mu)和可分离Hadamard空间XX,考虑随机单调向量场A:E×X2TXA: E \times X \to 2^{TX},其中A(s,x)TxXA(s, x) \subseteq T_x X。目标是找到均值算子Aˉ(x):=A(s,x)dμ(s)\bar{A}(x) := \int A(s, x) d\mu(s)的零点。

算法架构

随机邻近点算法 (SPPA)xn+1:=Jλn(ξn+1,xn)x_{n+1} := J_{\lambda_n}(\xi_{n+1}, x_n)

其中:

  • x0Xx_0 \in X为初始点
  • (λn)(0,)(\lambda_n) \subseteq (0, \infty)为参数序列,满足(λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+
  • (ξn+1)(\xi_{n+1})为独立同分布随机变量序列,分布为μ\mu
  • Jλ(s,x):={zX1λlogzxA(s,z)}J_\lambda(s, x) := \{z \in X | \frac{1}{\lambda}\log_z x \in A(s, z)\}为解算子

关键技术组件

  1. 度量空间几何结构
    • CAT(0)空间:满足非正曲率条件的完备测地度量空间
    • 切空间TxXT_x X:通过Aleksandrov角度和欧几里得锥构造
    • 准内积:gx(tγ,sη):=tscosx(γ,η)g_x(t\gamma, s\eta) := ts\cos\angle_x(\gamma, \eta)
  2. 单调向量场: 对于(x,u),(y,v)A(x, u), (y, v) \in A,满足: gx(u,logxy)gy(v,logyx)g_x(u, \log_x y) \leq -g_y(v, \log_y x)
    强单调性(参数α>0\alpha > 0): gx(u,logxy)gy(v,logyx)αd2(x,y)g_x(u, \log_x y) \leq -g_y(v, \log_y x) - \alpha d^2(x, y)
  3. Yosida逼近Aλ(s,x):=1λlogJλ(s,x)xA_\lambda(s, x) := \frac{1}{\lambda}\log_{J_\lambda(s,x)} x

技术创新点

  1. 度量空间中的概率论:利用Sturm的积分理论建立度量空间上的随机变量理论
  2. Aumann-Sturm积分:将Aumann积分推广到度量空间的集值映射
  3. 随机准Fejér单调性:建立两个关键不等式来控制迭代的随机行为
  4. 独立性假设:引入条件En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0处理非线性空间的技术困难

理论分析

关键假设

  • (A0) 参数条件:(λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+(ξn+1)(\xi_{n+1})独立同分布
  • (A1) 强单调性:A(s,)A(s, \cdot)强单调,模数α(s)>0\alpha(s) > 0,且αdμ>0\int \alpha d\mu > 0
  • (A2) 零点存在性:存在唯一零点xZA(2)x^* \in ZA^{(2)}
  • (A3) 独立性:En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0

主要定理

定理 4.7(主要收敛结果): 在假设(A0)-(A3)下,随机邻近点算法满足:

  1. 均值收敛E[d2(xn,x)]0E[d^2(x_n, x^*)] \to 0
  2. 几乎必然收敛d2(xn,x)0d^2(x_n, x^*) \to 0 a.s.
  3. 显式收敛率ε>0,nρ(ε):E[d2(xn,x)]<ε\forall \varepsilon > 0, \forall n \geq \rho(\varepsilon): E[d^2(x_n, x^*)] < \varepsilon 其中ρ(ε):=θ(χ(ε/2c),2D/ε)\rho(\varepsilon) := \theta(\chi(\varepsilon/2c), 2D/\varepsilon)

定理 4.11(快速收敛率): 在额外的二阶矩有界假设(A4)下,对λn=1/[α(n+2)]\lambda_n = 1/[\alpha(n+2)]E[d2(xn,x)]un+2E[d^2(x_n, x^*)] \leq \frac{u}{n+2}

应用与特例

强凸函数最小化

推论 4.10:对于强凸积分函数F(x):=f(s,x)dτ(s)F(x) := \int f(s, x) d\tau(s),算法xn+1:=proxλnf(ξn+1,xn)x_{n+1} := \text{prox}^f_{\lambda_n}(\xi_{n+1}, x_n)收敛到FF的最小值点。

适用空间

  1. Hilbert空间:作为特例,恢复Bianchi的原始结果并提供新的收敛率
  2. Hadamard流形:首次在该设置下建立随机邻近点算法理论
  3. 其他CAT(0)空间:如树空间、某些度量图等

技术证明要点

关键引理

引理 4.1(随机准Fejér单调性I): En[d2(xn+1,x)]d2(xn,x)λn2(12β)En[Aλn(ξn+1,xn)xn+12]+λn2ϕx2dμ2βE_n[d^2(x_{n+1}, x^*)] \leq d^2(x_n, x^*) - \lambda_n^2(1-2\beta)E_n[\|A_{\lambda_n}(\xi_{n+1}, x_n)\|^2_{x_{n+1}}] + \frac{\lambda_n^2\int\|\phi^*\|^2_{x^*}d\mu}{2\beta}

引理 4.3(随机准Fejér单调性II): En[d2(xn+1,x)](1+2λn2)d2(xn,x)2λnαd2(xn,x)+λn2VnE_n[d^2(x_{n+1}, x^*)] \leq (1+2\lambda_n^2)d^2(x_n, x^*) - 2\lambda_n\alpha d^2(x_n, x^*) + \lambda_n^2 V_n

证明策略

  1. 利用Berg-Nikolaev准内积的几何性质
  2. 应用强单调性和CAT(0)空间的非正曲率性质
  3. 构造上鞅并应用Ville不等式
  4. 使用量化版本的Robbins-Siegmund引理

相关工作

  1. Bianchi (2016):Hilbert空间中的随机邻近点算法
  2. Li, López, Martín-Márquez (2009):Hadamard流形上的确定性邻近点算法
  3. Bačák (2013, 2018):CAT(0)空间中的邻近点算法和随机凸最小化
  4. Chaipunya, Kohsaka, Kumam (2021):CAT(0)空间中的单调向量场理论

结论与讨论

主要结论

  1. 成功将随机邻近点算法推广到非正曲率度量空间
  2. 在强单调性假设下证明了强收敛性
  3. 提供了高度一致的显式收敛率
  4. 建立了非线性空间中随机优化的理论基础

局限性

  1. 需要切空间的可分性假设,在一般CAT(0)空间中难以验证
  2. 独立性假设(A3)限制了适用范围,主要适用于平坦曲率的切空间
  3. 收敛率在一般情况下是指数级的,较慢
  4. 需要强单调性假设,排除了许多实际应用

未来方向

  1. 研究弱收敛结果,放松强单调性假设
  2. 将快速收敛率推广到更一般的设置
  3. 研究其他非线性空间上的随机优化算法
  4. 探索实际应用,如流形上的机器学习问题

深度评价

优点

  1. 理论创新:首次系统地将随机邻近点算法推广到非线性空间
  2. 技术深度:巧妙结合了度量几何、概率论和优化理论
  3. 结果完备:提供了定性和定量的收敛分析
  4. 方法通用:适用于多种重要的几何空间

不足

  1. 假设限制:独立性假设和可分性假设限制了适用范围
  2. 收敛速度:一般情况下的收敛率较慢
  3. 实验验证:缺乏数值实验验证理论结果
  4. 实用性:理论性较强,实际应用有待开发

影响力

  1. 学术价值:为非线性空间中的随机优化提供了重要理论基础
  2. 方法论贡献:展示了如何将线性空间的优化理论推广到非线性设置
  3. 后续研究:为相关领域的进一步研究奠定了基础

适用场景

  1. Hadamard流形上的优化问题
  2. 树空间中的统计推断
  3. 非正曲率空间中的机器学习算法
  4. 几何统计和形状分析

参考文献

本文引用了64篇相关文献,主要包括:

  • CAT(0)空间理论的基础文献(Bridson & Haefliger, 1999)
  • 度量空间上概率论的开创性工作(Sturm, 2002, 2003)
  • 单调算子理论的经典文献(Bauschke & Combettes, 2017)
  • 相关的随机优化算法研究

本论文在理论上具有重要意义,为非线性空间中的随机优化提供了严格的数学基础,但在实际应用方面还有待进一步发展。