2025-11-10T02:58:05.695123

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

Pischke
We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
academic

Convergencia en media cuadrática y lineal de un algoritmo de punto proximal estocástico en espacios métricos de curvatura no positiva

Información Básica

  • ID del Artículo: 2510.10697
  • Título: Convergencia en media cuadrática y lineal de un algoritmo de punto proximal estocástico en espacios métricos de curvatura no positiva
  • Autor: Nicholas Pischke (Universidad de Bath)
  • Clasificación: math.OC (Optimización y Control), cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10697

Resumen

En este artículo se define una variante estocástica del algoritmo de punto proximal en el contexto general no lineal de espacios de Hadamard separables, para aproximar los ceros de la media de campos vectoriales monótonos perturbados estocásticamente. Bajo supuestos apropiados de fuerte monotonía, independencia probabilística e hipótesis de separabilidad del espacio tangente, se demuestra la convergencia del algoritmo. Como caso especial, se generaliza por primera vez el trabajo relacionado de P. Bianchi en espacios de Hilbert a variedades de Hadamard. La prueba de convergencia es completamente efectiva, permitiendo construir tasas de convergencia explícitas para las iteraciones hacia la solución única, incluyendo convergencia en media y convergencia casi segura. Estas tasas de convergencia son altamente uniformes, independientes de la mayoría de los datos de las iteraciones, el espacio o la distribución.

Antecedentes de Investigación y Motivación

  1. Problema a Resolver:
    • Resolver problemas de optimización estocástica en espacios métricos no lineales: minxXf(ξ,x)dμ(ξ)\min_{x \in X} \int f(\xi, x) d\mu(\xi)
    • Generalizar el algoritmo de punto proximal estocástico desde espacios de Hilbert a espacios métricos más generales de curvatura no positiva
  2. Importancia del Problema:
    • La aproximación estocástica es un problema central en aprendizaje automático y optimización
    • La optimización en espacios no lineales tiene amplias aplicaciones en aprendizaje automático (como aprendizaje en variedades)
    • La teoría existente se limita principalmente a espacios de Hilbert, careciendo de fundamentos teóricos para espacios no lineales
  3. Limitaciones de Métodos Existentes:
    • El trabajo de Bianchi solo es aplicable a espacios de Hilbert
    • Falta análisis de tasas de convergencia explícitas
    • La teoría del algoritmo de punto proximal estocástico en espacios no lineales está incompleta
  4. Motivación de la Investigación:
    • Generalizar la teoría madura de espacios de Hilbert a espacios CAT(0) y variedades de Hadamard
    • Proporcionar análisis de tasas de convergencia explícitas y uniformes
    • Establecer fundamentos teóricos para optimización estocástica en espacios no lineales

Contribuciones Principales

  1. Generalización Teórica: Primera generalización del algoritmo de punto proximal estocástico desde espacios de Hilbert a espacios de Hadamard separables
  2. Análisis de Convergencia: Prueba de convergencia fuerte bajo supuestos de fuerte monotonía, incluyendo convergencia en media y convergencia casi segura
  3. Tasas de Convergencia Explícitas: Construcción de tasas de convergencia altamente uniformes, independientes de la mayoría de parámetros de iteración
  4. Innovación Técnica: Desarrollo de teoría de campos vectoriales monótonos estocásticos en espacios métricos e integral de Aumann-Sturm
  5. Extensión de Aplicaciones: Cubre espacios de Hilbert y variedades de Hadamard como casos especiales

Explicación Detallada de Métodos

Definición de la Tarea

Dado un espacio de probabilidad (E,E,μ)(E, \mathcal{E}, \mu) y un espacio de Hadamard separable XX, considérese un campo vectorial monótono estocástico A:E×X2TXA: E \times X \to 2^{TX}, donde A(s,x)TxXA(s, x) \subseteq T_x X. El objetivo es encontrar los ceros del operador promedio Aˉ(x):=A(s,x)dμ(s)\bar{A}(x) := \int A(s, x) d\mu(s).

Arquitectura del Algoritmo

Algoritmo de Punto Proximal Estocástico (SPPA): xn+1:=Jλn(ξn+1,xn)x_{n+1} := J_{\lambda_n}(\xi_{n+1}, x_n)

Donde:

  • x0Xx_0 \in X es el punto inicial
  • (λn)(0,)(\lambda_n) \subseteq (0, \infty) es una secuencia de parámetros que satisface (λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+
  • (ξn+1)(\xi_{n+1}) es una secuencia de variables aleatorias independientes e idénticamente distribuidas con distribución μ\mu
  • Jλ(s,x):={zX1λlogzxA(s,z)}J_\lambda(s, x) := \{z \in X | \frac{1}{\lambda}\log_z x \in A(s, z)\} es el operador resolvente

Componentes Técnicos Clave

  1. Estructura Geométrica del Espacio Métrico:
    • Espacios CAT(0): espacios métricos geodésicos completos que satisfacen condiciones de curvatura no positiva
    • Espacio tangente TxXT_x X: construido mediante ángulos de Aleksandrov y conos euclidianos
    • Cuasi-producto interno: gx(tγ,sη):=tscosx(γ,η)g_x(t\gamma, s\eta) := ts\cos\angle_x(\gamma, \eta)
  2. Campos Vectoriales Monótonos: Para (x,u),(y,v)A(x, u), (y, v) \in A, se satisface: gx(u,logxy)gy(v,logyx)g_x(u, \log_x y) \leq -g_y(v, \log_y x)
    Fuerte monotonía (parámetro α>0\alpha > 0): gx(u,logxy)gy(v,logyx)αd2(x,y)g_x(u, \log_x y) \leq -g_y(v, \log_y x) - \alpha d^2(x, y)
  3. Aproximación de Yosida: Aλ(s,x):=1λlogJλ(s,x)xA_\lambda(s, x) := \frac{1}{\lambda}\log_{J_\lambda(s,x)} x

Puntos de Innovación Técnica

  1. Teoría de Probabilidad en Espacios Métricos: Utilización de la teoría integral de Sturm para establecer teoría de variables aleatorias en espacios métricos
  2. Integral de Aumann-Sturm: Generalización de la integral de Aumann a aplicaciones multivaluadas en espacios métricos
  3. Monotonía Cuasi-Fejér Estocástica: Establecimiento de dos desigualdades clave para controlar el comportamiento estocástico de las iteraciones
  4. Hipótesis de Independencia: Introducción de la condición En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0 para abordar dificultades técnicas en espacios no lineales

Análisis Teórico

Supuestos Clave

  • (A0) Condición de parámetros: (λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+, (ξn+1)(\xi_{n+1}) independientes e idénticamente distribuidas
  • (A1) Fuerte monotonía: A(s,)A(s, \cdot) es fuertemente monótono con módulo α(s)>0\alpha(s) > 0, e αdμ>0\int \alpha d\mu > 0
  • (A2) Existencia de ceros: existe un cero único xZA(2)x^* \in ZA^{(2)}
  • (A3) Independencia: En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0

Teoremas Principales

Teorema 4.7 (Resultado Principal de Convergencia): Bajo los supuestos (A0)-(A3), el algoritmo de punto proximal estocástico satisface:

  1. Convergencia en Media: E[d2(xn,x)]0E[d^2(x_n, x^*)] \to 0
  2. Convergencia Casi Segura: d2(xn,x)0d^2(x_n, x^*) \to 0 c.s.
  3. Tasa de Convergencia Explícita: ε>0,nρ(ε):E[d2(xn,x)]<ε\forall \varepsilon > 0, \forall n \geq \rho(\varepsilon): E[d^2(x_n, x^*)] < \varepsilon donde ρ(ε):=θ(χ(ε/2c),2D/ε)\rho(\varepsilon) := \theta(\chi(\varepsilon/2c), 2D/\varepsilon)

Teorema 4.11 (Tasa de Convergencia Rápida): Bajo el supuesto adicional de acotamiento del segundo momento (A4), para λn=1/[α(n+2)]\lambda_n = 1/[\alpha(n+2)]: E[d2(xn,x)]un+2E[d^2(x_n, x^*)] \leq \frac{u}{n+2}

Aplicaciones y Casos Especiales

Minimización de Funciones Fuertemente Convexas

Corolario 4.10: Para una función integral fuertemente convexa F(x):=f(s,x)dτ(s)F(x) := \int f(s, x) d\tau(s), el algoritmo xn+1:=proxλnf(ξn+1,xn)x_{n+1} := \text{prox}^f_{\lambda_n}(\xi_{n+1}, x_n) converge al punto minimizador de FF.

Espacios Aplicables

  1. Espacios de Hilbert: Como caso especial, recupera el resultado original de Bianchi y proporciona nuevas tasas de convergencia
  2. Variedades de Hadamard: Primera vez que se establece la teoría del algoritmo de punto proximal estocástico en este contexto
  3. Otros Espacios CAT(0): Como espacios de árboles, ciertos grafos métricos, etc.

Puntos Clave de la Prueba Técnica

Lemas Clave

Lema 4.1 (Monotonía Cuasi-Fejér Estocástica I): En[d2(xn+1,x)]d2(xn,x)λn2(12β)En[Aλn(ξn+1,xn)xn+12]+λn2ϕx2dμ2βE_n[d^2(x_{n+1}, x^*)] \leq d^2(x_n, x^*) - \lambda_n^2(1-2\beta)E_n[\|A_{\lambda_n}(\xi_{n+1}, x_n)\|^2_{x_{n+1}}] + \frac{\lambda_n^2\int\|\phi^*\|^2_{x^*}d\mu}{2\beta}

Lema 4.3 (Monotonía Cuasi-Fejér Estocástica II): En[d2(xn+1,x)](1+2λn2)d2(xn,x)2λnαd2(xn,x)+λn2VnE_n[d^2(x_{n+1}, x^*)] \leq (1+2\lambda_n^2)d^2(x_n, x^*) - 2\lambda_n\alpha d^2(x_n, x^*) + \lambda_n^2 V_n

Estrategia de Prueba

  1. Utilización de propiedades geométricas del cuasi-producto interno de Berg-Nikolaev
  2. Aplicación de fuerte monotonía y propiedades de curvatura no positiva de espacios CAT(0)
  3. Construcción de supermartingalas y aplicación de la desigualdad de Ville
  4. Uso de versiones cuantificadas del lema de Robbins-Siegmund

Trabajo Relacionado

  1. Bianchi (2016): Algoritmo de punto proximal estocástico en espacios de Hilbert
  2. Li, López, Martín-Márquez (2009): Algoritmo de punto proximal determinista en variedades de Hadamard
  3. Bačák (2013, 2018): Algoritmo de punto proximal en espacios CAT(0) y minimización convexa estocástica
  4. Chaipunya, Kohsaka, Kumam (2021): Teoría de campos vectoriales monótonos en espacios CAT(0)

Conclusiones y Discusión

Conclusiones Principales

  1. Generalización exitosa del algoritmo de punto proximal estocástico a espacios métricos de curvatura no positiva
  2. Prueba de convergencia fuerte bajo supuestos de fuerte monotonía
  3. Provisión de tasas de convergencia explícitas y altamente uniformes
  4. Establecimiento de fundamentos teóricos para optimización estocástica en espacios no lineales

Limitaciones

  1. Requiere supuesto de separabilidad del espacio tangente, difícil de verificar en espacios CAT(0) generales
  2. El supuesto de independencia (A3) limita el rango de aplicabilidad, principalmente aplicable a espacios tangentes de curvatura plana
  3. Las tasas de convergencia en el caso general son de orden exponencial, relativamente lentas
  4. Requiere supuesto de fuerte monotonía, excluyendo muchas aplicaciones prácticas

Direcciones Futuras

  1. Investigación de resultados de convergencia débil, relajando supuestos de fuerte monotonía
  2. Generalización de tasas de convergencia rápida a configuraciones más generales
  3. Investigación de otros algoritmos de optimización estocástica en espacios no lineales
  4. Exploración de aplicaciones prácticas, como problemas de aprendizaje automático en variedades

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Primera generalización sistemática del algoritmo de punto proximal estocástico a espacios no lineales
  2. Profundidad Técnica: Combinación ingeniosa de geometría métrica, teoría de probabilidad y teoría de optimización
  3. Completitud de Resultados: Proporciona análisis de convergencia cualitativo y cuantitativo
  4. Generalidad del Método: Aplicable a múltiples espacios geométricos importantes

Deficiencias

  1. Restricción de Supuestos: Los supuestos de independencia y separabilidad limitan el rango de aplicabilidad
  2. Velocidad de Convergencia: Las tasas de convergencia en el caso general son relativamente lentas
  3. Verificación Experimental: Falta de experimentos numéricos para verificar resultados teóricos
  4. Practicidad: Carácter fuertemente teórico, con aplicaciones prácticas aún por desarrollar

Impacto

  1. Valor Académico: Proporciona fundamentos teóricos importantes para optimización estocástica en espacios no lineales
  2. Contribución Metodológica: Demuestra cómo generalizar teoría de optimización de espacios lineales a configuraciones no lineales
  3. Investigación Posterior: Sienta las bases para investigaciones posteriores en campos relacionados

Escenarios de Aplicación

  1. Problemas de optimización en variedades de Hadamard
  2. Inferencia estadística en espacios de árboles
  3. Algoritmos de aprendizaje automático en espacios de curvatura no positiva
  4. Estadística geométrica y análisis de formas

Referencias Bibliográficas

Este artículo cita 64 referencias relacionadas, incluyendo principalmente:

  • Literatura fundamental en teoría de espacios CAT(0) (Bridger & Haefliger, 1999)
  • Trabajos pioneros en teoría de probabilidad en espacios métricos (Sturm, 2002, 2003)
  • Literatura clásica en teoría de operadores monótonos (Bauschke & Combettes, 2017)
  • Investigaciones relacionadas en algoritmos de optimización estocástica

Este artículo tiene importancia significativa desde el punto de vista teórico, proporcionando fundamentos matemáticos rigurosos para optimización estocástica en espacios no lineales, aunque aún requiere desarrollo adicional en aspectos de aplicación práctica.