2025-11-10T02:58:05.695123

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

Pischke

We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.

academic

Convergencia en media cuadrática y lineal de un algoritmo de punto proximal estocástico en espacios métricos de curvatura no positiva

Información Básica

ID del Artículo: 2510.10697
Título: Convergencia en media cuadrática y lineal de un algoritmo de punto proximal estocástico en espacios métricos de curvatura no positiva
Autor: Nicholas Pischke (Universidad de Bath)
Clasificación: math.OC (Optimización y Control), cs.LG (Aprendizaje Automático)
Fecha de Publicación: 14 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10697

Resumen

En este artículo se define una variante estocástica del algoritmo de punto proximal en el contexto general no lineal de espacios de Hadamard separables, para aproximar los ceros de la media de campos vectoriales monótonos perturbados estocásticamente. Bajo supuestos apropiados de fuerte monotonía, independencia probabilística e hipótesis de separabilidad del espacio tangente, se demuestra la convergencia del algoritmo. Como caso especial, se generaliza por primera vez el trabajo relacionado de P. Bianchi en espacios de Hilbert a variedades de Hadamard. La prueba de convergencia es completamente efectiva, permitiendo construir tasas de convergencia explícitas para las iteraciones hacia la solución única, incluyendo convergencia en media y convergencia casi segura. Estas tasas de convergencia son altamente uniformes, independientes de la mayoría de los datos de las iteraciones, el espacio o la distribución.

Antecedentes de Investigación y Motivación

Problema a Resolver:
- Resolver problemas de optimización estocástica en espacios métricos no lineales: $\min_{x \in X} \int f(\xi, x) d\mu(\xi)$
- Generalizar el algoritmo de punto proximal estocástico desde espacios de Hilbert a espacios métricos más generales de curvatura no positiva
Importancia del Problema:
- La aproximación estocástica es un problema central en aprendizaje automático y optimización
- La optimización en espacios no lineales tiene amplias aplicaciones en aprendizaje automático (como aprendizaje en variedades)
- La teoría existente se limita principalmente a espacios de Hilbert, careciendo de fundamentos teóricos para espacios no lineales
Limitaciones de Métodos Existentes:
- El trabajo de Bianchi solo es aplicable a espacios de Hilbert
- Falta análisis de tasas de convergencia explícitas
- La teoría del algoritmo de punto proximal estocástico en espacios no lineales está incompleta
Motivación de la Investigación:
- Generalizar la teoría madura de espacios de Hilbert a espacios CAT(0) y variedades de Hadamard
- Proporcionar análisis de tasas de convergencia explícitas y uniformes
- Establecer fundamentos teóricos para optimización estocástica en espacios no lineales

Contribuciones Principales

Generalización Teórica: Primera generalización del algoritmo de punto proximal estocástico desde espacios de Hilbert a espacios de Hadamard separables
Análisis de Convergencia: Prueba de convergencia fuerte bajo supuestos de fuerte monotonía, incluyendo convergencia en media y convergencia casi segura
Tasas de Convergencia Explícitas: Construcción de tasas de convergencia altamente uniformes, independientes de la mayoría de parámetros de iteración
Innovación Técnica: Desarrollo de teoría de campos vectoriales monótonos estocásticos en espacios métricos e integral de Aumann-Sturm
Extensión de Aplicaciones: Cubre espacios de Hilbert y variedades de Hadamard como casos especiales

Explicación Detallada de Métodos

Definición de la Tarea

Dado un espacio de probabilidad $(E, \mathcal{E}, \mu)$ y un espacio de Hadamard separable $X$ , considérese un campo vectorial monótono estocástico $A: E \times X \to 2^{TX}$ , donde $A(s, x) \subseteq T_x X$ . El objetivo es encontrar los ceros del operador promedio $\bar{A}(x) := \int A(s, x) d\mu(s)$ .

Arquitectura del Algoritmo

Algoritmo de Punto Proximal Estocástico (SPPA): $x_{n+1} := J_{\lambda_n}(\xi_{n+1}, x_n)$

Donde:

$x_0 \in X$ es el punto inicial
$(\lambda_n) \subseteq (0, \infty)$ es una secuencia de parámetros que satisface $(\lambda_n) \in \ell^2_+ \setminus \ell^1_+$
$(\xi_{n+1})$ es una secuencia de variables aleatorias independientes e idénticamente distribuidas con distribución $\mu$
$J_\lambda(s, x) := \{z \in X | \frac{1}{\lambda}\log_z x \in A(s, z)\}$ es el operador resolvente

Componentes Técnicos Clave

Estructura Geométrica del Espacio Métrico:
- Espacios CAT(0): espacios métricos geodésicos completos que satisfacen condiciones de curvatura no positiva
- Espacio tangente $T_x X$ : construido mediante ángulos de Aleksandrov y conos euclidianos
- Cuasi-producto interno: $g_x(t\gamma, s\eta) := ts\cos\angle_x(\gamma, \eta)$
Campos Vectoriales Monótonos: Para $(x, u), (y, v) \in A$ , se satisface: $g_x(u, \log_x y) \leq -g_y(v, \log_y x)$
Fuerte monotonía (parámetro $\alpha > 0$ ): $g_x(u, \log_x y) \leq -g_y(v, \log_y x) - \alpha d^2(x, y)$
Aproximación de Yosida: $A_\lambda(s, x) := \frac{1}{\lambda}\log_{J_\lambda(s,x)} x$

Puntos de Innovación Técnica

Teoría de Probabilidad en Espacios Métricos: Utilización de la teoría integral de Sturm para establecer teoría de variables aleatorias en espacios métricos
Integral de Aumann-Sturm: Generalización de la integral de Aumann a aplicaciones multivaluadas en espacios métricos
Monotonía Cuasi-Fejér Estocástica: Establecimiento de dos desigualdades clave para controlar el comportamiento estocástico de las iteraciones
Hipótesis de Independencia: Introducción de la condición $E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0$ para abordar dificultades técnicas en espacios no lineales

Análisis Teórico

Supuestos Clave

(A0) Condición de parámetros: $(\lambda_n) \in \ell^2_+ \setminus \ell^1_+$ , $(\xi_{n+1})$ independientes e idénticamente distribuidas
(A1) Fuerte monotonía: $A(s, \cdot)$ es fuertemente monótono con módulo $\alpha(s) > 0$ , e $\int \alpha d\mu > 0$
(A2) Existencia de ceros: existe un cero único $x^* \in ZA^{(2)}$
(A3) Independencia: $E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0$

Teoremas Principales

Teorema 4.7 (Resultado Principal de Convergencia): Bajo los supuestos (A0)-(A3), el algoritmo de punto proximal estocástico satisface:

Convergencia en Media: $E[d^2(x_n, x^*)] \to 0$
Convergencia Casi Segura: $d^2(x_n, x^*) \to 0$ c.s.
Tasa de Convergencia Explícita: $\forall \varepsilon > 0, \forall n \geq \rho(\varepsilon): E[d^2(x_n, x^*)] < \varepsilon$ donde $\rho(\varepsilon) := \theta(\chi(\varepsilon/2c), 2D/\varepsilon)$

Teorema 4.11 (Tasa de Convergencia Rápida): Bajo el supuesto adicional de acotamiento del segundo momento (A4), para $\lambda_n = 1/[\alpha(n+2)]$ : $E[d^2(x_n, x^*)] \leq \frac{u}{n+2}$

Aplicaciones y Casos Especiales

Minimización de Funciones Fuertemente Convexas

Corolario 4.10: Para una función integral fuertemente convexa $F(x) := \int f(s, x) d\tau(s)$ , el algoritmo $x_{n+1} := \text{prox}^f_{\lambda_n}(\xi_{n+1}, x_n)$ converge al punto minimizador de $F$ .

Espacios Aplicables

Espacios de Hilbert: Como caso especial, recupera el resultado original de Bianchi y proporciona nuevas tasas de convergencia
Variedades de Hadamard: Primera vez que se establece la teoría del algoritmo de punto proximal estocástico en este contexto
Otros Espacios CAT(0): Como espacios de árboles, ciertos grafos métricos, etc.

Puntos Clave de la Prueba Técnica

Lemas Clave

Lema 4.1 (Monotonía Cuasi-Fejér Estocástica I): $E_n[d^2(x_{n+1}, x^*)] \leq d^2(x_n, x^*) - \lambda_n^2(1-2\beta)E_n[\|A_{\lambda_n}(\xi_{n+1}, x_n)\|^2_{x_{n+1}}] + \frac{\lambda_n^2\int\|\phi^*\|^2_{x^*}d\mu}{2\beta}$

Lema 4.3 (Monotonía Cuasi-Fejér Estocástica II): $E_n[d^2(x_{n+1}, x^*)] \leq (1+2\lambda_n^2)d^2(x_n, x^*) - 2\lambda_n\alpha d^2(x_n, x^*) + \lambda_n^2 V_n$

Estrategia de Prueba

Utilización de propiedades geométricas del cuasi-producto interno de Berg-Nikolaev
Aplicación de fuerte monotonía y propiedades de curvatura no positiva de espacios CAT(0)
Construcción de supermartingalas y aplicación de la desigualdad de Ville
Uso de versiones cuantificadas del lema de Robbins-Siegmund

Trabajo Relacionado

Bianchi (2016): Algoritmo de punto proximal estocástico en espacios de Hilbert
Li, López, Martín-Márquez (2009): Algoritmo de punto proximal determinista en variedades de Hadamard
Bačák (2013, 2018): Algoritmo de punto proximal en espacios CAT(0) y minimización convexa estocástica
Chaipunya, Kohsaka, Kumam (2021): Teoría de campos vectoriales monótonos en espacios CAT(0)

Conclusiones y Discusión

Conclusiones Principales

Generalización exitosa del algoritmo de punto proximal estocástico a espacios métricos de curvatura no positiva
Prueba de convergencia fuerte bajo supuestos de fuerte monotonía
Provisión de tasas de convergencia explícitas y altamente uniformes
Establecimiento de fundamentos teóricos para optimización estocástica en espacios no lineales

Limitaciones

Requiere supuesto de separabilidad del espacio tangente, difícil de verificar en espacios CAT(0) generales
El supuesto de independencia (A3) limita el rango de aplicabilidad, principalmente aplicable a espacios tangentes de curvatura plana
Las tasas de convergencia en el caso general son de orden exponencial, relativamente lentas
Requiere supuesto de fuerte monotonía, excluyendo muchas aplicaciones prácticas

Direcciones Futuras

Investigación de resultados de convergencia débil, relajando supuestos de fuerte monotonía
Generalización de tasas de convergencia rápida a configuraciones más generales
Investigación de otros algoritmos de optimización estocástica en espacios no lineales
Exploración de aplicaciones prácticas, como problemas de aprendizaje automático en variedades

Evaluación Profunda

Fortalezas

Innovación Teórica: Primera generalización sistemática del algoritmo de punto proximal estocástico a espacios no lineales
Profundidad Técnica: Combinación ingeniosa de geometría métrica, teoría de probabilidad y teoría de optimización
Completitud de Resultados: Proporciona análisis de convergencia cualitativo y cuantitativo
Generalidad del Método: Aplicable a múltiples espacios geométricos importantes

Deficiencias

Restricción de Supuestos: Los supuestos de independencia y separabilidad limitan el rango de aplicabilidad
Velocidad de Convergencia: Las tasas de convergencia en el caso general son relativamente lentas
Verificación Experimental: Falta de experimentos numéricos para verificar resultados teóricos
Practicidad: Carácter fuertemente teórico, con aplicaciones prácticas aún por desarrollar

Impacto

Valor Académico: Proporciona fundamentos teóricos importantes para optimización estocástica en espacios no lineales
Contribución Metodológica: Demuestra cómo generalizar teoría de optimización de espacios lineales a configuraciones no lineales
Investigación Posterior: Sienta las bases para investigaciones posteriores en campos relacionados

Escenarios de Aplicación

Problemas de optimización en variedades de Hadamard
Inferencia estadística en espacios de árboles
Algoritmos de aprendizaje automático en espacios de curvatura no positiva
Estadística geométrica y análisis de formas

Referencias Bibliográficas

Este artículo cita 64 referencias relacionadas, incluyendo principalmente:

Literatura fundamental en teoría de espacios CAT(0) (Bridger & Haefliger, 1999)
Trabajos pioneros en teoría de probabilidad en espacios métricos (Sturm, 2002, 2003)
Literatura clásica en teoría de operadores monótonos (Bauschke & Combettes, 2017)
Investigaciones relacionadas en algoritmos de optimización estocástica

Este artículo tiene importancia significativa desde el punto de vista teórico, proporcionando fundamentos matemáticos rigurosos para optimización estocástica en espacios no lineales, aunque aún requiere desarrollo adicional en aspectos de aplicación práctica.