We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
- Identifiant de l'article: 2510.10697
- Titre: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
- Auteur: Nicholas Pischke (University of Bath)
- Classification: math.OC (Optimisation et Contrôle), cs.LG (Apprentissage automatique)
- Date de publication: 14 octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.10697
Cet article définit une variante stochastique de l'algorithme du point proximal dans le cadre général non linéaire des espaces de Hadamard séparables, pour approcher les zéros de la moyenne des champs de vecteurs monotones perturbés stochastiquement. Sous des hypothèses appropriées de forte monotonie, d'indépendance probabiliste et de séparabilité de l'espace tangent, la convergence de l'algorithme est établie. Comme cas particulier, les travaux connexes de P. Bianchi dans les espaces de Hilbert sont généralisés pour la première fois aux variétés de Hadamard. La preuve de convergence est entièrement constructive, permettant de construire des vitesses de convergence explicites vers la solution unique, incluant la convergence en moyenne et la convergence presque sûre. Ces vitesses de convergence sont hautement uniformes, indépendantes de la plupart des données relatives aux itérations, à l'espace ou à la distribution.
- Problème à résoudre:
- Résoudre des problèmes d'optimisation stochastique dans les espaces métriques non linéaires: minx∈X∫f(ξ,x)dμ(ξ)
- Généraliser l'algorithme du point proximal stochastique des espaces de Hilbert aux espaces métriques plus généraux de courbure non positive
- Importance du problème:
- L'approximation stochastique est un problème fondamental en apprentissage automatique et optimisation
- L'optimisation sur les espaces non linéaires a des applications étendues en apprentissage automatique (par exemple, l'apprentissage sur variétés)
- La théorie existante est principalement limitée aux espaces de Hilbert, manquant de fondations théoriques pour les espaces non linéaires
- Limitations des approches existantes:
- Les travaux de Bianchi s'appliquent uniquement aux espaces de Hilbert
- Absence d'analyse des vitesses de convergence explicites
- La théorie de l'algorithme du point proximal stochastique dans les espaces non linéaires est incomplète
- Motivation de la recherche:
- Généraliser la théorie mature des espaces de Hilbert aux espaces CAT(0) et variétés de Hadamard
- Fournir une analyse explicite et uniforme des vitesses de convergence
- Établir les fondations théoriques de l'optimisation stochastique dans les espaces non linéaires
- Généralisation théorique: Première généralisation de l'algorithme du point proximal stochastique des espaces de Hilbert aux espaces de Hadamard séparables
- Analyse de convergence: Établissement de la convergence forte sous hypothèse de forte monotonie, incluant convergence en moyenne et convergence presque sûre
- Vitesses de convergence explicites: Construction de vitesses de convergence hautement uniformes, indépendantes de la plupart des paramètres d'itération
- Innovation technique: Développement de la théorie des champs de vecteurs monotones stochastiques dans les espaces métriques et de l'intégrale d'Aumann-Sturm
- Extension d'application: Couvre les espaces de Hilbert et les variétés de Hadamard comme cas particuliers
Étant donné un espace probabilisé (E,E,μ) et un espace de Hadamard séparable X, considérons un champ de vecteurs monotone stochastique A:E×X→2TX, où A(s,x)⊆TxX. L'objectif est de trouver les zéros de l'opérateur moyenne Aˉ(x):=∫A(s,x)dμ(s).
Algorithme du point proximal stochastique (SPPA):
xn+1:=Jλn(ξn+1,xn)
où:
- x0∈X est le point initial
- (λn)⊆(0,∞) est une séquence de paramètres satisfaisant (λn)∈ℓ+2∖ℓ+1
- (ξn+1) est une séquence de variables aléatoires indépendantes et identiquement distribuées de distribution μ
- Jλ(s,x):={z∈X∣λ1logzx∈A(s,z)} est l'opérateur de résolution
- Structures géométriques de l'espace métrique:
- Espaces CAT(0): espaces métriques géodésiques complets satisfaisant la condition de courbure non positive
- Espace tangent TxX: construit via l'angle d'Aleksandrov et le cône euclidien
- Quasi-produit scalaire: gx(tγ,sη):=tscos∠x(γ,η)
- Champs de vecteurs monotones:
Pour (x,u),(y,v)∈A, satisfaisant:
gx(u,logxy)≤−gy(v,logyx)
Forte monotonie (paramètre α>0):
gx(u,logxy)≤−gy(v,logyx)−αd2(x,y) - Approximation de Yosida:
Aλ(s,x):=λ1logJλ(s,x)x
- Théorie des probabilités dans les espaces métriques: Utilisation de la théorie intégrale de Sturm pour établir la théorie des variables aléatoires sur les espaces métriques
- Intégrale d'Aumann-Sturm: Généralisation de l'intégrale d'Aumann aux applications multivaluées dans les espaces métriques
- Quasi-monotonie de Fejér stochastique: Établissement de deux inégalités clés pour contrôler le comportement stochastique des itérations
- Hypothèse d'indépendance: Introduction de la condition En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0 pour traiter les difficultés techniques des espaces non linéaires
- (A0) Condition sur les paramètres: (λn)∈ℓ+2∖ℓ+1, (ξn+1) indépendantes et identiquement distribuées
- (A1) Forte monotonie: A(s,⋅) fortement monotone, avec module α(s)>0, et ∫αdμ>0
- (A2) Existence de zéro: existe un zéro unique x∗∈ZA(2)
- (A3) Indépendance: En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0
Théorème 4.7 (Résultat de convergence principal):
Sous les hypothèses (A0)-(A3), l'algorithme du point proximal stochastique satisfait:
- Convergence en moyenne: E[d2(xn,x∗)]→0
- Convergence presque sûre: d2(xn,x∗)→0 p.s.
- Vitesse de convergence explicite:
∀ε>0,∀n≥ρ(ε):E[d2(xn,x∗)]<ε
où ρ(ε):=θ(χ(ε/2c),2D/ε)
Théorème 4.11 (Vitesse de convergence rapide):
Sous l'hypothèse supplémentaire de bornitude du moment d'ordre deux (A4), pour λn=1/[α(n+2)]:
E[d2(xn,x∗)]≤n+2u
Corollaire 4.10: Pour une fonction intégrale fortement convexe F(x):=∫f(s,x)dτ(s), l'algorithme xn+1:=proxλnf(ξn+1,xn) converge vers le point minimisant F.
- Espaces de Hilbert: Comme cas particulier, récupère les résultats originaux de Bianchi et fournit de nouvelles vitesses de convergence
- Variétés de Hadamard: Première établissement de la théorie de l'algorithme du point proximal stochastique dans ce cadre
- Autres espaces CAT(0): Comme les espaces d'arbres, certains graphes métriques, etc.
Lemme 4.1 (Quasi-monotonie de Fejér stochastique I):
En[d2(xn+1,x∗)]≤d2(xn,x∗)−λn2(1−2β)En[∥Aλn(ξn+1,xn)∥xn+12]+2βλn2∫∥ϕ∗∥x∗2dμ
Lemme 4.3 (Quasi-monotonie de Fejér stochastique II):
En[d2(xn+1,x∗)]≤(1+2λn2)d2(xn,x∗)−2λnαd2(xn,x∗)+λn2Vn
- Utilisation des propriétés géométriques du quasi-produit scalaire de Berg-Nikolaev
- Application de la forte monotonie et de la propriété de courbure non positive des espaces CAT(0)
- Construction de sur-martingales et application de l'inégalité de Ville
- Utilisation de versions quantifiées du lemme de Robbins-Siegmund
- Bianchi (2016): Algorithme du point proximal stochastique dans les espaces de Hilbert
- Li, López, Martín-Márquez (2009): Algorithme du point proximal déterministe sur les variétés de Hadamard
- Bačák (2013, 2018): Algorithme du point proximal dans les espaces CAT(0) et minimisation convexe stochastique
- Chaipunya, Kohsaka, Kumam (2021): Théorie des champs de vecteurs monotones dans les espaces CAT(0)
- Généralisation réussie de l'algorithme du point proximal stochastique aux espaces métriques de courbure non positive
- Établissement de la convergence forte sous hypothèse de forte monotonie
- Fourniture de vitesses de convergence explicites et hautement uniformes
- Établissement des fondations théoriques de l'optimisation stochastique dans les espaces non linéaires
- Nécessité de l'hypothèse de séparabilité de l'espace tangent, difficile à vérifier dans les espaces CAT(0) généraux
- L'hypothèse d'indépendance (A3) limite le champ d'application, s'appliquant principalement aux espaces tangents de courbure plate
- Les vitesses de convergence sont exponentielles dans le cas général, relativement lentes
- Nécessité de l'hypothèse de forte monotonie, excluant de nombreuses applications pratiques
- Étude des résultats de convergence faible, relâchement de l'hypothèse de forte monotonie
- Généralisation des vitesses de convergence rapide à des cadres plus généraux
- Étude d'autres algorithmes d'optimisation stochastique sur les espaces non linéaires
- Exploration d'applications pratiques, comme les problèmes d'apprentissage automatique sur variétés
- Innovation théorique: Première généralisation systématique de l'algorithme du point proximal stochastique aux espaces non linéaires
- Profondeur technique: Combinaison ingénieuse de la géométrie métrique, de la théorie des probabilités et de la théorie de l'optimisation
- Complétude des résultats: Fourniture d'analyses de convergence qualitatives et quantitatives
- Généralité de la méthode: Applicabilité à plusieurs espaces géométriques importants
- Restrictions des hypothèses: Les hypothèses d'indépendance et de séparabilité limitent le champ d'application
- Vitesse de convergence: Les vitesses de convergence dans le cas général sont relativement lentes
- Vérification expérimentale: Absence d'expériences numériques pour valider les résultats théoriques
- Praticité: Caractère fortement théorique, applications pratiques à développer
- Valeur académique: Fourniture de fondations théoriques importantes pour l'optimisation stochastique dans les espaces non linéaires
- Contribution méthodologique: Démonstration de la généralisation de la théorie de l'optimisation des espaces linéaires aux cadres non linéaires
- Recherche ultérieure: Établissement de fondations pour la recherche ultérieure dans les domaines connexes
- Problèmes d'optimisation sur les variétés de Hadamard
- Inférence statistique dans les espaces d'arbres
- Algorithmes d'apprentissage automatique dans les espaces de courbure non positive
- Statistiques géométriques et analyse de formes
Cet article cite 64 références connexes, incluant principalement:
- Littérature fondamentale sur la théorie des espaces CAT(0) (Bridson & Haefliger, 1999)
- Travaux fondateurs sur la théorie des probabilités sur les espaces métriques (Sturm, 2002, 2003)
- Littérature classique sur la théorie des opérateurs monotones (Bauschke & Combettes, 2017)
- Recherches connexes sur les algorithmes d'optimisation stochastique
Cet article revêt une importance théorique significative, fournissant des fondations mathématiques rigoureuses pour l'optimisation stochastique dans les espaces non linéaires, mais nécessite un développement ultérieur en termes d'applications pratiques.