We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
- ID Articolo: 2510.10697
- Titolo: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
- Autore: Nicholas Pischke (University of Bath)
- Classificazione: math.OC (Ottimizzazione e Controllo), cs.LG (Apprendimento Automatico)
- Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
- Link dell'Articolo: https://arxiv.org/abs/2510.10697
Il presente articolo definisce una variante stocastica dell'algoritmo di punto prossimale in un contesto generale non lineare in spazi di Hadamard separabili, al fine di approssimare gli zeri della media di campi vettoriali monotoni perturbati stocasticamente. Sotto opportune ipotesi di forte monotonia, indipendenza probabilistica e separabilità dello spazio tangente, viene provata la convergenza dell'algoritmo. Come caso particolare, si generalizza per la prima volta il lavoro correlato di P. Bianchi negli spazi di Hilbert alle varietà di Hadamard. La dimostrazione della convergenza è completamente costruttiva, consentendo di stabilire tassi di convergenza espliciti verso la soluzione unica, includendo convergenza in media e convergenza quasi certa. Questi tassi di convergenza sono altamente uniformi, indipendenti dalla maggior parte dei dati relativi alle iterazioni, allo spazio o alla distribuzione.
- Problema da Risolvere:
- Risolvere problemi di ottimizzazione stocastica in spazi metrici non lineari: minx∈X∫f(ξ,x)dμ(ξ)
- Generalizzare l'algoritmo di punto prossimale stocastico dagli spazi di Hilbert a spazi metrici più generali di curvatura non positiva
- Importanza del Problema:
- L'approssimazione stocastica è un problema centrale nell'apprendimento automatico e nell'ottimizzazione
- L'ottimizzazione su spazi non lineari ha ampie applicazioni nell'apprendimento automatico (ad esempio, apprendimento su varietà)
- La teoria esistente è principalmente limitata agli spazi di Hilbert, mancando di fondamenti teorici per spazi non lineari
- Limitazioni dei Metodi Esistenti:
- Il lavoro di Bianchi si applica solo agli spazi di Hilbert
- Mancanza di analisi dei tassi di convergenza espliciti
- La teoria dell'algoritmo di punto prossimale stocastico in spazi non lineari è incompleta
- Motivazione della Ricerca:
- Generalizzare la teoria matura degli spazi di Hilbert agli spazi CAT(0) e alle varietà di Hadamard
- Fornire analisi di tassi di convergenza espliciti e uniformi
- Stabilire fondamenti teorici per l'ottimizzazione stocastica in spazi non lineari
- Generalizzazione Teorica: Prima generalizzazione dell'algoritmo di punto prossimale stocastico dagli spazi di Hilbert a spazi di Hadamard separabili
- Analisi di Convergenza: Dimostrazione di convergenza forte sotto ipotesi di forte monotonia, includendo convergenza in media e convergenza quasi certa
- Tassi di Convergenza Espliciti: Costruzione di tassi di convergenza altamente uniformi, indipendenti dalla maggior parte dei parametri di iterazione
- Innovazione Tecnica: Sviluppo della teoria dei campi vettoriali monotoni stocastici in spazi metrici e dell'integrale di Aumann-Sturm
- Estensione Applicativa: Copertura degli spazi di Hilbert e delle varietà di Hadamard come casi particolari
Dato uno spazio di probabilità (E,E,μ) e uno spazio di Hadamard separabile X, si consideri un campo vettoriale monotono stocastico A:E×X→2TX, dove A(s,x)⊆TxX. L'obiettivo è trovare gli zeri dell'operatore medio Aˉ(x):=∫A(s,x)dμ(s).
Algoritmo di Punto Prossimale Stocastico (SPPA):
xn+1:=Jλn(ξn+1,xn)
dove:
- x0∈X è il punto iniziale
- (λn)⊆(0,∞) è una sequenza di parametri soddisfacente (λn)∈ℓ+2∖ℓ+1
- (ξn+1) è una sequenza di variabili aleatorie indipendenti e identicamente distribuite con distribuzione μ
- Jλ(s,x):={z∈X∣λ1logzx∈A(s,z)} è l'operatore risolutivo
- Strutture Geometriche dello Spazio Metrico:
- Spazi CAT(0): spazi metrici geodetici completi soddisfacenti la condizione di curvatura non positiva
- Spazio tangente TxX: costruito tramite angoli di Aleksandrov e cono euclideo
- Quasi-prodotto interno: gx(tγ,sη):=tscos∠x(γ,η)
- Campi Vettoriali Monotoni:
Per (x,u),(y,v)∈A, soddisfa:
gx(u,logxy)≤−gy(v,logyx)
Forte monotonia (parametro α>0):
gx(u,logxy)≤−gy(v,logyx)−αd2(x,y) - Approssimazione di Yosida:
Aλ(s,x):=λ1logJλ(s,x)x
- Teoria della Probabilità in Spazi Metrici: Utilizzo della teoria integrale di Sturm per stabilire la teoria delle variabili aleatorie su spazi metrici
- Integrale di Aumann-Sturm: Generalizzazione dell'integrale di Aumann a mappe multivalore in spazi metrici
- Quasi-Monotonia Stocastica di Fejér: Stabilimento di due disuguaglianze chiave per controllare il comportamento stocastico delle iterazioni
- Ipotesi di Indipendenza: Introduzione della condizione En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0 per affrontare le difficoltà tecniche degli spazi non lineari
- (A0) Condizione sui parametri: (λn)∈ℓ+2∖ℓ+1, (ξn+1) indipendenti e identicamente distribuite
- (A1) Forte monotonia: A(s,⋅) è fortemente monotono con modulo α(s)>0, e ∫αdμ>0
- (A2) Esistenza dello zero: esiste uno zero unico x∗∈ZA(2)
- (A3) Indipendenza: En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0
Teorema 4.7 (Risultato Principale di Convergenza):
Sotto le ipotesi (A0)-(A3), l'algoritmo di punto prossimale stocastico soddisfa:
- Convergenza in Media: E[d2(xn,x∗)]→0
- Convergenza Quasi Certa: d2(xn,x∗)→0 q.c.
- Tasso di Convergenza Esplicito:
∀ε>0,∀n≥ρ(ε):E[d2(xn,x∗)]<ε
dove ρ(ε):=θ(χ(ε/2c),2D/ε)
Teorema 4.11 (Tasso di Convergenza Veloce):
Sotto l'ipotesi aggiuntiva di limitatezza del secondo momento (A4), per λn=1/[α(n+2)]:
E[d2(xn,x∗)]≤n+2u
Corollario 4.10: Per una funzione integrale fortemente convessa F(x):=∫f(s,x)dτ(s), l'algoritmo xn+1:=proxλnf(ξn+1,xn) converge al punto di minimo di F.
- Spazi di Hilbert: Come caso particolare, recupera il risultato originale di Bianchi e fornisce nuovi tassi di convergenza
- Varietà di Hadamard: Prima stabilimento della teoria dell'algoritmo di punto prossimale stocastico in questo contesto
- Altri Spazi CAT(0): Come spazi ad albero, certi grafi metrici, ecc.
Lemma 4.1 (Quasi-Monotonia Stocastica di Fejér I):
En[d2(xn+1,x∗)]≤d2(xn,x∗)−λn2(1−2β)En[∥Aλn(ξn+1,xn)∥xn+12]+2βλn2∫∥ϕ∗∥x∗2dμ
Lemma 4.3 (Quasi-Monotonia Stocastica di Fejér II):
En[d2(xn+1,x∗)]≤(1+2λn2)d2(xn,x∗)−2λnαd2(xn,x∗)+λn2Vn
- Utilizzo delle proprietà geometriche del quasi-prodotto interno di Berg-Nikolaev
- Applicazione della forte monotonia e della proprietà di curvatura non positiva degli spazi CAT(0)
- Costruzione di supermartingale e applicazione della disuguaglianza di Ville
- Utilizzo della versione quantitativa del lemma di Robbins-Siegmund
- Bianchi (2016): Algoritmo di punto prossimale stocastico in spazi di Hilbert
- Li, López, Martín-Márquez (2009): Algoritmo di punto prossimale deterministico su varietà di Hadamard
- Bačák (2013, 2018): Algoritmo di punto prossimale in spazi CAT(0) e minimizzazione stocastica convessa
- Chaipunya, Kohsaka, Kumam (2021): Teoria dei campi vettoriali monotoni in spazi CAT(0)
- Generalizzazione riuscita dell'algoritmo di punto prossimale stocastico a spazi metrici di curvatura non positiva
- Dimostrazione della convergenza forte sotto ipotesi di forte monotonia
- Fornitura di tassi di convergenza espliciti e altamente uniformi
- Stabilimento dei fondamenti teorici per l'ottimizzazione stocastica in spazi non lineari
- Richiesta dell'ipotesi di separabilità dello spazio tangente, difficile da verificare in spazi CAT(0) generali
- L'ipotesi di indipendenza (A3) limita l'ambito di applicabilità, principalmente applicabile a spazi tangenti di curvatura piatta
- Il tasso di convergenza nel caso generale è di ordine esponenziale, relativamente lento
- Richiesta dell'ipotesi di forte monotonia, che esclude molte applicazioni pratiche
- Ricerca di risultati di convergenza debole, rilassando l'ipotesi di forte monotonia
- Generalizzazione dei tassi di convergenza veloce a contesti più generali
- Studio di altri algoritmi di ottimizzazione stocastica su spazi non lineari
- Esplorazione di applicazioni pratiche, come problemi di apprendimento automatico su varietà
- Innovazione Teorica: Prima generalizzazione sistematica dell'algoritmo di punto prossimale stocastico a spazi non lineari
- Profondità Tecnica: Combinazione ingegnosa di geometria metrica, teoria della probabilità e teoria dell'ottimizzazione
- Completezza dei Risultati: Fornitura di analisi di convergenza sia qualitativa che quantitativa
- Generalità del Metodo: Applicabilità a molteplici spazi geometrici importanti
- Limitazioni delle Ipotesi: Le ipotesi di indipendenza e separabilità limitano l'ambito di applicabilità
- Velocità di Convergenza: Il tasso di convergenza nel caso generale è relativamente lento
- Verifica Sperimentale: Mancanza di esperimenti numerici per verificare i risultati teorici
- Praticità: Carattere altamente teorico, con applicazioni pratiche ancora da sviluppare
- Valore Accademico: Fornisce fondamenti teorici importanti per l'ottimizzazione stocastica in spazi non lineari
- Contributo Metodologico: Dimostra come generalizzare la teoria dell'ottimizzazione degli spazi lineari a contesti non lineari
- Ricerca Successiva: Pone le basi per ulteriori ricerche in settori correlati
- Problemi di ottimizzazione su varietà di Hadamard
- Inferenza statistica in spazi ad albero
- Algoritmi di apprendimento automatico in spazi di curvatura non positiva
- Statistica geometrica e analisi delle forme
L'articolo cita 64 riferimenti correlati, principalmente includenti:
- Letteratura fondamentale sulla teoria degli spazi CAT(0) (Bridger & Haefliger, 1999)
- Lavori pioneristici sulla teoria della probabilità su spazi metrici (Sturm, 2002, 2003)
- Letteratura classica sulla teoria degli operatori monotoni (Bauschke & Combettes, 2017)
- Ricerche correlate su algoritmi di ottimizzazione stocastica
Il presente articolo ha un'importanza teorica significativa, fornendo fondamenti matematici rigorosi per l'ottimizzazione stocastica in spazi non lineari, sebbene lo sviluppo ulteriore sia ancora necessario per le applicazioni pratiche.