2025-11-10T02:58:05.695123

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

Pischke
We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
academic

Convergenza in media quadratica e lineare di un algoritmo di punto prossimale stocastico in spazi metrici di curvatura non positiva

Informazioni Fondamentali

  • ID Articolo: 2510.10697
  • Titolo: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
  • Autore: Nicholas Pischke (University of Bath)
  • Classificazione: math.OC (Ottimizzazione e Controllo), cs.LG (Apprendimento Automatico)
  • Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
  • Link dell'Articolo: https://arxiv.org/abs/2510.10697

Riassunto

Il presente articolo definisce una variante stocastica dell'algoritmo di punto prossimale in un contesto generale non lineare in spazi di Hadamard separabili, al fine di approssimare gli zeri della media di campi vettoriali monotoni perturbati stocasticamente. Sotto opportune ipotesi di forte monotonia, indipendenza probabilistica e separabilità dello spazio tangente, viene provata la convergenza dell'algoritmo. Come caso particolare, si generalizza per la prima volta il lavoro correlato di P. Bianchi negli spazi di Hilbert alle varietà di Hadamard. La dimostrazione della convergenza è completamente costruttiva, consentendo di stabilire tassi di convergenza espliciti verso la soluzione unica, includendo convergenza in media e convergenza quasi certa. Questi tassi di convergenza sono altamente uniformi, indipendenti dalla maggior parte dei dati relativi alle iterazioni, allo spazio o alla distribuzione.

Contesto di Ricerca e Motivazione

  1. Problema da Risolvere:
    • Risolvere problemi di ottimizzazione stocastica in spazi metrici non lineari: minxXf(ξ,x)dμ(ξ)\min_{x \in X} \int f(\xi, x) d\mu(\xi)
    • Generalizzare l'algoritmo di punto prossimale stocastico dagli spazi di Hilbert a spazi metrici più generali di curvatura non positiva
  2. Importanza del Problema:
    • L'approssimazione stocastica è un problema centrale nell'apprendimento automatico e nell'ottimizzazione
    • L'ottimizzazione su spazi non lineari ha ampie applicazioni nell'apprendimento automatico (ad esempio, apprendimento su varietà)
    • La teoria esistente è principalmente limitata agli spazi di Hilbert, mancando di fondamenti teorici per spazi non lineari
  3. Limitazioni dei Metodi Esistenti:
    • Il lavoro di Bianchi si applica solo agli spazi di Hilbert
    • Mancanza di analisi dei tassi di convergenza espliciti
    • La teoria dell'algoritmo di punto prossimale stocastico in spazi non lineari è incompleta
  4. Motivazione della Ricerca:
    • Generalizzare la teoria matura degli spazi di Hilbert agli spazi CAT(0) e alle varietà di Hadamard
    • Fornire analisi di tassi di convergenza espliciti e uniformi
    • Stabilire fondamenti teorici per l'ottimizzazione stocastica in spazi non lineari

Contributi Fondamentali

  1. Generalizzazione Teorica: Prima generalizzazione dell'algoritmo di punto prossimale stocastico dagli spazi di Hilbert a spazi di Hadamard separabili
  2. Analisi di Convergenza: Dimostrazione di convergenza forte sotto ipotesi di forte monotonia, includendo convergenza in media e convergenza quasi certa
  3. Tassi di Convergenza Espliciti: Costruzione di tassi di convergenza altamente uniformi, indipendenti dalla maggior parte dei parametri di iterazione
  4. Innovazione Tecnica: Sviluppo della teoria dei campi vettoriali monotoni stocastici in spazi metrici e dell'integrale di Aumann-Sturm
  5. Estensione Applicativa: Copertura degli spazi di Hilbert e delle varietà di Hadamard come casi particolari

Dettagli Metodologici

Definizione del Compito

Dato uno spazio di probabilità (E,E,μ)(E, \mathcal{E}, \mu) e uno spazio di Hadamard separabile XX, si consideri un campo vettoriale monotono stocastico A:E×X2TXA: E \times X \to 2^{TX}, dove A(s,x)TxXA(s, x) \subseteq T_x X. L'obiettivo è trovare gli zeri dell'operatore medio Aˉ(x):=A(s,x)dμ(s)\bar{A}(x) := \int A(s, x) d\mu(s).

Architettura dell'Algoritmo

Algoritmo di Punto Prossimale Stocastico (SPPA): xn+1:=Jλn(ξn+1,xn)x_{n+1} := J_{\lambda_n}(\xi_{n+1}, x_n)

dove:

  • x0Xx_0 \in X è il punto iniziale
  • (λn)(0,)(\lambda_n) \subseteq (0, \infty) è una sequenza di parametri soddisfacente (λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+
  • (ξn+1)(\xi_{n+1}) è una sequenza di variabili aleatorie indipendenti e identicamente distribuite con distribuzione μ\mu
  • Jλ(s,x):={zX1λlogzxA(s,z)}J_\lambda(s, x) := \{z \in X | \frac{1}{\lambda}\log_z x \in A(s, z)\} è l'operatore risolutivo

Componenti Tecniche Chiave

  1. Strutture Geometriche dello Spazio Metrico:
    • Spazi CAT(0): spazi metrici geodetici completi soddisfacenti la condizione di curvatura non positiva
    • Spazio tangente TxXT_x X: costruito tramite angoli di Aleksandrov e cono euclideo
    • Quasi-prodotto interno: gx(tγ,sη):=tscosx(γ,η)g_x(t\gamma, s\eta) := ts\cos\angle_x(\gamma, \eta)
  2. Campi Vettoriali Monotoni: Per (x,u),(y,v)A(x, u), (y, v) \in A, soddisfa: gx(u,logxy)gy(v,logyx)g_x(u, \log_x y) \leq -g_y(v, \log_y x)
    Forte monotonia (parametro α>0\alpha > 0): gx(u,logxy)gy(v,logyx)αd2(x,y)g_x(u, \log_x y) \leq -g_y(v, \log_y x) - \alpha d^2(x, y)
  3. Approssimazione di Yosida: Aλ(s,x):=1λlogJλ(s,x)xA_\lambda(s, x) := \frac{1}{\lambda}\log_{J_\lambda(s,x)} x

Punti di Innovazione Tecnica

  1. Teoria della Probabilità in Spazi Metrici: Utilizzo della teoria integrale di Sturm per stabilire la teoria delle variabili aleatorie su spazi metrici
  2. Integrale di Aumann-Sturm: Generalizzazione dell'integrale di Aumann a mappe multivalore in spazi metrici
  3. Quasi-Monotonia Stocastica di Fejér: Stabilimento di due disuguaglianze chiave per controllare il comportamento stocastico delle iterazioni
  4. Ipotesi di Indipendenza: Introduzione della condizione En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0 per affrontare le difficoltà tecniche degli spazi non lineari

Analisi Teorica

Ipotesi Chiave

  • (A0) Condizione sui parametri: (λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+, (ξn+1)(\xi_{n+1}) indipendenti e identicamente distribuite
  • (A1) Forte monotonia: A(s,)A(s, \cdot) è fortemente monotono con modulo α(s)>0\alpha(s) > 0, e αdμ>0\int \alpha d\mu > 0
  • (A2) Esistenza dello zero: esiste uno zero unico xZA(2)x^* \in ZA^{(2)}
  • (A3) Indipendenza: En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0

Teoremi Principali

Teorema 4.7 (Risultato Principale di Convergenza): Sotto le ipotesi (A0)-(A3), l'algoritmo di punto prossimale stocastico soddisfa:

  1. Convergenza in Media: E[d2(xn,x)]0E[d^2(x_n, x^*)] \to 0
  2. Convergenza Quasi Certa: d2(xn,x)0d^2(x_n, x^*) \to 0 q.c.
  3. Tasso di Convergenza Esplicito: ε>0,nρ(ε):E[d2(xn,x)]<ε\forall \varepsilon > 0, \forall n \geq \rho(\varepsilon): E[d^2(x_n, x^*)] < \varepsilon dove ρ(ε):=θ(χ(ε/2c),2D/ε)\rho(\varepsilon) := \theta(\chi(\varepsilon/2c), 2D/\varepsilon)

Teorema 4.11 (Tasso di Convergenza Veloce): Sotto l'ipotesi aggiuntiva di limitatezza del secondo momento (A4), per λn=1/[α(n+2)]\lambda_n = 1/[\alpha(n+2)]: E[d2(xn,x)]un+2E[d^2(x_n, x^*)] \leq \frac{u}{n+2}

Applicazioni e Casi Particolari

Minimizzazione di Funzioni Fortemente Convesse

Corollario 4.10: Per una funzione integrale fortemente convessa F(x):=f(s,x)dτ(s)F(x) := \int f(s, x) d\tau(s), l'algoritmo xn+1:=proxλnf(ξn+1,xn)x_{n+1} := \text{prox}^f_{\lambda_n}(\xi_{n+1}, x_n) converge al punto di minimo di FF.

Spazi Applicabili

  1. Spazi di Hilbert: Come caso particolare, recupera il risultato originale di Bianchi e fornisce nuovi tassi di convergenza
  2. Varietà di Hadamard: Prima stabilimento della teoria dell'algoritmo di punto prossimale stocastico in questo contesto
  3. Altri Spazi CAT(0): Come spazi ad albero, certi grafi metrici, ecc.

Punti Chiave della Dimostrazione Tecnica

Lemmi Chiave

Lemma 4.1 (Quasi-Monotonia Stocastica di Fejér I): En[d2(xn+1,x)]d2(xn,x)λn2(12β)En[Aλn(ξn+1,xn)xn+12]+λn2ϕx2dμ2βE_n[d^2(x_{n+1}, x^*)] \leq d^2(x_n, x^*) - \lambda_n^2(1-2\beta)E_n[\|A_{\lambda_n}(\xi_{n+1}, x_n)\|^2_{x_{n+1}}] + \frac{\lambda_n^2\int\|\phi^*\|^2_{x^*}d\mu}{2\beta}

Lemma 4.3 (Quasi-Monotonia Stocastica di Fejér II): En[d2(xn+1,x)](1+2λn2)d2(xn,x)2λnαd2(xn,x)+λn2VnE_n[d^2(x_{n+1}, x^*)] \leq (1+2\lambda_n^2)d^2(x_n, x^*) - 2\lambda_n\alpha d^2(x_n, x^*) + \lambda_n^2 V_n

Strategia di Dimostrazione

  1. Utilizzo delle proprietà geometriche del quasi-prodotto interno di Berg-Nikolaev
  2. Applicazione della forte monotonia e della proprietà di curvatura non positiva degli spazi CAT(0)
  3. Costruzione di supermartingale e applicazione della disuguaglianza di Ville
  4. Utilizzo della versione quantitativa del lemma di Robbins-Siegmund

Lavori Correlati

  1. Bianchi (2016): Algoritmo di punto prossimale stocastico in spazi di Hilbert
  2. Li, López, Martín-Márquez (2009): Algoritmo di punto prossimale deterministico su varietà di Hadamard
  3. Bačák (2013, 2018): Algoritmo di punto prossimale in spazi CAT(0) e minimizzazione stocastica convessa
  4. Chaipunya, Kohsaka, Kumam (2021): Teoria dei campi vettoriali monotoni in spazi CAT(0)

Conclusioni e Discussione

Conclusioni Principali

  1. Generalizzazione riuscita dell'algoritmo di punto prossimale stocastico a spazi metrici di curvatura non positiva
  2. Dimostrazione della convergenza forte sotto ipotesi di forte monotonia
  3. Fornitura di tassi di convergenza espliciti e altamente uniformi
  4. Stabilimento dei fondamenti teorici per l'ottimizzazione stocastica in spazi non lineari

Limitazioni

  1. Richiesta dell'ipotesi di separabilità dello spazio tangente, difficile da verificare in spazi CAT(0) generali
  2. L'ipotesi di indipendenza (A3) limita l'ambito di applicabilità, principalmente applicabile a spazi tangenti di curvatura piatta
  3. Il tasso di convergenza nel caso generale è di ordine esponenziale, relativamente lento
  4. Richiesta dell'ipotesi di forte monotonia, che esclude molte applicazioni pratiche

Direzioni Future

  1. Ricerca di risultati di convergenza debole, rilassando l'ipotesi di forte monotonia
  2. Generalizzazione dei tassi di convergenza veloce a contesti più generali
  3. Studio di altri algoritmi di ottimizzazione stocastica su spazi non lineari
  4. Esplorazione di applicazioni pratiche, come problemi di apprendimento automatico su varietà

Valutazione Approfondita

Vantaggi

  1. Innovazione Teorica: Prima generalizzazione sistematica dell'algoritmo di punto prossimale stocastico a spazi non lineari
  2. Profondità Tecnica: Combinazione ingegnosa di geometria metrica, teoria della probabilità e teoria dell'ottimizzazione
  3. Completezza dei Risultati: Fornitura di analisi di convergenza sia qualitativa che quantitativa
  4. Generalità del Metodo: Applicabilità a molteplici spazi geometrici importanti

Insufficienze

  1. Limitazioni delle Ipotesi: Le ipotesi di indipendenza e separabilità limitano l'ambito di applicabilità
  2. Velocità di Convergenza: Il tasso di convergenza nel caso generale è relativamente lento
  3. Verifica Sperimentale: Mancanza di esperimenti numerici per verificare i risultati teorici
  4. Praticità: Carattere altamente teorico, con applicazioni pratiche ancora da sviluppare

Impatto

  1. Valore Accademico: Fornisce fondamenti teorici importanti per l'ottimizzazione stocastica in spazi non lineari
  2. Contributo Metodologico: Dimostra come generalizzare la teoria dell'ottimizzazione degli spazi lineari a contesti non lineari
  3. Ricerca Successiva: Pone le basi per ulteriori ricerche in settori correlati

Scenari Applicabili

  1. Problemi di ottimizzazione su varietà di Hadamard
  2. Inferenza statistica in spazi ad albero
  3. Algoritmi di apprendimento automatico in spazi di curvatura non positiva
  4. Statistica geometrica e analisi delle forme

Bibliografia

L'articolo cita 64 riferimenti correlati, principalmente includenti:

  • Letteratura fondamentale sulla teoria degli spazi CAT(0) (Bridger & Haefliger, 1999)
  • Lavori pioneristici sulla teoria della probabilità su spazi metrici (Sturm, 2002, 2003)
  • Letteratura classica sulla teoria degli operatori monotoni (Bauschke & Combettes, 2017)
  • Ricerche correlate su algoritmi di ottimizzazione stocastica

Il presente articolo ha un'importanza teorica significativa, fornendo fondamenti matematici rigorosi per l'ottimizzazione stocastica in spazi non lineari, sebbene lo sviluppo ulteriore sia ancora necessario per le applicazioni pratiche.