2025-11-10T02:58:05.695123

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

Pischke

We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.

academic

Convergenza in media quadratica e lineare di un algoritmo di punto prossimale stocastico in spazi metrici di curvatura non positiva

Informazioni Fondamentali

ID Articolo: 2510.10697
Titolo: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
Autore: Nicholas Pischke (University of Bath)
Classificazione: math.OC (Ottimizzazione e Controllo), cs.LG (Apprendimento Automatico)
Data di Pubblicazione: 14 ottobre 2025 (preprint arXiv)
Link dell'Articolo: https://arxiv.org/abs/2510.10697

Riassunto

Il presente articolo definisce una variante stocastica dell'algoritmo di punto prossimale in un contesto generale non lineare in spazi di Hadamard separabili, al fine di approssimare gli zeri della media di campi vettoriali monotoni perturbati stocasticamente. Sotto opportune ipotesi di forte monotonia, indipendenza probabilistica e separabilità dello spazio tangente, viene provata la convergenza dell'algoritmo. Come caso particolare, si generalizza per la prima volta il lavoro correlato di P. Bianchi negli spazi di Hilbert alle varietà di Hadamard. La dimostrazione della convergenza è completamente costruttiva, consentendo di stabilire tassi di convergenza espliciti verso la soluzione unica, includendo convergenza in media e convergenza quasi certa. Questi tassi di convergenza sono altamente uniformi, indipendenti dalla maggior parte dei dati relativi alle iterazioni, allo spazio o alla distribuzione.

Contesto di Ricerca e Motivazione

Problema da Risolvere:
- Risolvere problemi di ottimizzazione stocastica in spazi metrici non lineari: $\min_{x \in X} \int f(\xi, x) d\mu(\xi)$
- Generalizzare l'algoritmo di punto prossimale stocastico dagli spazi di Hilbert a spazi metrici più generali di curvatura non positiva
Importanza del Problema:
- L'approssimazione stocastica è un problema centrale nell'apprendimento automatico e nell'ottimizzazione
- L'ottimizzazione su spazi non lineari ha ampie applicazioni nell'apprendimento automatico (ad esempio, apprendimento su varietà)
- La teoria esistente è principalmente limitata agli spazi di Hilbert, mancando di fondamenti teorici per spazi non lineari
Limitazioni dei Metodi Esistenti:
- Il lavoro di Bianchi si applica solo agli spazi di Hilbert
- Mancanza di analisi dei tassi di convergenza espliciti
- La teoria dell'algoritmo di punto prossimale stocastico in spazi non lineari è incompleta
Motivazione della Ricerca:
- Generalizzare la teoria matura degli spazi di Hilbert agli spazi CAT(0) e alle varietà di Hadamard
- Fornire analisi di tassi di convergenza espliciti e uniformi
- Stabilire fondamenti teorici per l'ottimizzazione stocastica in spazi non lineari

Contributi Fondamentali

Generalizzazione Teorica: Prima generalizzazione dell'algoritmo di punto prossimale stocastico dagli spazi di Hilbert a spazi di Hadamard separabili
Analisi di Convergenza: Dimostrazione di convergenza forte sotto ipotesi di forte monotonia, includendo convergenza in media e convergenza quasi certa
Tassi di Convergenza Espliciti: Costruzione di tassi di convergenza altamente uniformi, indipendenti dalla maggior parte dei parametri di iterazione
Innovazione Tecnica: Sviluppo della teoria dei campi vettoriali monotoni stocastici in spazi metrici e dell'integrale di Aumann-Sturm
Estensione Applicativa: Copertura degli spazi di Hilbert e delle varietà di Hadamard come casi particolari

Dettagli Metodologici

Definizione del Compito

Dato uno spazio di probabilità $(E, \mathcal{E}, \mu)$ e uno spazio di Hadamard separabile $X$ , si consideri un campo vettoriale monotono stocastico $A: E \times X \to 2^{TX}$ , dove $A(s, x) \subseteq T_x X$ . L'obiettivo è trovare gli zeri dell'operatore medio $\bar{A}(x) := \int A(s, x) d\mu(s)$ .

Architettura dell'Algoritmo

Algoritmo di Punto Prossimale Stocastico (SPPA): $x_{n+1} := J_{\lambda_n}(\xi_{n+1}, x_n)$

dove:

$x_0 \in X$ è il punto iniziale
$(\lambda_n) \subseteq (0, \infty)$ è una sequenza di parametri soddisfacente $(\lambda_n) \in \ell^2_+ \setminus \ell^1_+$
$(\xi_{n+1})$ è una sequenza di variabili aleatorie indipendenti e identicamente distribuite con distribuzione $\mu$
$J_\lambda(s, x) := \{z \in X | \frac{1}{\lambda}\log_z x \in A(s, z)\}$ è l'operatore risolutivo

Componenti Tecniche Chiave

Strutture Geometriche dello Spazio Metrico:
- Spazi CAT(0): spazi metrici geodetici completi soddisfacenti la condizione di curvatura non positiva
- Spazio tangente $T_x X$ : costruito tramite angoli di Aleksandrov e cono euclideo
- Quasi-prodotto interno: $g_x(t\gamma, s\eta) := ts\cos\angle_x(\gamma, \eta)$
Campi Vettoriali Monotoni: Per $(x, u), (y, v) \in A$ , soddisfa: $g_x(u, \log_x y) \leq -g_y(v, \log_y x)$
Forte monotonia (parametro $\alpha > 0$ ): $g_x(u, \log_x y) \leq -g_y(v, \log_y x) - \alpha d^2(x, y)$
Approssimazione di Yosida: $A_\lambda(s, x) := \frac{1}{\lambda}\log_{J_\lambda(s,x)} x$

Punti di Innovazione Tecnica

Teoria della Probabilità in Spazi Metrici: Utilizzo della teoria integrale di Sturm per stabilire la teoria delle variabili aleatorie su spazi metrici
Integrale di Aumann-Sturm: Generalizzazione dell'integrale di Aumann a mappe multivalore in spazi metrici
Quasi-Monotonia Stocastica di Fejér: Stabilimento di due disuguaglianze chiave per controllare il comportamento stocastico delle iterazioni
Ipotesi di Indipendenza: Introduzione della condizione $E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0$ per affrontare le difficoltà tecniche degli spazi non lineari

Analisi Teorica

Ipotesi Chiave

(A0) Condizione sui parametri: $(\lambda_n) \in \ell^2_+ \setminus \ell^1_+$ , $(\xi_{n+1})$ indipendenti e identicamente distribuite
(A1) Forte monotonia: $A(s, \cdot)$ è fortemente monotono con modulo $\alpha(s) > 0$ , e $\int \alpha d\mu > 0$
(A2) Esistenza dello zero: esiste uno zero unico $x^* \in ZA^{(2)}$
(A3) Indipendenza: $E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0$

Teoremi Principali

Teorema 4.7 (Risultato Principale di Convergenza): Sotto le ipotesi (A0)-(A3), l'algoritmo di punto prossimale stocastico soddisfa:

Convergenza in Media: $E[d^2(x_n, x^*)] \to 0$
Convergenza Quasi Certa: $d^2(x_n, x^*) \to 0$ q.c.
Tasso di Convergenza Esplicito: $\forall \varepsilon > 0, \forall n \geq \rho(\varepsilon): E[d^2(x_n, x^*)] < \varepsilon$ dove $\rho(\varepsilon) := \theta(\chi(\varepsilon/2c), 2D/\varepsilon)$

Teorema 4.11 (Tasso di Convergenza Veloce): Sotto l'ipotesi aggiuntiva di limitatezza del secondo momento (A4), per $\lambda_n = 1/[\alpha(n+2)]$ : $E[d^2(x_n, x^*)] \leq \frac{u}{n+2}$

Applicazioni e Casi Particolari

Minimizzazione di Funzioni Fortemente Convesse

Corollario 4.10: Per una funzione integrale fortemente convessa $F(x) := \int f(s, x) d\tau(s)$ , l'algoritmo $x_{n+1} := \text{prox}^f_{\lambda_n}(\xi_{n+1}, x_n)$ converge al punto di minimo di $F$ .

Spazi Applicabili

Spazi di Hilbert: Come caso particolare, recupera il risultato originale di Bianchi e fornisce nuovi tassi di convergenza
Varietà di Hadamard: Prima stabilimento della teoria dell'algoritmo di punto prossimale stocastico in questo contesto
Altri Spazi CAT(0): Come spazi ad albero, certi grafi metrici, ecc.

Punti Chiave della Dimostrazione Tecnica

Lemmi Chiave

Lemma 4.1 (Quasi-Monotonia Stocastica di Fejér I): $E_n[d^2(x_{n+1}, x^*)] \leq d^2(x_n, x^*) - \lambda_n^2(1-2\beta)E_n[\|A_{\lambda_n}(\xi_{n+1}, x_n)\|^2_{x_{n+1}}] + \frac{\lambda_n^2\int\|\phi^*\|^2_{x^*}d\mu}{2\beta}$

Lemma 4.3 (Quasi-Monotonia Stocastica di Fejér II): $E_n[d^2(x_{n+1}, x^*)] \leq (1+2\lambda_n^2)d^2(x_n, x^*) - 2\lambda_n\alpha d^2(x_n, x^*) + \lambda_n^2 V_n$

Strategia di Dimostrazione

Utilizzo delle proprietà geometriche del quasi-prodotto interno di Berg-Nikolaev
Applicazione della forte monotonia e della proprietà di curvatura non positiva degli spazi CAT(0)
Costruzione di supermartingale e applicazione della disuguaglianza di Ville
Utilizzo della versione quantitativa del lemma di Robbins-Siegmund

Lavori Correlati

Bianchi (2016): Algoritmo di punto prossimale stocastico in spazi di Hilbert
Li, López, Martín-Márquez (2009): Algoritmo di punto prossimale deterministico su varietà di Hadamard
Bačák (2013, 2018): Algoritmo di punto prossimale in spazi CAT(0) e minimizzazione stocastica convessa
Chaipunya, Kohsaka, Kumam (2021): Teoria dei campi vettoriali monotoni in spazi CAT(0)

Conclusioni e Discussione

Conclusioni Principali

Generalizzazione riuscita dell'algoritmo di punto prossimale stocastico a spazi metrici di curvatura non positiva
Dimostrazione della convergenza forte sotto ipotesi di forte monotonia
Fornitura di tassi di convergenza espliciti e altamente uniformi
Stabilimento dei fondamenti teorici per l'ottimizzazione stocastica in spazi non lineari

Limitazioni

Richiesta dell'ipotesi di separabilità dello spazio tangente, difficile da verificare in spazi CAT(0) generali
L'ipotesi di indipendenza (A3) limita l'ambito di applicabilità, principalmente applicabile a spazi tangenti di curvatura piatta
Il tasso di convergenza nel caso generale è di ordine esponenziale, relativamente lento
Richiesta dell'ipotesi di forte monotonia, che esclude molte applicazioni pratiche

Direzioni Future

Ricerca di risultati di convergenza debole, rilassando l'ipotesi di forte monotonia
Generalizzazione dei tassi di convergenza veloce a contesti più generali
Studio di altri algoritmi di ottimizzazione stocastica su spazi non lineari
Esplorazione di applicazioni pratiche, come problemi di apprendimento automatico su varietà

Valutazione Approfondita

Vantaggi

Innovazione Teorica: Prima generalizzazione sistematica dell'algoritmo di punto prossimale stocastico a spazi non lineari
Profondità Tecnica: Combinazione ingegnosa di geometria metrica, teoria della probabilità e teoria dell'ottimizzazione
Completezza dei Risultati: Fornitura di analisi di convergenza sia qualitativa che quantitativa
Generalità del Metodo: Applicabilità a molteplici spazi geometrici importanti

Insufficienze

Limitazioni delle Ipotesi: Le ipotesi di indipendenza e separabilità limitano l'ambito di applicabilità
Velocità di Convergenza: Il tasso di convergenza nel caso generale è relativamente lento
Verifica Sperimentale: Mancanza di esperimenti numerici per verificare i risultati teorici
Praticità: Carattere altamente teorico, con applicazioni pratiche ancora da sviluppare

Impatto

Valore Accademico: Fornisce fondamenti teorici importanti per l'ottimizzazione stocastica in spazi non lineari
Contributo Metodologico: Dimostra come generalizzare la teoria dell'ottimizzazione degli spazi lineari a contesti non lineari
Ricerca Successiva: Pone le basi per ulteriori ricerche in settori correlati

Scenari Applicabili

Problemi di ottimizzazione su varietà di Hadamard
Inferenza statistica in spazi ad albero
Algoritmi di apprendimento automatico in spazi di curvatura non positiva
Statistica geometrica e analisi delle forme

Bibliografia

L'articolo cita 64 riferimenti correlati, principalmente includenti:

Letteratura fondamentale sulla teoria degli spazi CAT(0) (Bridger & Haefliger, 1999)
Lavori pioneristici sulla teoria della probabilità su spazi metrici (Sturm, 2002, 2003)
Letteratura classica sulla teoria degli operatori monotoni (Bauschke & Combettes, 2017)
Ricerche correlate su algoritmi di ottimizzazione stocastica

Il presente articolo ha un'importanza teorica significativa, fornendo fondamenti matematici rigorosi per l'ottimizzazione stocastica in spazi non lineari, sebbene lo sviluppo ulteriore sia ancora necessario per le applicazioni pratiche.