We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
- Paper-ID: 2510.10697
- Titel: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
- Autor: Nicholas Pischke (University of Bath)
- Klassifizierung: math.OC (Optimierung und Steuerung), cs.LG (Maschinelles Lernen)
- Veröffentlichungsdatum: 14. Oktober 2025 (arXiv-Preprint)
- Paper-Link: https://arxiv.org/abs/2510.10697
In diesem Paper wird eine stochastische Variante des Proximal-Point-Algorithmus in der allgemeinen nichtlinearen Einstellung separabler Hadamard-Räume definiert, um Nullstellen von Mittelwerten stochastisch gestörter monotoner Vektorfelder zu approximieren. Unter angemessenen Annahmen starker Monotonie, probabilistischer Unabhängigkeit und Separabilität des Tangentialraums wird die Konvergenz des Algorithmus nachgewiesen. Als Spezialfall wird die verwandte Arbeit von P. Bianchi in Hilbert-Räumen erstmals auf Hadamard-Mannigfaltigkeiten verallgemeinert. Der Konvergenzbeweis ist vollständig konstruktiv und ermöglicht die Konstruktion expliziter Konvergenzraten für die Iteration zur eindeutigen Lösung, einschließlich mittlerer Konvergenz und fast sicherer Konvergenz. Diese Konvergenzraten sind hochgradig konsistent und unabhängig von den meisten Daten der Iteration, des Raumes oder der Verteilung.
- Zu lösende Probleme:
- Lösung stochastischer Optimierungsprobleme in nichtlinearen metrischen Räumen: minx∈X∫f(ξ,x)dμ(ξ)
- Verallgemeinerung des stochastischen Proximal-Point-Algorithmus von Hilbert-Räumen auf allgemeinere metrische Räume mit nichtpositiver Krümmung
- Bedeutung des Problems:
- Stochastische Approximation ist ein Kernproblem des maschinellen Lernens und der Optimierung
- Optimierung auf nichtlinearen Räumen hat breite Anwendungen im maschinellen Lernen (z.B. Mannigfaltigkeitslernen)
- Bestehende Theorie ist hauptsächlich auf Hilbert-Räume beschränkt und entbehrt theoretischer Grundlagen für nichtlineare Räume
- Einschränkungen bestehender Methoden:
- Bianchis Arbeit gilt nur für Hilbert-Räume
- Mangel an expliziter Konvergenzratenanalyse
- Theorie des stochastischen Proximal-Point-Algorithmus in nichtlinearen Räumen ist unvollkommen
- Forschungsmotivation:
- Verallgemeinerung der ausgereiften Hilbert-Raum-Theorie auf CAT(0)-Räume und Hadamard-Mannigfaltigkeiten
- Bereitstellung expliziter, konsistenter Konvergenzratenanalyse
- Etablierung theoretischer Grundlagen für stochastische Optimierung in nichtlinearen Räumen
- Theoretische Verallgemeinerung: Erstmalige Verallgemeinerung des stochastischen Proximal-Point-Algorithmus von Hilbert-Räumen auf separable Hadamard-Räume
- Konvergenzanalyse: Nachweis starker Konvergenz unter Annahmen starker Monotonie, einschließlich mittlerer Konvergenz und fast sicherer Konvergenz
- Explizite Konvergenzraten: Konstruktion hochgradig konsistenter expliziter Konvergenzraten, unabhängig von den meisten Iterationsparametern
- Technische Innovation: Entwicklung der Theorie stochastischer monotoner Vektorfelder in metrischen Räumen und Aumann-Sturm-Integration
- Anwendungserweiterung: Abdeckung von Hilbert-Räumen und Hadamard-Mannigfaltigkeiten als Spezialfälle
Gegeben ein Wahrscheinlichkeitsraum (E,E,μ) und ein separabler Hadamard-Raum X, betrachte ein stochastisches monotones Vektorfeld A:E×X→2TX, wobei A(s,x)⊆TxX. Das Ziel ist es, eine Nullstelle des Mittelwertoperators Aˉ(x):=∫A(s,x)dμ(s) zu finden.
Stochastischer Proximal-Point-Algorithmus (SPPA):
xn+1:=Jλn(ξn+1,xn)
wobei:
- x0∈X der Anfangspunkt ist
- (λn)⊆(0,∞) eine Parameterfolge mit (λn)∈ℓ+2∖ℓ+1
- (ξn+1) eine Folge unabhängig und identisch verteilter Zufallsvariablen mit Verteilung μ
- Jλ(s,x):={z∈X∣λ1logzx∈A(s,z)} der Lösungsoperator
- Geometrische Struktur metrischer Räume:
- CAT(0)-Räume: Vollständige geodätische metrische Räume, die die Bedingung nichtpositiver Krümmung erfüllen
- Tangentialraum TxX: Konstruiert durch Aleksandrov-Winkel und euklidische Kegel
- Quasi-Skalarprodukt: gx(tγ,sη):=tscos∠x(γ,η)
- Monotone Vektorfelder:
Für (x,u),(y,v)∈A erfüllt:
gx(u,logxy)≤−gy(v,logyx)
Starke Monotonie (Parameter α>0):
gx(u,logxy)≤−gy(v,logyx)−αd2(x,y) - Yosida-Approximation:
Aλ(s,x):=λ1logJλ(s,x)x
- Wahrscheinlichkeitstheorie in metrischen Räumen: Verwendung von Sturms Integrationstheorie zur Etablierung von Zufallsvariablentheorie auf metrischen Räumen
- Aumann-Sturm-Integration: Verallgemeinerung des Aumann-Integrals auf mengenwertigen Abbildungen in metrischen Räumen
- Stochastische quasi-Fejér-Monotonie: Etablierung zweier Schlüsselungleichungen zur Kontrolle des stochastischen Verhaltens von Iterationen
- Unabhängigkeitsannahme: Einführung der Bedingung En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0 zur Bewältigung technischer Schwierigkeiten in nichtlinearen Räumen
- (A0) Parameterbedingung: (λn)∈ℓ+2∖ℓ+1, (ξn+1) unabhängig und identisch verteilt
- (A1) Starke Monotonie: A(s,⋅) stark monoton mit Modul α(s)>0, und ∫αdμ>0
- (A2) Existenz von Nullstellen: Es existiert eine eindeutige Nullstelle x∗∈ZA(2)
- (A3) Unabhängigkeit: En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0
Satz 4.7 (Hauptkonvergenzergebnis):
Unter den Annahmen (A0)-(A3) erfüllt der stochastische Proximal-Point-Algorithmus:
- Mittlere Konvergenz: E[d2(xn,x∗)]→0
- Fast sichere Konvergenz: d2(xn,x∗)→0 f.s.
- Explizite Konvergenzrate:
∀ε>0,∀n≥ρ(ε):E[d2(xn,x∗)]<ε
wobei ρ(ε):=θ(χ(ε/2c),2D/ε)
Satz 4.11 (Schnelle Konvergenzrate):
Unter der zusätzlichen Annahme beschränkter zweiter Momente (A4), für λn=1/[α(n+2)]:
E[d2(xn,x∗)]≤n+2u
Korollar 4.10: Für stark konvexe Integralfunktionen F(x):=∫f(s,x)dτ(s) konvergiert der Algorithmus xn+1:=proxλnf(ξn+1,xn) zum Minimierungspunkt von F.
- Hilbert-Räume: Als Spezialfall werden Bianchis ursprüngliche Ergebnisse wiederhergestellt und neue Konvergenzraten bereitgestellt
- Hadamard-Mannigfaltigkeiten: Erstmalige Etablierung der Theorie des stochastischen Proximal-Point-Algorithmus in dieser Einstellung
- Andere CAT(0)-Räume: Wie Baumräume, bestimmte metrische Graphen usw.
Lemma 4.1 (Stochastische quasi-Fejér-Monotonie I):
En[d2(xn+1,x∗)]≤d2(xn,x∗)−λn2(1−2β)En[∥Aλn(ξn+1,xn)∥xn+12]+2βλn2∫∥ϕ∗∥x∗2dμ
Lemma 4.3 (Stochastische quasi-Fejér-Monotonie II):
En[d2(xn+1,x∗)]≤(1+2λn2)d2(xn,x∗)−2λnαd2(xn,x∗)+λn2Vn
- Verwendung geometrischer Eigenschaften des Berg-Nikolaev-Quasi-Skalarprodukts
- Anwendung starker Monotonie und nichtpositiver Krümmungseigenschaften von CAT(0)-Räumen
- Konstruktion von Supermartingalen und Anwendung der Ville-Ungleichung
- Verwendung quantifizierter Versionen des Robbins-Siegmund-Lemmas
- Bianchi (2016): Stochastischer Proximal-Point-Algorithmus in Hilbert-Räumen
- Li, López, Martín-Márquez (2009): Deterministischer Proximal-Point-Algorithmus auf Hadamard-Mannigfaltigkeiten
- Bačák (2013, 2018): Proximal-Point-Algorithmus in CAT(0)-Räumen und stochastische konvexe Minimierung
- Chaipunya, Kohsaka, Kumam (2021): Theorie monotoner Vektorfelder in CAT(0)-Räumen
- Erfolgreiche Verallgemeinerung des stochastischen Proximal-Point-Algorithmus auf metrische Räume mit nichtpositiver Krümmung
- Nachweis starker Konvergenz unter Annahmen starker Monotonie
- Bereitstellung hochgradig konsistenter expliziter Konvergenzraten
- Etablierung theoretischer Grundlagen für stochastische Optimierung in nichtlinearen Räumen
- Separabilitätsannahme des Tangentialraums erforderlich, in allgemeinen CAT(0)-Räumen schwer zu verifizieren
- Unabhängigkeitsannahme (A3) begrenzt den Anwendungsbereich, hauptsächlich anwendbar auf Tangentialräume mit flacher Krümmung
- Konvergenzrate ist im allgemeinen Fall exponentiell, relativ langsam
- Annahme starker Monotonie erforderlich, schließt viele praktische Anwendungen aus
- Untersuchung schwacher Konvergenzergebnisse, Lockerung der Annahme starker Monotonie
- Verallgemeinerung schneller Konvergenzraten auf allgemeinere Einstellungen
- Untersuchung anderer stochastischer Optimierungsalgorithmen auf nichtlinearen Räumen
- Erkundung praktischer Anwendungen, wie Maschinenlernprobleme auf Mannigfaltigkeiten
- Theoretische Innovation: Erstmalige systematische Verallgemeinerung des stochastischen Proximal-Point-Algorithmus auf nichtlineare Räume
- Technische Tiefe: Geschickte Kombination von metrischer Geometrie, Wahrscheinlichkeitstheorie und Optimierungstheorie
- Vollständige Ergebnisse: Bereitstellung qualitativer und quantitativer Konvergenzanalyse
- Universelle Methoden: Anwendbar auf mehrere wichtige geometrische Räume
- Annahmebeschränkungen: Unabhängigkeits- und Separabilitätsannahmen begrenzen den Anwendungsbereich
- Konvergenzgeschwindigkeit: Konvergenzrate im allgemeinen Fall relativ langsam
- Experimentelle Validierung: Mangel an numerischen Experimenten zur Validierung theoretischer Ergebnisse
- Praktische Anwendbarkeit: Theoretisch stark, praktische Anwendungen noch zu entwickeln
- Akademischer Wert: Bereitstellung wichtiger theoretischer Grundlagen für stochastische Optimierung in nichtlinearen Räumen
- Methodologischer Beitrag: Demonstration, wie Optimierungstheorie linearer Räume auf nichtlineare Einstellungen verallgemeinert wird
- Nachfolgeforschung: Schaffung einer Grundlage für weitere Forschung in verwandten Bereichen
- Optimierungsprobleme auf Hadamard-Mannigfaltigkeiten
- Statistische Inferenz in Baumräumen
- Maschinenlernalgorithmen in Räumen mit nichtpositiver Krümmung
- Geometrische Statistik und Formanalyse
Dieses Paper zitiert 64 verwandte Literaturquellen, hauptsächlich einschließlich:
- Grundlagenliteratur zur CAT(0)-Raumtheorie (Bridson & Haefliger, 1999)
- Bahnbrechende Arbeiten zur Wahrscheinlichkeitstheorie auf metrischen Räumen (Sturm, 2002, 2003)
- Klassische Literatur zur Theorie monotoner Operatoren (Bauschke & Combettes, 2017)
- Verwandte Forschungen zu stochastischen Optimierungsalgorithmen
Dieses Paper ist theoretisch von großer Bedeutung und bietet eine strenge mathematische Grundlage für stochastische Optimierung in nichtlinearen Räumen, erfordert aber weitere Entwicklung in praktischen Anwendungen.