2025-11-10T02:58:05.695123

Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature

Pischke
We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
academic

Среднеквадратичная и линейная сходимость стохастического алгоритма проксимальной точки в метрических пространствах неположительной кривизны

Основная информация

  • ID статьи: 2510.10697
  • Название: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
  • Автор: Nicholas Pischke (University of Bath)
  • Классификация: math.OC (Оптимизация и управление), cs.LG (Машинное обучение)
  • Дата публикации: 14 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10697

Аннотация

В данной работе определяется стохастический вариант алгоритма проксимальной точки в общем нелинейном контексте сепарабельных пространств Адамара для аппроксимации нулевых точек средних значений стохастически возмущённых монотонных векторных полей. При надлежащих предположениях о сильной монотонности, вероятностной независимости и сепарабельности касательного пространства доказывается сходимость алгоритма. В качестве частного случая впервые обобщаются соответствующие результаты П. Бьянки из пространств Гильберта на многообразия Адамара. Доказательство сходимости полностью конструктивно и позволяет установить явные скорости сходимости итераций к единственному решению, включая сходимость в среднем и почти наверное. Эти скорости сходимости отличаются высокой универсальностью и не зависят от большинства данных об итерациях, пространстве или распределении.

Научный контекст и мотивация

  1. Решаемые проблемы:
    • Решение стохастических задач оптимизации в нелинейных метрических пространствах: minxXf(ξ,x)dμ(ξ)\min_{x \in X} \int f(\xi, x) d\mu(\xi)
    • Обобщение стохастического алгоритма проксимальной точки с пространств Гильберта на более общие метрические пространства неположительной кривизны
  2. Значимость проблемы:
    • Стохастическая аппроксимация является центральной задачей машинного обучения и оптимизации
    • Оптимизация на нелинейных пространствах широко применяется в машинном обучении (например, обучение на многообразиях)
    • Существующая теория в основном ограничена пространствами Гильберта, отсутствует теоретическая база для нелинейных пространств
  3. Ограничения существующих методов:
    • Работы Бьянки применимы только к пространствам Гильберта
    • Отсутствует анализ явных скоростей сходимости
    • Теория стохастических алгоритмов проксимальной точки в нелинейных пространствах неполна
  4. Научная мотивация:
    • Обобщить развитую теорию пространств Гильберта на пространства CAT(0) и многообразия Адамара
    • Предоставить явный и универсальный анализ скоростей сходимости
    • Установить теоретическую базу стохастической оптимизации в нелинейных пространствах

Основные вклады

  1. Теоретическое обобщение: впервые обобщен стохастический алгоритм проксимальной точки с пространств Гильберта на сепарабельные пространства Адамара
  2. Анализ сходимости: доказана сильная сходимость при предположении о сильной монотонности, включая сходимость в среднем и почти наверное
  3. Явные скорости сходимости: установлены высокоуниверсальные явные скорости сходимости, независимые от большинства параметров итераций
  4. Технические инновации: разработана теория стохастических монотонных векторных полей в метрических пространствах и интеграл Ауманна-Штурма
  5. Расширение приложений: охватывают пространства Гильберта и многообразия Адамара как частные случаи

Подробное описание методов

Постановка задачи

Дано вероятностное пространство (E,E,μ)(E, \mathcal{E}, \mu) и сепарабельное пространство Адамара XX. Рассматривается стохастическое монотонное векторное поле A:E×X2TXA: E \times X \to 2^{TX}, где A(s,x)TxXA(s, x) \subseteq T_x X. Цель состоит в нахождении нулевой точки среднего оператора Aˉ(x):=A(s,x)dμ(s)\bar{A}(x) := \int A(s, x) d\mu(s).

Архитектура алгоритма

Стохастический алгоритм проксимальной точки (SPPA): xn+1:=Jλn(ξn+1,xn)x_{n+1} := J_{\lambda_n}(\xi_{n+1}, x_n)

где:

  • x0Xx_0 \in X — начальная точка
  • (λn)(0,)(\lambda_n) \subseteq (0, \infty) — последовательность параметров, удовлетворяющая (λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+
  • (ξn+1)(\xi_{n+1}) — последовательность независимых одинаково распределённых случайных величин с распределением μ\mu
  • Jλ(s,x):={zX1λlogzxA(s,z)}J_\lambda(s, x) := \{z \in X | \frac{1}{\lambda}\log_z x \in A(s, z)\} — оператор разрешимости

Ключевые технические компоненты

  1. Геометрические структуры метрического пространства:
    • Пространства CAT(0): полные геодезические метрические пространства, удовлетворяющие условию неположительной кривизны
    • Касательное пространство TxXT_x X: построено через углы Александрова и евклидов конус
    • Квазивнутреннее произведение: gx(tγ,sη):=tscosx(γ,η)g_x(t\gamma, s\eta) := ts\cos\angle_x(\gamma, \eta)
  2. Монотонные векторные поля: Для (x,u),(y,v)A(x, u), (y, v) \in A выполняется: gx(u,logxy)gy(v,logyx)g_x(u, \log_x y) \leq -g_y(v, \log_y x)
    Сильная монотонность (параметр α>0\alpha > 0): gx(u,logxy)gy(v,logyx)αd2(x,y)g_x(u, \log_x y) \leq -g_y(v, \log_y x) - \alpha d^2(x, y)
  3. Аппроксимация Йосиды: Aλ(s,x):=1λlogJλ(s,x)xA_\lambda(s, x) := \frac{1}{\lambda}\log_{J_\lambda(s,x)} x

Технические инновации

  1. Теория вероятностей в метрических пространствах: использование теории интегралов Штурма для построения теории случайных величин на метрических пространствах
  2. Интеграл Ауманна-Штурма: обобщение интеграла Ауманна на многозначные отображения в метрических пространствах
  3. Стохастическая квазимонотонность Фейера: установление двух ключевых неравенств для контроля стохастического поведения итераций
  4. Предположение о независимости: введение условия En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0 для преодоления технических трудностей в нелинейных пространствах

Теоретический анализ

Ключевые предположения

  • (A0) Условие на параметры: (λn)+2+1(\lambda_n) \in \ell^2_+ \setminus \ell^1_+, (ξn+1)(\xi_{n+1}) независимы и одинаково распределены
  • (A1) Сильная монотонность: A(s,)A(s, \cdot) сильно монотонна с модулем α(s)>0\alpha(s) > 0, и αdμ>0\int \alpha d\mu > 0
  • (A2) Существование нулевой точки: существует единственная нулевая точка xZA(2)x^* \in ZA^{(2)}
  • (A3) Независимость: En[gx(ϕ(ξn+1),logxxn)]=0E_n[g_{x^*}(\phi^*(\xi_{n+1}), \log_{x^*} x_n)] = 0

Основные теоремы

Теорема 4.7 (Основной результат сходимости): При предположениях (A0)-(A3) стохастический алгоритм проксимальной точки удовлетворяет:

  1. Сходимость в среднем: E[d2(xn,x)]0E[d^2(x_n, x^*)] \to 0
  2. Почти наверное сходимость: d2(xn,x)0d^2(x_n, x^*) \to 0 п.н.
  3. Явная скорость сходимости: ε>0,nρ(ε):E[d2(xn,x)]<ε\forall \varepsilon > 0, \forall n \geq \rho(\varepsilon): E[d^2(x_n, x^*)] < \varepsilon где ρ(ε):=θ(χ(ε/2c),2D/ε)\rho(\varepsilon) := \theta(\chi(\varepsilon/2c), 2D/\varepsilon)

Теорема 4.11 (Быстрая скорость сходимости): При дополнительном предположении об ограниченности вторых моментов (A4) для λn=1/[α(n+2)]\lambda_n = 1/[\alpha(n+2)]: E[d2(xn,x)]un+2E[d^2(x_n, x^*)] \leq \frac{u}{n+2}

Приложения и частные случаи

Минимизация сильно выпуклых функций

Следствие 4.10: Для сильно выпуклой интегральной функции F(x):=f(s,x)dτ(s)F(x) := \int f(s, x) d\tau(s) алгоритм xn+1:=proxλnf(ξn+1,xn)x_{n+1} := \text{prox}^f_{\lambda_n}(\xi_{n+1}, x_n) сходится к точке минимума FF.

Применимые пространства

  1. Пространства Гильберта: как частный случай восстанавливаются исходные результаты Бьянки с новыми скоростями сходимости
  2. Многообразия Адамара: впервые установлена теория стохастического алгоритма проксимальной точки в этом контексте
  3. Другие пространства CAT(0): такие как пространства деревьев, некоторые метрические графы и т.д.

Ключевые моменты технического доказательства

Ключевые леммы

Лемма 4.1 (Стохастическая квазимонотонность Фейера I): En[d2(xn+1,x)]d2(xn,x)λn2(12β)En[Aλn(ξn+1,xn)xn+12]+λn2ϕx2dμ2βE_n[d^2(x_{n+1}, x^*)] \leq d^2(x_n, x^*) - \lambda_n^2(1-2\beta)E_n[\|A_{\lambda_n}(\xi_{n+1}, x_n)\|^2_{x_{n+1}}] + \frac{\lambda_n^2\int\|\phi^*\|^2_{x^*}d\mu}{2\beta}

Лемма 4.3 (Стохастическая квазимонотонность Фейера II): En[d2(xn+1,x)](1+2λn2)d2(xn,x)2λnαd2(xn,x)+λn2VnE_n[d^2(x_{n+1}, x^*)] \leq (1+2\lambda_n^2)d^2(x_n, x^*) - 2\lambda_n\alpha d^2(x_n, x^*) + \lambda_n^2 V_n

Стратегия доказательства

  1. Использование геометрических свойств квазивнутреннего произведения Берга-Николаева
  2. Применение сильной монотонности и свойства неположительной кривизны пространств CAT(0)
  3. Построение супермартингала и применение неравенства Виля
  4. Использование квантифицированной версии леммы Роббинса-Зигмунда

Связанные работы

  1. Bianchi (2016): стохастический алгоритм проксимальной точки в пространствах Гильберта
  2. Li, López, Martín-Márquez (2009): детерминированный алгоритм проксимальной точки на многообразиях Адамара
  3. Bačák (2013, 2018): алгоритмы проксимальной точки и стохастическая выпуклая минимизация в пространствах CAT(0)
  4. Chaipunya, Kohsaka, Kumam (2021): теория монотонных векторных полей в пространствах CAT(0)

Заключение и обсуждение

Основные выводы

  1. Успешно обобщен стохастический алгоритм проксимальной точки на метрические пространства неположительной кривизны
  2. Доказана сильная сходимость при предположении о сильной монотонности
  3. Предоставлены высокоуниверсальные явные скорости сходимости
  4. Установлена теоретическая база стохастической оптимизации в нелинейных пространствах

Ограничения

  1. Требуется предположение о сепарабельности касательного пространства, которое трудно проверить в общих пространствах CAT(0)
  2. Предположение о независимости (A3) ограничивает область применения, в основном применимо к касательным пространствам с плоской кривизной
  3. Скорость сходимости в общем случае экспоненциальна и относительно медленна
  4. Требуется предположение о сильной монотонности, что исключает многие практические приложения

Направления будущих исследований

  1. Исследование результатов слабой сходимости и ослабление предположения о сильной монотонности
  2. Обобщение быстрых скоростей сходимости на более общие контексты
  3. Исследование других стохастических алгоритмов оптимизации на нелинейных пространствах
  4. Изучение практических приложений, таких как задачи машинного обучения на многообразиях

Глубокая оценка

Преимущества

  1. Теоретическая инновация: впервые систематически обобщен стохастический алгоритм проксимальной точки на нелинейные пространства
  2. Техническая глубина: искусно объединены метрическая геометрия, теория вероятностей и теория оптимизации
  3. Полнота результатов: предоставлены качественный и количественный анализ сходимости
  4. Универсальность методов: применимо к различным важным геометрическим пространствам

Недостатки

  1. Ограничения предположений: предположения о независимости и сепарабельности ограничивают область применения
  2. Скорость сходимости: скорость сходимости в общем случае относительно медленна
  3. Отсутствие численных экспериментов: нет численных экспериментов для проверки теоретических результатов
  4. Практическая применимость: работа носит в основном теоретический характер, практические приложения требуют дальнейшей разработки

Влияние

  1. Научная ценность: предоставляет важную теоретическую базу для стохастической оптимизации в нелинейных пространствах
  2. Методологический вклад: демонстрирует, как обобщить теорию оптимизации линейных пространств на нелинейные контексты
  3. Основа для дальнейших исследований: создаёт базу для дальнейших исследований в смежных областях

Сценарии применения

  1. Задачи оптимизации на многообразиях Адамара
  2. Статистический вывод в пространствах деревьев
  3. Алгоритмы машинного обучения в пространствах неположительной кривизны
  4. Геометрическая статистика и анализ форм

Библиография

Статья цитирует 64 связанные работы, включая:

  • Основополагающие работы по теории пространств CAT(0) (Bridson & Haefliger, 1999)
  • Пионерские работы по теории вероятностей на метрических пространствах (Sturm, 2002, 2003)
  • Классические работы по теории монотонных операторов (Bauschke & Combettes, 2017)
  • Исследования связанных алгоритмов стохастической оптимизации

Данная работа имеет важное теоретическое значение, предоставляя строгую математическую базу для стохастической оптимизации в нелинейных пространствах, однако её практическое применение требует дальнейшей разработки.