We define a stochastic variant of the proximal point algorithm in the general setting of nonlinear (separable) Hadamard spaces for approximating zeros of the mean of a stochastically perturbed monotone vector field and prove its convergence under a suitable strong monotonicity assumption, together with a probabilistic independence assumption and a separability assumption on the tangent spaces. As a particular case, our results transfer previous work by P. Bianchi on that method in Hilbert spaces for the first time to Hadamard manifolds. Moreover, our convergence proof is fully effective and allows for the construction of explicit rates of convergence for the iteration towards the (unique) solution both in mean and almost surely. These rates are moreover highly uniform, being independent of most data surrounding the iteration, space or distribution. In that generality, these rates are novel already in the context of Hilbert spaces. Linear nonasymptotic guarantees under additional second-moment conditions on the Yosida approximates and special cases of stochastic convex minimization are discussed.
- ID статьи: 2510.10697
- Название: Mean-square and linear convergence of a stochastic proximal point algorithm in metric spaces of nonpositive curvature
- Автор: Nicholas Pischke (University of Bath)
- Классификация: math.OC (Оптимизация и управление), cs.LG (Машинное обучение)
- Дата публикации: 14 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.10697
В данной работе определяется стохастический вариант алгоритма проксимальной точки в общем нелинейном контексте сепарабельных пространств Адамара для аппроксимации нулевых точек средних значений стохастически возмущённых монотонных векторных полей. При надлежащих предположениях о сильной монотонности, вероятностной независимости и сепарабельности касательного пространства доказывается сходимость алгоритма. В качестве частного случая впервые обобщаются соответствующие результаты П. Бьянки из пространств Гильберта на многообразия Адамара. Доказательство сходимости полностью конструктивно и позволяет установить явные скорости сходимости итераций к единственному решению, включая сходимость в среднем и почти наверное. Эти скорости сходимости отличаются высокой универсальностью и не зависят от большинства данных об итерациях, пространстве или распределении.
- Решаемые проблемы:
- Решение стохастических задач оптимизации в нелинейных метрических пространствах: minx∈X∫f(ξ,x)dμ(ξ)
- Обобщение стохастического алгоритма проксимальной точки с пространств Гильберта на более общие метрические пространства неположительной кривизны
- Значимость проблемы:
- Стохастическая аппроксимация является центральной задачей машинного обучения и оптимизации
- Оптимизация на нелинейных пространствах широко применяется в машинном обучении (например, обучение на многообразиях)
- Существующая теория в основном ограничена пространствами Гильберта, отсутствует теоретическая база для нелинейных пространств
- Ограничения существующих методов:
- Работы Бьянки применимы только к пространствам Гильберта
- Отсутствует анализ явных скоростей сходимости
- Теория стохастических алгоритмов проксимальной точки в нелинейных пространствах неполна
- Научная мотивация:
- Обобщить развитую теорию пространств Гильберта на пространства CAT(0) и многообразия Адамара
- Предоставить явный и универсальный анализ скоростей сходимости
- Установить теоретическую базу стохастической оптимизации в нелинейных пространствах
- Теоретическое обобщение: впервые обобщен стохастический алгоритм проксимальной точки с пространств Гильберта на сепарабельные пространства Адамара
- Анализ сходимости: доказана сильная сходимость при предположении о сильной монотонности, включая сходимость в среднем и почти наверное
- Явные скорости сходимости: установлены высокоуниверсальные явные скорости сходимости, независимые от большинства параметров итераций
- Технические инновации: разработана теория стохастических монотонных векторных полей в метрических пространствах и интеграл Ауманна-Штурма
- Расширение приложений: охватывают пространства Гильберта и многообразия Адамара как частные случаи
Дано вероятностное пространство (E,E,μ) и сепарабельное пространство Адамара X. Рассматривается стохастическое монотонное векторное поле A:E×X→2TX, где A(s,x)⊆TxX. Цель состоит в нахождении нулевой точки среднего оператора Aˉ(x):=∫A(s,x)dμ(s).
Стохастический алгоритм проксимальной точки (SPPA):
xn+1:=Jλn(ξn+1,xn)
где:
- x0∈X — начальная точка
- (λn)⊆(0,∞) — последовательность параметров, удовлетворяющая (λn)∈ℓ+2∖ℓ+1
- (ξn+1) — последовательность независимых одинаково распределённых случайных величин с распределением μ
- Jλ(s,x):={z∈X∣λ1logzx∈A(s,z)} — оператор разрешимости
- Геометрические структуры метрического пространства:
- Пространства CAT(0): полные геодезические метрические пространства, удовлетворяющие условию неположительной кривизны
- Касательное пространство TxX: построено через углы Александрова и евклидов конус
- Квазивнутреннее произведение: gx(tγ,sη):=tscos∠x(γ,η)
- Монотонные векторные поля:
Для (x,u),(y,v)∈A выполняется:
gx(u,logxy)≤−gy(v,logyx)
Сильная монотонность (параметр α>0):
gx(u,logxy)≤−gy(v,logyx)−αd2(x,y) - Аппроксимация Йосиды:
Aλ(s,x):=λ1logJλ(s,x)x
- Теория вероятностей в метрических пространствах: использование теории интегралов Штурма для построения теории случайных величин на метрических пространствах
- Интеграл Ауманна-Штурма: обобщение интеграла Ауманна на многозначные отображения в метрических пространствах
- Стохастическая квазимонотонность Фейера: установление двух ключевых неравенств для контроля стохастического поведения итераций
- Предположение о независимости: введение условия En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0 для преодоления технических трудностей в нелинейных пространствах
- (A0) Условие на параметры: (λn)∈ℓ+2∖ℓ+1, (ξn+1) независимы и одинаково распределены
- (A1) Сильная монотонность: A(s,⋅) сильно монотонна с модулем α(s)>0, и ∫αdμ>0
- (A2) Существование нулевой точки: существует единственная нулевая точка x∗∈ZA(2)
- (A3) Независимость: En[gx∗(ϕ∗(ξn+1),logx∗xn)]=0
Теорема 4.7 (Основной результат сходимости):
При предположениях (A0)-(A3) стохастический алгоритм проксимальной точки удовлетворяет:
- Сходимость в среднем: E[d2(xn,x∗)]→0
- Почти наверное сходимость: d2(xn,x∗)→0 п.н.
- Явная скорость сходимости:
∀ε>0,∀n≥ρ(ε):E[d2(xn,x∗)]<ε
где ρ(ε):=θ(χ(ε/2c),2D/ε)
Теорема 4.11 (Быстрая скорость сходимости):
При дополнительном предположении об ограниченности вторых моментов (A4) для λn=1/[α(n+2)]:
E[d2(xn,x∗)]≤n+2u
Следствие 4.10: Для сильно выпуклой интегральной функции F(x):=∫f(s,x)dτ(s) алгоритм xn+1:=proxλnf(ξn+1,xn) сходится к точке минимума F.
- Пространства Гильберта: как частный случай восстанавливаются исходные результаты Бьянки с новыми скоростями сходимости
- Многообразия Адамара: впервые установлена теория стохастического алгоритма проксимальной точки в этом контексте
- Другие пространства CAT(0): такие как пространства деревьев, некоторые метрические графы и т.д.
Лемма 4.1 (Стохастическая квазимонотонность Фейера I):
En[d2(xn+1,x∗)]≤d2(xn,x∗)−λn2(1−2β)En[∥Aλn(ξn+1,xn)∥xn+12]+2βλn2∫∥ϕ∗∥x∗2dμ
Лемма 4.3 (Стохастическая квазимонотонность Фейера II):
En[d2(xn+1,x∗)]≤(1+2λn2)d2(xn,x∗)−2λnαd2(xn,x∗)+λn2Vn
- Использование геометрических свойств квазивнутреннего произведения Берга-Николаева
- Применение сильной монотонности и свойства неположительной кривизны пространств CAT(0)
- Построение супермартингала и применение неравенства Виля
- Использование квантифицированной версии леммы Роббинса-Зигмунда
- Bianchi (2016): стохастический алгоритм проксимальной точки в пространствах Гильберта
- Li, López, Martín-Márquez (2009): детерминированный алгоритм проксимальной точки на многообразиях Адамара
- Bačák (2013, 2018): алгоритмы проксимальной точки и стохастическая выпуклая минимизация в пространствах CAT(0)
- Chaipunya, Kohsaka, Kumam (2021): теория монотонных векторных полей в пространствах CAT(0)
- Успешно обобщен стохастический алгоритм проксимальной точки на метрические пространства неположительной кривизны
- Доказана сильная сходимость при предположении о сильной монотонности
- Предоставлены высокоуниверсальные явные скорости сходимости
- Установлена теоретическая база стохастической оптимизации в нелинейных пространствах
- Требуется предположение о сепарабельности касательного пространства, которое трудно проверить в общих пространствах CAT(0)
- Предположение о независимости (A3) ограничивает область применения, в основном применимо к касательным пространствам с плоской кривизной
- Скорость сходимости в общем случае экспоненциальна и относительно медленна
- Требуется предположение о сильной монотонности, что исключает многие практические приложения
- Исследование результатов слабой сходимости и ослабление предположения о сильной монотонности
- Обобщение быстрых скоростей сходимости на более общие контексты
- Исследование других стохастических алгоритмов оптимизации на нелинейных пространствах
- Изучение практических приложений, таких как задачи машинного обучения на многообразиях
- Теоретическая инновация: впервые систематически обобщен стохастический алгоритм проксимальной точки на нелинейные пространства
- Техническая глубина: искусно объединены метрическая геометрия, теория вероятностей и теория оптимизации
- Полнота результатов: предоставлены качественный и количественный анализ сходимости
- Универсальность методов: применимо к различным важным геометрическим пространствам
- Ограничения предположений: предположения о независимости и сепарабельности ограничивают область применения
- Скорость сходимости: скорость сходимости в общем случае относительно медленна
- Отсутствие численных экспериментов: нет численных экспериментов для проверки теоретических результатов
- Практическая применимость: работа носит в основном теоретический характер, практические приложения требуют дальнейшей разработки
- Научная ценность: предоставляет важную теоретическую базу для стохастической оптимизации в нелинейных пространствах
- Методологический вклад: демонстрирует, как обобщить теорию оптимизации линейных пространств на нелинейные контексты
- Основа для дальнейших исследований: создаёт базу для дальнейших исследований в смежных областях
- Задачи оптимизации на многообразиях Адамара
- Статистический вывод в пространствах деревьев
- Алгоритмы машинного обучения в пространствах неположительной кривизны
- Геометрическая статистика и анализ форм
Статья цитирует 64 связанные работы, включая:
- Основополагающие работы по теории пространств CAT(0) (Bridson & Haefliger, 1999)
- Пионерские работы по теории вероятностей на метрических пространствах (Sturm, 2002, 2003)
- Классические работы по теории монотонных операторов (Bauschke & Combettes, 2017)
- Исследования связанных алгоритмов стохастической оптимизации
Данная работа имеет важное теоретическое значение, предоставляя строгую математическую базу для стохастической оптимизации в нелинейных пространствах, однако её практическое применение требует дальнейшей разработки.