Revisit First-order Methods for Geodesically Convex Optimization
Shu, Jiang, Shi et al.
In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma.
In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.
academic
Переосмотр методов первого порядка для геодезически выпуклой оптимизации
В данной статье переосмотрены методы первого порядка для геодезически выпуклой оптимизации. Чжан и Сра в своей новаторской работе всесторонне исследовали методы градиентного спуска для геодезически выпуклой оптимизации, в частности вывели сравнительные неравенства для итерационных точек в процессе оптимизации. В статье вводится концепция квазилинеаризации в область оптимизации и предлагается новая схема анализа геодезически выпуклой оптимизации. Используя эту технику, авторы устанавливают современные скорости сходимости для детерминированного и стохастического случаев при более слабых предположениях, чем ранее. Техника квазилинеаризации может быть полезна для других задач оптимизации в неевклидовых пространствах.
Ограничения существующих методов: Классический подход Чжана и Сра опирается на два сильных предположения:
(A1) Равномерная нижняя граница секционной кривизны (условие CBB)
(A2) Априорная верхняя граница диаметра траектории
Практические проблемы: Многие важные многообразия Адамара не удовлетворяют условию CBB, например искривленные произведения многообразий, кривизна которых может стремиться к минус бесконечности.
Основная задача: Как сохранить современные скорости сходимости при устранении предположений (A1) и (A2)?
Введение схемы квазилинеаризации: Впервые применена концепция квазилинеаризации Берга и Николаева к анализу задач оптимизации
Устранение сильных предположений: Установлены гарантии сходимости без требования нижней границы кривизны и предположения об ограниченной области
Детерминированная оптимизация: Достигнута скорость сходимости O(1/t) для геодезически выпуклых функций
Стохастическая оптимизация: Достигнута скорость сходимости Õ(1/√t) для гладких геодезически выпуклых функций
Теоретический прорыв: Получен положительный ответ на вопрос (Q), то есть возможно сохранить оптимальные скорости сходимости при более слабых предположениях
Теорема 1 (детерминированный случай): Пусть f — геодезически выпуклая функция на многообразии Адамара M. Проксимальный градиентный алгоритм удовлетворяет:
f(xt)−f(x∗)≤ηt∣x0x∗∣2
Теорема 2 (стохастический случай): При предположении ограниченной дисперсии стохастический проксимальный градиентный алгоритм с шагом ηt=2Lt1 удовлетворяет:
∑t=1Tαt1∑t=1Tαt(EF(xt)−F(x∗))≤2∑t=1Tαt∣x0x∗∣2+∑t=1Tαtσ2log(T+1)
Классические работы: Bonnabel (2013) и Zhang & Sra (2016) установили основную схему анализа
Последующие исследования: Множество работ пытались ослабить предположения, но ни одна полностью не решила вопрос (Q)
Техническое направление: Традиционные методы опираются на теорему сравнения треугольников Топоногова; данная статья открывает новый путь квазилинеаризации
Berg & Nikolaev (2008): исходная работа по квазилинеаризации
Zhang & Sra (2016): классический анализ геодезически выпуклой оптимизации
Bonnabel (2013): стохастический градиентный спуск на римановых многообразиях
Множество недавних работ по оптимизации на многообразиях Адамара
Общая оценка: Это высококачественная теоретическая статья, которая успешно решает важную открытую проблему в области геодезически выпуклой оптимизации путём введения техники квазилинеаризации. Несмотря на отсутствие численных экспериментов, её теоретический вклад значителен, и она предоставляет новую схему анализа и инструменты для оптимизации в неевклидовых пространствах.