Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Pasechnyuk-Vilensky, Kamzolov, TakáÄ
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic
Re³MCN: Кубический метод Ньютона + Редукция дисперсии + Момент + Квадратичная регуляризация для конечносуммовых невыпуклых задач
В статье предложен стохастический метод кубической регуляризации Ньютона для задач оптимизации конечной суммы minx∈RdF(x)=n1∑i=1nfi(x), использующий технику рекурсивной редукции дисперсии типа SARAH с малыми мини-батчами размером b∼n1/2 и экспоненциальным скользящим средним (EMA) для оценки градиентов и матриц Гессе. Показано, что метод достигает точки второго порядка стационарности (SOSP) типа (ε,L2ε) в невыпуклом случае с числом обращений к стохастическому оракулу n+O~(n1/2ε−3/2), а в выпуклом случае — скорость сходимости O~(T2LR3+T2σ2R2+Tσ1R).
Поиск точек второго порядка стационарности в невыпуклой оптимизации машинного обучения является центральной задачей. Обучение глубоких нейронных сетей, разложение тензоров и байесовский вывод обычно включают целевые функции, в которых методы первого порядка могут застревать в седловых точках.
Выход из седловых точек: методы второго порядка используют информацию о кривизне для потенциального выхода из седловых точек
Вычислительные узкие места: вычислительная стоимость работы с точной матрицей Гессе слишком высока, особенно для крупномасштабных задач минимизации эмпирического риска с сложностью O(nd2)
Теоретические гарантии: методы кубической регуляризации Ньютона (CRN) обеспечивают сильные гарантии сходимости для выхода из седловых точек на траектории оптимизации
Интеграция техник редукции дисперсии с обновлениями второго порядка для разработки алгоритмов, обладающих как теоретическими гарантиями, так и практической эффективностью, особенно в высокомерных сценариях, избегая узкого места O(d2).
Разработка алгоритма: предложен алгоритм Re³MCN, объединяющий EMA-SARAH оценители для градиентов и Гессе, а также решатель подзадач без матриц на основе оценителя Хатчинсона
Теоретические гарантии: доказано, что Re³MCN достигает точку (ε,Lε)-SOSP в невыпуклом случае с числом обращений к оракулу O~(n+n1/2ε−3/2), а в выпуклом случае — скорость сходимости O~(T2LR3+T2σ2R2+Tσ1R)
Практическая эффективность: разработка алгоритма, применимого к высокомерным задачам, с решателем внутренних подзадач без матриц, избегающим узкого места O(d2)
Реализуемость: проведены численные эксперименты сравнения существующих методов кубического Ньютона с редукцией дисперсии, реализованные как часть пакета OPTAMI
Теорема 8.3 (сложность в невыпуклом случае):
При предположениях (A1)-(A5) алгоритм Re³MCN возвращает (ε,L2ε)-SOSP с общей сложностью оракула:
G=H≤n+O~(n1/2ε−3/2)
Теорема 6.1 (скорость сходимости в выпуклом случае):
Предположим, что F — выпуклая функция, алгоритм достигает скорость сходимости:
E[F(xT)−F∗]≤(T+1)2C1L2R3+Cββ0R2+T+1C3σ1R
Статья цитирует 15 связанных работ, охватывающих основные исследования в области методов кубической регуляризации, техник редукции дисперсии и стохастической оптимизации второго порядка, обеспечивая прочную теоретическую основу для данного исследования.
Общая оценка: это статья с важными теоретическими вкладами в область стохастической оптимизации второго порядка. Путем умелого объединения техник EMA и SARAH достигнуты лучшие на данный момент границы сложности оракула. Хотя отсутствует экспериментальная верификация, теоретический анализ строг, технические инновации явны, и работа оказывает важное влияние на развитие данной области.