2025-11-10T02:38:56.409187

Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems

Pasechnyuk-Vilensky, Kamzolov, TakÃ¡Ä

We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.

academic

Re³MCN: Кубический метод Ньютона + Редукция дисперсии + Момент + Квадратичная регуляризация для конечносуммовых невыпуклых задач

Основная информация

ID статьи: 2510.08714
Название: Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Авторы: Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, France), Martin Takáč (MBZUAI)
Классификация: math.OC (математическая оптимизация)
Дата публикации: 9 октября 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.08714

Аннотация

В статье предложен стохастический метод кубической регуляризации Ньютона для задач оптимизации конечной суммы $\min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$ , использующий технику рекурсивной редукции дисперсии типа SARAH с малыми мини-батчами размером $b \sim n^{1/2}$ и экспоненциальным скользящим средним (EMA) для оценки градиентов и матриц Гессе. Показано, что метод достигает точки второго порядка стационарности (SOSP) типа $(\varepsilon,\sqrt{L_2\varepsilon})$ в невыпуклом случае с числом обращений к стохастическому оракулу $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ , а в выпуклом случае — скорость сходимости $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}})$ .

Исследовательский контекст и мотивация

Основная проблема

Поиск точек второго порядка стационарности в невыпуклой оптимизации машинного обучения является центральной задачей. Обучение глубоких нейронных сетей, разложение тензоров и байесовский вывод обычно включают целевые функции, в которых методы первого порядка могут застревать в седловых точках.

Значимость проблемы

Выход из седловых точек: методы второго порядка используют информацию о кривизне для потенциального выхода из седловых точек
Вычислительные узкие места: вычислительная стоимость работы с точной матрицей Гессе слишком высока, особенно для крупномасштабных задач минимизации эмпирического риска с сложностью $O(nd^2)$
Теоретические гарантии: методы кубической регуляризации Ньютона (CRN) обеспечивают сильные гарантии сходимости для выхода из седловых точек на траектории оптимизации

Ограничения существующих методов

Существующие методы кубического Ньютона с редукцией дисперсии имеют следующие проблемы:

Плохая зависимость сложности: некоторые методы имеют неудовлетворительную зависимость от размерности и целевой точности
Неоптимальная сложность оракула: сложность обращений к оракулу градиента или Гессе не является оптимальной
Ограничения практичности: отсутствует анализ эффективных практических версий

Исследовательская мотивация

Интеграция техник редукции дисперсии с обновлениями второго порядка для разработки алгоритмов, обладающих как теоретическими гарантиями, так и практической эффективностью, особенно в высокомерных сценариях, избегая узкого места $O(d^2)$ .

Основные вклады

Разработка алгоритма: предложен алгоритм Re³MCN, объединяющий EMA-SARAH оценители для градиентов и Гессе, а также решатель подзадач без матриц на основе оценителя Хатчинсона
Теоретические гарантии: доказано, что Re³MCN достигает точку $(\varepsilon,\sqrt{L\varepsilon})$ -SOSP в невыпуклом случае с числом обращений к оракулу $\tilde{O}(n+n^{1/2}\varepsilon^{-3/2})$ , а в выпуклом случае — скорость сходимости $\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}})$
Практическая эффективность: разработка алгоритма, применимого к высокомерным задачам, с решателем внутренних подзадач без матриц, избегающим узкого места $O(d^2)$
Реализуемость: проведены численные эксперименты сравнения существующих методов кубического Ньютона с редукцией дисперсии, реализованные как часть пакета OPTAMI

Подробное описание метода

Постановка задачи и предположения

Задача оптимизации: $F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)$

Основные предположения:

(A1) Гладкость второго порядка: матрица Гессе липшицева непрерывна с константой $L_2 > 0$
(A2) Ограниченность: матрица Гессе равномерно ограничена на траектории алгоритма
(A3-A5) Ограниченность дисперсии: стохастические оракулы имеют ограниченную дисперсию

Архитектура алгоритма

Основные компоненты алгоритма Re³MCN:

График весов EMA: $\alpha_t = c(t+1)^{-1/2}$ , где $c \in (0,1/2]$
Обновление SARAH:
- Градиент: $\Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})]$
- Гессе: $\Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})]$
Агрегация EMA:
- $g_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t$
- $H_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t$
Кубическая подзадача: $m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3$

Технические инновации

Комбинация EMA-SARAH: впервые объединены экспоненциальное скользящее среднее и техника редукции дисперсии SARAH для более стабильных оценок
Адаптивная квадратичная регуляризация:
- Выпуклый случай: $\beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1)$
- Невыпуклый случай: введение фиксированного проксимального квадратичного члена для улучшения агрегации шума
Реализация без матриц: использование оценителя Хатчинсона для произведения Гессе на вектор, избегая явного хранения матрицы Гессе

Теоретическая схема анализа

Граница одношагового спуска: $E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}]$

Главное неравенство: агрегация членов дисперсии через неравенство BDG дает: $\frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}]$

Экспериментальная установка

Теоретическая верификация

Статья в основном предоставляет теоретический анализ, проверяемый следующим образом:

Анализ сложности: детальный вывод границ сложности оракула
Доказательство сходимости: строгое доказательство свойств сходимости алгоритма
Выбор параметров: теоретическое руководство по оптимальному выбору параметров

Детали реализации

Размер батча: $b = \lceil n^{1/2} \rceil$

Длина эпохи:

Без регуляризации: $T_{max} = \Theta(n^{1/3})$
С регуляризацией: $T_{max} = \Theta(n^{3/5})$

Внутренний решатель: использование метода секущих с бинарным поиском + усеченный метод сопряженных градиентов для решения кубической подзадачи

Результаты экспериментов

Основные теоретические результаты

Теорема 8.3 (сложность в невыпуклом случае): При предположениях (A1)-(A5) алгоритм Re³MCN возвращает $(\varepsilon,\sqrt{L_2\varepsilon})$ -SOSP с общей сложностью оракула: $G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$

Теорема 6.1 (скорость сходимости в выпуклом случае): Предположим, что $F$ — выпуклая функция, алгоритм достигает скорость сходимости: $E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}}$

Сравнение сложности

По сравнению с существующими методами:

Улучшенная зависимость от $n$ : улучшение с $n^{5/6}$ или $n^{4/5}$ до $n^{1/2}$
Оптимальная зависимость от $\varepsilon$ : достижение оптимальной скорости $\varepsilon^{-3/2}$
Единая схема: одновременная обработка выпуклых и невыпуклых случаев

Связанные работы

Методы кубической регуляризации Ньютона

Nesterov & Polyak (2006): детерминированный метод CRN
Различные стохастические варианты: развитие методов SCRN

Техники редукции дисперсии

Метод SARAH: основа рекурсивной редукции дисперсии
Методы типа SPIDER: оценители разностей интегральных путей

Стохастические методы второго порядка

Применение методов редукции дисперсии Ньютона для сильно выпуклых функций
Применение VR-CN в оптимизации стратегий

Заключение и обсуждение

Основные выводы

Теоретический прорыв: впервые достигнута сложность оракула $n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})$ в невыпуклой оптимизации конечной суммы
Технические инновации: комбинация EMA-SARAH обеспечивает более стабильную редукцию дисперсии
Практичность: оценитель Хатчинсона делает метод применимым к высокомерным задачам

Ограничения

Теоретические предположения: требуется липшицева непрерывность и ограниченность матрицы Гессе
Настройка параметров: требуется надлежащий выбор нескольких гиперпараметров
Экспериментальная верификация: в основном предоставляется теоретический анализ, отсутствует крупномасштабная эмпирическая верификация

Будущие направления

Адаптивный выбор параметров: разработка методов адаптивного выбора весов EMA и параметров регуляризации
Более слабые предположения: ослабление предположений о свойствах матрицы Гессе
Практические приложения: верификация эффективности метода на практических задачах, таких как глубокое обучение

Глубокая оценка

Преимущества

Теоретическая строгость: полный анализ сходимости и границы сложности
Технические инновации: комбинация EMA и SARAH является новым техническим вкладом
Практические соображения: оценитель Хатчинсона и быстрый внутренний решатель повышают практичность
Единая схема: одновременная обработка выпуклых и невыпуклых случаев

Недостатки

Отсутствие экспериментов: недостаток эмпирического сравнения с существующими методами
Ограничения предположений: некоторые предположения могут не выполняться на практических задачах
Зависимость от констант: константы в теоретических границах могут быть значительными

Влияние

Теоретический вклад: значительный прогресс в теории стохастической оптимизации второго порядка
Методологическая ценность: техника EMA-SARAH может вдохновить разработку других алгоритмов
Практический потенциал: предоставляет новые инструменты для крупномасштабной невыпуклой оптимизации

Применимые сценарии

Крупномасштабное машинное обучение: особенно невыпуклые задачи, требующие выхода из седловых точек
Глубокое обучение: оптимизация второго порядка при обучении нейронных сетей
Научные вычисления: задачи оптимизации, требующие высокой точности решения

Библиография

Статья цитирует 15 связанных работ, охватывающих основные исследования в области методов кубической регуляризации, техник редукции дисперсии и стохастической оптимизации второго порядка, обеспечивая прочную теоретическую основу для данного исследования.

Общая оценка: это статья с важными теоретическими вкладами в область стохастической оптимизации второго порядка. Путем умелого объединения техник EMA и SARAH достигнуты лучшие на данный момент границы сложности оракула. Хотя отсутствует экспериментальная верификация, теоретический анализ строг, технические инновации явны, и работа оказывает важное влияние на развитие данной области.