2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos

We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.

academic

Нелинейно предобусловленные методы градиента: анализ импульса и стохастики

Основная информация

ID статьи: 2510.11312
Название: Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
Авторы: Константинос Ойкономидис, Ян Куан, Панайотис Патринос (KU Leuven)
Классификация: math.OC (Оптимизация и управление)
Конференция: 39-я конференция по системам обработки нейронной информации (NeurIPS 2025)
Ссылка на статью: https://arxiv.org/abs/2510.11312

Аннотация

В данной работе исследуются нелинейно предобусловленные методы градиента для гладких невыпуклых задач оптимизации с акцентом на сигмоидные предобусловливатели, которые по существу реализуют широко используемую технику обрезания градиента. На основе этой идеи авторы вводят новый алгоритм типа тяжелого шара и предоставляют гарантии сходимости при более слабых условиях обобщённой гладкости, чем традиционное ограничение липшицевой гладкости, охватывая таким образом более широкий класс функций. Кроме того, авторы разрабатывают стохастические варианты базового метода и исследуют свойства сходимости при различных предположениях о шуме.

Исследовательский контекст и мотивация

Проблема, которую необходимо решить: Традиционные методы градиентного спуска (GD) и стохастического градиентного спуска (SGD) требуют осторожной настройки параметров или дорогостоящих процедур линейного поиска при работе с современными приложениями машинного обучения, которые не удовлетворяют предположению о глобальной липшицевой гладкости градиента.
Важность проблемы: Большинство функций стоимости в современных приложениях глубокого обучения не удовлетворяют традиционному предположению о липшицевой гладкости градиента, а техники обрезания градиента стали стандартной практикой в задачах, таких как языковые модели, для стабилизации обучения нейронных сетей.
Ограничения существующих методов:
- Стандартные методы GD/SGD испытывают трудности с конвергенцией при работе с задачами, выходящими за рамки липшицевой гладкости
- Теоретический анализ существующих методов обрезания градиента в основном ограничен специфическими условиями гладкости
- Отсутствует анализ методов импульса в более общих условиях
Исследовательская мотивация: Объединить методы обрезания градиента в единую структуру нелинейного предобусловливания и расширить анализ на более общую теорию, включающую варианты с импульсом и стохастические варианты.

Основные вклады

Расширение методов анизотропного градиентного спуска: Путём добавления импульса тяжелого шара к базовой итерации исследуются гарантии сходимости в общей невыпуклой постановке.
Предложение стохастических расширений: Анализ стохастических версий базового метода при различных предположениях о шуме, включая условия более слабые, чем ограниченная дисперсия.
Вклады в теоретический анализ:
- Доказательство сходимости алгоритма с импульсом при анизотропном неравенстве спуска
- Доказательство линейной скорости сходимости при обобщённом условии Поляка-Лоясиева
- Анализ стохастических методов при новых предположениях о шуме
Экспериментальная верификация: Демонстрация хорошей производительности предложенного метода на различных задачах машинного обучения, включая обучение нейронных сетей и матричную факторизацию.

Подробное описание метода

Постановка задачи

Рассмотрим общую задачу минимизации: $\min_{x \in \mathbb{R}^n} f(x)$ где $f: \mathbb{R}^n \to \mathbb{R}$ — гладкая и потенциально невыпуклая функция.

Основная структура: нелинейно предобусловленные методы градиента

Базовый метод: $x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))$

где $\phi: \mathbb{R}^n \to \mathbb{R}$ — выпуклая функция-ориентир, $\phi^*$ — её выпуклое сопряжение, а $\nabla \phi^*$ генерирует предобусловливатель.

Ключевая идея: Путём выбора сильно выпуклой функции-ориентира $\phi$ с ограниченной областью отображение $\nabla \phi^*$ переводит $\mathbb{R}^n$ в единичный $n$ -шар, естественным образом реализуя обрезание градиента.

Алгоритм 1: нелинейно предобусловленный метод градиента с импульсом (m-NPGM)

Вход: выбрать x⁰ ∈ ℝⁿ, γ, β > 0, установить m⁻¹ = 0ⁿ
Повторять k = 0, 1, ... до сходимости:
1. Вычислить mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Вычислить xᵏ⁺¹ = xᵏ - γmᵏ

Эквивалентная форма: $x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})$

Анизотропное неравенство спуска

Определение: Функция $f$ удовлетворяет свойству анизотропного спуска относительно $\phi$ , если для всех $x, \bar{x} \in \mathbb{R}^n$ : $f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y})$ где $\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))$ .

Технические инновации

Конструкция импульса: В отличие от стандартных методов, импульс в данной работе состоит из выпуклой комбинации предобусловленных градиентов, а не из предварительной агрегации градиентов с последующим предобусловливанием.
Обобщённая гладкость: Анизотропная гладкость накладывает менее строгие ограничения, чем $(L_0, L_1)$ -гладкость, охватывая более широкий класс функций.
Единая структура анализа: Основана на выпуклости функции-ориентира $\phi$ и обеспечивает единообразный анализ сходимости.

Теоретические результаты

Основные теоремы сходимости

Теорема 2.2: При условии анизотропной гладкости, для $\beta \in [0, 0.5)$ и $\gamma = \alpha/L$ , $\alpha \leq 1$ : $\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}$

Теорема 2.4: При обобщённом условии Поляка-Лоясиева для 2-однородной функции-ориентира: $f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*)$ где $\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}$ .

Анализ стохастических методов

Теорема 3.1: При условии на шум $\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2$ : $\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2$

Экспериментальная установка

Наборы данных

MNIST: классификация рукописных цифр с использованием двухслойной полносвязной сети
CIFAR-10/100: классификация изображений с использованием архитектур ResNet-18/34
MovieLens 100K: задача матричной факторизации
Восстановление фазы: невыпуклая задача оптимизации

Метрики оценки

Скорость сходимости функции потерь обучения
Точность на тестовом наборе
Норма градиента $\|\nabla f(x^k)\|$

Методы сравнения

SGD/SGDm: стандартный стохастический градиентный спуск и его вариант с импульсом
Adam: метод с адаптивной скоростью обучения
GD/GDm: стандартный градиентный спуск и его вариант с импульсом
AdGD-accel: ускоренный вариант адаптивного метода градиента

Детали реализации

Использование фиксированного размера шага
Гиперболический градиентный спуск (HGD): $\phi(x) = \cosh(\|x\|) - 1$
Разделённый вариант: $\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1$

Результаты экспериментов

Основные результаты

Классификация MNIST: iHGD быстро достигает малых потерь обучения с производительностью, превосходящей SGD и Adam
Классификация CIFAR-10: предложенный метод показывает сравнимую производительность с SGD и SGDm, которые являются современными методами для этой задачи
Матричная факторизация: iHGDm значительно превосходит другие методы и демонстрирует большую стабильность при различных случайных инициализациях
Восстановление фазы: sHGD показывает производительность, аналогичную методам с обрезанием градиента

Ключевые находки

Адаптивный размер шага: Для функций-ориентиров, растущих быстрее, чем квадратично, предобусловливатель естественным образом принимает сигмоидную форму, обеспечивая неявное правило адаптивного размера шага.
Стабильность: На невыпуклых задачах, таких как матричная факторизация, предложенный метод демонстрирует лучшую стабильность.
Широкая применимость: Метод показывает хорошую производительность на различных типах задач машинного обучения.

Связанные работы

Двойственное предобусловливание/анизотропный градиентный спуск

Первоначально введено в 32 для выпуклых существенно гладких задач
Анизотропное неравенство спуска введено в 24
В 36 показано, что метод включает множество популярных алгоритмов

Обрезание градиента и обобщённая гладкость

Концепция $(L_0, L_1)$ -гладкости введена в 48
Анализ общей структуры обрезания с импульсом в 47
Множество работ посвящено исследованию таких методов при ослабленных предположениях о шуме и гладкости

Заключение и обсуждение

Основные выводы

Успешное расширение методов анизотропного градиентного спуска на случай включения импульса тяжелого шара
Предоставление гарантий сходимости при условиях менее строгих, чем традиционная липшицева гладкость
Разработка стохастических версий и анализ при новых предположениях о шуме
Экспериментальная верификация эффективности метода на различных задачах машинного обучения

Ограничения

Параметр импульса ограничен $\beta \in [0, 0.5)$ , не может быть расширен на $\beta \in [0, 1)$
Предположение о липшицевой непрерывности предобусловливателя более строго, чем анизотропная гладкость
Отсутствует полный анализ стохастического метода с импульсом

Направления будущих исследований

Единообразный анализ алгоритмов с импульсом при ослабленных предположениях о функции-ориентире
Расширение на произвольные $\beta \in [0, 1)$ для параметра импульса
Расширение полных алгоритмов типа проксимального градиента на случай включения импульса
Удаление зависимости от размера пакета для стохастических алгоритмов и включение импульса

Глубокая оценка

Преимущества

Теоретическая инновация: Первый анализ метода с импульсом при условии анизотропной гладкости
Единая структура: Объединение методов обрезания градиента и других методов в единую структуру нелинейного предобусловливания
Практическая ценность: Метод показывает хорошую производительность на реальных задачах машинного обучения
Глубина анализа: Полный теоретический анализ в детерминированном и стохастическом случаях

Недостатки

Ограничения параметров: Ограничение параметра импульса ( $\beta < 0.5$ ) более строго, чем в стандартном анализе
Сила предположений: Некоторые теоретические результаты требуют дополнительных технических предположений
Диапазон экспериментов: Эксперименты сосредоточены в основном на стандартных задачах машинного обучения, отсутствует проверка на более широком спектре приложений

Влияние

Теоретический вклад: Предоставление новых инструментов и идей для теоретического анализа нелинейно предобусловленных методов
Практическая ценность: Новый метод для решения задач оптимизации, выходящих за рамки стандартного предположения о гладкости
Воспроизводимость: Авторы предоставляют открытую реализацию кода

Сценарии применения

Обучение нейронных сетей, особенно в случаях, когда градиенты могут быть большими
Невыпуклые задачи оптимизации, такие как матричная факторизация
Приложения, требующие обрезания или нормализации градиента
Задачи оптимизации, выходящие за рамки стандартной липшицевой гладкости

Библиография

Статья содержит 48 ссылок, охватывающих важные работы в области теории оптимизации, машинного обучения и численных методов, обеспечивая прочную теоретическую основу для исследования.