Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic
Нелинейно предобусловленные методы градиента: анализ импульса и стохастики
В данной работе исследуются нелинейно предобусловленные методы градиента для гладких невыпуклых задач оптимизации с акцентом на сигмоидные предобусловливатели, которые по существу реализуют широко используемую технику обрезания градиента. На основе этой идеи авторы вводят новый алгоритм типа тяжелого шара и предоставляют гарантии сходимости при более слабых условиях обобщённой гладкости, чем традиционное ограничение липшицевой гладкости, охватывая таким образом более широкий класс функций. Кроме того, авторы разрабатывают стохастические варианты базового метода и исследуют свойства сходимости при различных предположениях о шуме.
Проблема, которую необходимо решить: Традиционные методы градиентного спуска (GD) и стохастического градиентного спуска (SGD) требуют осторожной настройки параметров или дорогостоящих процедур линейного поиска при работе с современными приложениями машинного обучения, которые не удовлетворяют предположению о глобальной липшицевой гладкости градиента.
Важность проблемы: Большинство функций стоимости в современных приложениях глубокого обучения не удовлетворяют традиционному предположению о липшицевой гладкости градиента, а техники обрезания градиента стали стандартной практикой в задачах, таких как языковые модели, для стабилизации обучения нейронных сетей.
Ограничения существующих методов:
Стандартные методы GD/SGD испытывают трудности с конвергенцией при работе с задачами, выходящими за рамки липшицевой гладкости
Теоретический анализ существующих методов обрезания градиента в основном ограничен специфическими условиями гладкости
Отсутствует анализ методов импульса в более общих условиях
Исследовательская мотивация: Объединить методы обрезания градиента в единую структуру нелинейного предобусловливания и расширить анализ на более общую теорию, включающую варианты с импульсом и стохастические варианты.
Расширение методов анизотропного градиентного спуска: Путём добавления импульса тяжелого шара к базовой итерации исследуются гарантии сходимости в общей невыпуклой постановке.
Предложение стохастических расширений: Анализ стохастических версий базового метода при различных предположениях о шуме, включая условия более слабые, чем ограниченная дисперсия.
Вклады в теоретический анализ:
Доказательство сходимости алгоритма с импульсом при анизотропном неравенстве спуска
Доказательство линейной скорости сходимости при обобщённом условии Поляка-Лоясиева
Анализ стохастических методов при новых предположениях о шуме
Экспериментальная верификация: Демонстрация хорошей производительности предложенного метода на различных задачах машинного обучения, включая обучение нейронных сетей и матричную факторизацию.
где ϕ:Rn→R — выпуклая функция-ориентир, ϕ∗ — её выпуклое сопряжение, а ∇ϕ∗ генерирует предобусловливатель.
Ключевая идея: Путём выбора сильно выпуклой функции-ориентира ϕ с ограниченной областью отображение ∇ϕ∗ переводит Rn в единичный n-шар, естественным образом реализуя обрезание градиента.
Определение: Функция f удовлетворяет свойству анизотропного спуска относительно ϕ, если для всех x,xˉ∈Rn:
f(x)≤f(xˉ)+L1⋆ϕ(x−yˉ)−L1⋆ϕ(xˉ−yˉ)
где yˉ=xˉ−L1∇ϕ∗(∇f(xˉ)).
Конструкция импульса: В отличие от стандартных методов, импульс в данной работе состоит из выпуклой комбинации предобусловленных градиентов, а не из предварительной агрегации градиентов с последующим предобусловливанием.
Обобщённая гладкость: Анизотропная гладкость накладывает менее строгие ограничения, чем (L0,L1)-гладкость, охватывая более широкий класс функций.
Единая структура анализа: Основана на выпуклости функции-ориентира ϕ и обеспечивает единообразный анализ сходимости.
Классификация MNIST: iHGD быстро достигает малых потерь обучения с производительностью, превосходящей SGD и Adam
Классификация CIFAR-10: предложенный метод показывает сравнимую производительность с SGD и SGDm, которые являются современными методами для этой задачи
Матричная факторизация: iHGDm значительно превосходит другие методы и демонстрирует большую стабильность при различных случайных инициализациях
Восстановление фазы: sHGD показывает производительность, аналогичную методам с обрезанием градиента
Адаптивный размер шага: Для функций-ориентиров, растущих быстрее, чем квадратично, предобусловливатель естественным образом принимает сигмоидную форму, обеспечивая неявное правило адаптивного размера шага.
Стабильность: На невыпуклых задачах, таких как матричная факторизация, предложенный метод демонстрирует лучшую стабильность.
Широкая применимость: Метод показывает хорошую производительность на различных типах задач машинного обучения.
Ограничения параметров: Ограничение параметра импульса (β<0.5) более строго, чем в стандартном анализе
Сила предположений: Некоторые теоретические результаты требуют дополнительных технических предположений
Диапазон экспериментов: Эксперименты сосредоточены в основном на стандартных задачах машинного обучения, отсутствует проверка на более широком спектре приложений
Статья содержит 48 ссылок, охватывающих важные работы в области теории оптимизации, машинного обучения и численных методов, обеспечивая прочную теоретическую основу для исследования.