2025-11-10T03:10:07.820308

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

An, Lu

The two-timescale gradient descent-ascent (GDA) is a canonical gradient algorithm designed to find Nash equilibria in min-max games. We analyze the two-timescale GDA by investigating the effects of learning rate ratios on convergence behavior in both finite-dimensional and mean-field settings. In particular, for finite-dimensional quadratic min-max games, we obtain long-time convergence in near quasi-static regimes through the hypocoercivity method. For mean-field GDA dynamics, we investigate convergence under a finite-scale ratio using a mixed synchronous-reflection coupling technique.

academic

Сходимость двухтемповой динамики градиентного спуска-подъема: конечномерная и среднеполевая перспективы

Основная информация

ID статьи: 2501.17122
Название: Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives
Авторы: Jing An, Jianfeng Lu (Duke University)
Классификация: math.OC cs.LG cs.NA math.NA
Дата публикации: Январь 2025 (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2501.17122

Аннотация

Двухтемповой алгоритм градиентного спуска-подъема (GDA) является классическим градиентным методом поиска равновесия Нэша в минимаксных играх. В данной работе анализируется двухтемповой GDA в конечномерной и среднеполевой постановке путем изучения влияния отношения скоростей обучения на поведение сходимости. Для конечномерных квадратичных минимаксных игр получена долгосрочная сходимость в квазистатическом режиме с использованием метода субсильной монотонности. Для среднеполевой динамики GDA исследована сходимость при конечных отношениях масштабов с применением гибридной синхронной-отражающей техники связи.

Исследовательский контекст и мотивация

Основная проблема: Минимаксные задачи оптимизации широко распространены в машинном обучении, включая генеративно-состязательные сети (GAN), многоагентное обучение с подкреплением, оптимальный транспорт и другие приложения. Стандартные алгоритмы градиентного спуска-подъема могут сходиться к предельным циклам или расходиться в невыпукло-невогнутой постановке.
Значимость: Двухтемповой GDA, использующий различные скорости обучения для обновлений спуска и подъема, стал популярной альтернативой для преодоления трудностей невыпукло-невогнутого случая. Понимание того, как отношение скоростей обучения влияет на поведение сходимости, имеет решающее значение для проектирования алгоритмов.
Существующие ограничения:
- Лучшие результаты сходимости в конечномерном случае требуют сильных предположений
- В среднеполевом случае существующие результаты в основном ограничены квазистатическим режимом (η ≫ 1 или η ≪ 1)
- Отсутствует количественный анализ отношения скоростей обучения η
Исследовательская мотивация: Ответить на ключевой вопрос: "Как двухтемповой GDA сходится в зависимости от отношения скоростей обучения η?" и предоставить количественные ответы как для конечномерного, так и для бесконечномерного случаев.

Основные вклады

Конечномерный анализ: Анализ динамики двухтемпового GDA для квадратичных игр методом субсильной монотонности с построением функции Ляпунова для количественной оценки связи скорости сходимости с отношением скоростей обучения η.
Проектирование предобусловливателя: Обсуждение способов проектирования предобусловливателей для двухтемповой динамики с целью снижения чувствительности к экстремальным значениям η и улучшения сходимости.
Среднеполевой анализ: Исследование сходимости энтропийно-регуляризованных минимаксных задач с использованием гибридного синхронно-отражающего метода связи, применимого к конечному диапазону значений η и локально невыпукло-невогнутым целевым функциям.
Унифицированные скорости сходимости: Получены скорости сходимости вида min{√η, 1/√η} или min{1, η} в обеих постановках, показывающие, что оптимальный выбор η должен быть близок к 1, а не находиться в квазистатическом режиме.

Подробное описание методов

Определение задачи

Конечномерный случай: Рассмотрим квадратичную игру

min_{x∈ℝⁿ} max_{y∈ℝᵐ} K(x,y) = min_{x∈ℝⁿ} max_{y∈ℝᵐ} {½x⊤Qx + x⊤Py - ½y⊤Ry}

Бесконечномерный случай: Энтропийно-регуляризованная минимаксная задача

min_{p∈P(X)} max_{q∈P(Y)} E_β(p,q) := ∫∫ K(x,y)p(x)q(y)dxdy + β⁻¹H(p) - β⁻¹H(q)

Архитектура модели

Конечномерная двухтемповая динамика GDA

ẋ(t) = -∇_x K(x,y) = -Qx - Py
ẏ(t) = η∇_y K(x,y) = -ηRy + ηP⊤x

Посредством переобозначения z(t) = √η x(t) система может быть записана как:

φ̇(t) = -Dφ(t) - √η Lφ(t)

где D = Q 0; 0 ηR — симметричная матрица, L = 0 P; -P⊤ 0 — кососимметричная матрица.

Среднеполевая динамика GDA

∂_t p_t = ∇_x · (p_t ∫ ∇_x K(x,y)q_t(y)dy) + β⁻¹Δ_x p_t
∂_t q_t = η(-∇_y · (q_t ∫ ∇_y K(x,y)p_t(x)dx) + β⁻¹Δ_y q_t)

Технические инновации

1. Метод субсильной монотонности

Построение модифицированной нормы в качестве функции Ляпунова:

H(φ) = ½‖φ‖² - ε⟨Mφ,φ⟩

где M = -(I + (LΠ)⊤LΠ)⁻¹(LΠ)⊤, Π — оператор проектирования.

Ключевые предположения:

Микроскопическая сильная монотонность: ⟨Sφ,φ⟩ ≥ λ‖(I-Π)φ‖²
Макроскопическая сильная монотонность: ‖LΠφ‖² ≥ λ_L‖Πφ‖²

2. Гибридная синхронно-отражающая связь

Для среднеполевого случая применяется регуляризованная отражающая функция, избегающая зависимости от времени связи локальной области:

r_c^i(Z_t,Q_t)² + s_c^i(Z_t,Q_t)² = 1

Построение функции расстояния ρ_t = f₁(r₁(t)) + γf₂(r₂(t)), где f₁,f₂ — строго возрастающие вогнутые функции.

Экспериментальная установка

Проверка теоретического анализа

Статья в основном предоставляет теоретический анализ, проверяемый численными экспериментами:

Случайная генерация симметричных положительно полуопределенных матриц Q, R размером 10×10 и матрицы P
Диапазон значений η от 0.01 до 10
Проверка связи минимального собственного значения с η

Метрики оценки

Конечномерный случай: Скорость сходимости вида exp(-Λmin{√η, 1/√η}s)
Среднеполевой случай: Скорость сходимости по расстоянию Вассерштейна-1 W₁((p_t,q_t), (p*,q*)) ≤ Ae^{-cmin{1,η}t}W₁((p₀,q₀), (p*,q*))

Результаты экспериментов

Основные теоретические результаты

Теорема 3.1 (Конечномерная сходимость)

При надлежащих предположениях существуют константы C,Λ > 0 такие, что:

‖φ(s)‖² ≤ C exp(-Λ min{√η, 1/√η}s)‖φ₀‖²

Возвращаясь к исходным переменным:

η‖x(t)‖² + ‖y(t)‖² ≤ Ce^{-Λmin{1,η}t}(η‖x(0)‖² + ‖y(0)‖²)

Теорема 5.1 (Среднеполевая сходимость)

При предположении 5, если R ≤ √(2πβ⁻¹)min{√(m_x⁻¹), √(m_y⁻¹)} и выполнены условия Липшица для градиентов, то:

W₁((p_t,q_t), (p*,q*)) ≤ Amax{1,γ}e^{-ct}W₁((p₀,q₀), (p*,q*))

где c < min{c₁, ηc₂}.

Ключевые выводы

Оптимальное отношение скоростей обучения: Обе постановки показывают, что η ≈ 1 является оптимальным выбором, а не квазистатический режим
Унифицированная схема сходимости: Скорости сходимости в обоих случаях имеют форму min{√η, 1/√η} или min{1,η}
Необходимость предобусловливания: Экстремальные значения η приводят к ухудшению числа обусловленности, требуя надлежащего предобусловливателя

Связанные работы

Двухтемповые методы: Включая классическую двухтемповую стохастическую аппроксимацию, распределенную оптимизацию, поиск неподвижных точек в обучении с подкреплением
Теория субсильной монотонности: Первоначально применялась к анализу уравнений Больцмана и Фоккера-Планка, предоставляя вариационную альтернативу спектральному анализу
Методы связи: Мощный инструмент в теории вероятностей для сравнения случайных величин, недавно расширенный на оценки сжатия для динамики Ланжевена

Заключение и обсуждение

Основные выводы

Поведение сходимости двухтемпового GDA сильно зависит от отношения скоростей обучения η
Оптимальный выбор η должен быть близок к 1, избегая квазистатического режима
Методы субсильной монотонности и связи предоставляют эффективные инструменты для анализа

Ограничения

Конечномерный анализ ограничен квадратичными играми
Среднеполевой анализ требует сильных предположений регуляризации
Анализ в непрерывном времени может не напрямую применяться к дискретизированным алгоритмам

Направления будущих исследований

Расширение метода субсильной монотонности на среднеполевой GDA с нелинейной структурой дрейфа
Исследование более общих невыпукло-невогнутых целевых функций
Анализ влияния ошибок дискретизации

Глубокая оценка

Преимущества

Теоретическая строгость: Предоставляет полный анализ сходимости с явными скоростями сходимости
Методологические инновации: Искусно комбинирует методы субсильной монотонности и связи для решения задач различных размерностей
Практическое руководство: Предоставляет теоретическое обоснование для выбора скоростей обучения
Техническая глубина: Решает сложные задачи с нелинейностью и бесконечномерностью

Недостатки

Область применения: Конечномерный анализ ограничен квадратичным случаем, что ограничивает практическое применение
Условия предположений: Среднеполевой анализ требует многих технических предположений
Численная проверка: Отсутствуют крупномасштабные численные эксперименты для проверки теоретических результатов

Влияние

Теоретический вклад: Предоставляет новую аналитическую базу для алгоритмов двухтемповой оптимизации
Методологическая ценность: Метод субсильной монотонности может быть применим к другим задачам оптимизации
Практическое руководство: Предоставляет разработчикам алгоритмов теоретическое обоснование для выбора скоростей обучения

Применимые сценарии

Минимаксные задачи оптимизации, требующие теоретических гарантий
Крупномасштабные распределенные игровые задачи
Анализ стабильности при обучении генеративных моделей

Библиография

Статья цитирует 56 связанных работ, охватывающих важные результаты из теории оптимизации, теории вероятностей, уравнений в частных производных и других областей, обеспечивая прочную теоретическую базу для исследования.