2025-11-10T03:10:07.820308

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

An, Lu
The two-timescale gradient descent-ascent (GDA) is a canonical gradient algorithm designed to find Nash equilibria in min-max games. We analyze the two-timescale GDA by investigating the effects of learning rate ratios on convergence behavior in both finite-dimensional and mean-field settings. In particular, for finite-dimensional quadratic min-max games, we obtain long-time convergence in near quasi-static regimes through the hypocoercivity method. For mean-field GDA dynamics, we investigate convergence under a finite-scale ratio using a mixed synchronous-reflection coupling technique.
academic

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

基本信息

  • 论文ID: 2501.17122
  • 标题: Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives
  • 作者: Jing An, Jianfeng Lu (Duke University)
  • 分类: math.OC cs.LG cs.NA math.NA
  • 发表时间: 2025年1月 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.17122

摘要

双时间尺度梯度下降-上升(GDA)算法是寻找极小极大博弈中纳什均衡的经典梯度算法。本文通过研究学习率比例对收敛行为的影响,在有限维和平均场设置中分析了双时间尺度GDA。对于有限维二次极小极大博弈,通过次强制性方法在近准静态区域获得了长时间收敛性。对于平均场GDA动力学,使用混合同步-反射耦合技术研究了有限尺度比例下的收敛性。

研究背景与动机

  1. 核心问题: 极小极大优化问题在机器学习中广泛存在,如生成对抗网络(GANs)、多智能体强化学习、最优传输等。标准的梯度下降-上升算法在非凸-非凹设置下可能收敛到极限环或发散。
  2. 重要性: 双时间尺度GDA通过为梯度下降和上升更新采用不同的学习率,已成为解决非凸-非凹困难的流行替代方案。理解学习率比例如何影响收敛行为对算法设计至关重要。
  3. 现有局限性:
    • 有限维情况下的最佳收敛结果需要较强的假设条件
    • 平均场情况下,现有结果主要限制在准静态区域(η ≫ 1或η ≪ 1)
    • 缺乏对学习率比例η的定量分析
  4. 研究动机: 回答关键问题:"双时间尺度GDA如何根据学习率比例η收敛?"并为有限维和无限维情况提供定量答案。

核心贡献

  1. 有限维分析: 通过次强制性方法分析二次博弈的双时间尺度GDA动力学,构造Lyapunov函数定量估计收敛率与学习率比例η的关系。
  2. 预条件设计: 讨论如何为双时间尺度动力学设计预条件器,以减少对极端η值的敏感性并改善收敛性。
  3. 平均场分析: 使用混合同步-反射耦合方法研究熵正则化极小极大问题的收敛性,适用于有限范围的η值和局部非凸-非凹目标函数。
  4. 统一收敛率: 在两种设置下都获得了形如min{√η, 1/√η}或min{1, η}的收敛率,表明最优η选择应接近1而非准静态区域。

方法详解

任务定义

有限维情况: 考虑二次博弈

min_{x∈ℝⁿ} max_{y∈ℝᵐ} K(x,y) = min_{x∈ℝⁿ} max_{y∈ℝᵐ} {½x⊤Qx + x⊤Py - ½y⊤Ry}

无限维情况: 熵正则化极小极大问题

min_{p∈P(X)} max_{q∈P(Y)} E_β(p,q) := ∫∫ K(x,y)p(x)q(y)dxdy + β⁻¹H(p) - β⁻¹H(q)

模型架构

有限维双时间尺度GDA动力学

ẋ(t) = -∇_x K(x,y) = -Qx - Py
ẏ(t) = η∇_y K(x,y) = -ηRy + ηP⊤x

通过重标度z(t) = √η x(t),系统可写为:

φ̇(t) = -Dφ(t) - √η Lφ(t)

其中D = Q 0; 0 ηR为对称矩阵,L = 0 P; -P⊤ 0为反对称矩阵。

平均场GDA动力学

∂_t p_t = ∇_x · (p_t ∫ ∇_x K(x,y)q_t(y)dy) + β⁻¹Δ_x p_t
∂_t q_t = η(-∇_y · (q_t ∫ ∇_y K(x,y)p_t(x)dx) + β⁻¹Δ_y q_t)

技术创新点

1. 次强制性方法

构造修正范数作为Lyapunov函数:

H(φ) = ½‖φ‖² - ε⟨Mφ,φ⟩

其中M = -(I + (LΠ)⊤LΠ)⁻¹(LΠ)⊤,Π是投影算子。

关键假设:

  • 微观强制性: ⟨Sφ,φ⟩ ≥ λ‖(I-Π)φ‖²
  • 宏观强制性: ‖LΠφ‖² ≥ λ_L‖Πφ‖²

2. 混合同步-反射耦合

对于平均场情况,采用正则化反射函数避免依赖局部区域的耦合时间:

r_c^i(Z_t,Q_t)² + s_c^i(Z_t,Q_t)² = 1

构造距离函数ρ_t = f₁(r₁(t)) + γf₂(r₂(t)),其中f₁,f₂为严格递增凹函数。

实验设置

理论分析验证

论文主要提供理论分析,通过数值实验验证:

  • 随机生成10×10对称半正定矩阵Q,R和矩阵P
  • η取值范围0.01到10
  • 验证最小特征值与η的关系

评价指标

  • 有限维: 收敛率形式为exp(-Λmin{√η, 1/√η}s)
  • 平均场: Wasserstein-1距离收敛率W₁((p_t,q_t), (p*,q*)) ≤ Ae^{-cmin{1,η}t}W₁((p₀,q₀), (p*,q*))

实验结果

主要理论结果

定理3.1 (有限维收敛性)

在适当假设下,存在常数C,Λ > 0使得:

‖φ(s)‖² ≤ C exp(-Λ min{√η, 1/√η}s)‖φ₀‖²

回到原变量:

η‖x(t)‖² + ‖y(t)‖² ≤ Ce^{-Λmin{1,η}t}(η‖x(0)‖² + ‖y(0)‖²)

定理5.1 (平均场收敛性)

在假设5下,如果R ≤ √(2πβ⁻¹)min{√(m_x⁻¹), √(m_y⁻¹)},且满足梯度Lipschitz条件,则:

W₁((p_t,q_t), (p*,q*)) ≤ Amax{1,γ}e^{-ct}W₁((p₀,q₀), (p*,q*))

其中c < min{c₁, ηc₂}。

关键发现

  1. 最优学习率比例: 两种设置都表明η ≈ 1为最优选择,而非准静态区域
  2. 统一收敛模式: 收敛率都具有min{√η, 1/√η}或min{1,η}的形式
  3. 预条件的必要性: 极端η值会导致条件数恶化,需要适当的预条件器

相关工作

  1. 双时间尺度方法: 包括经典双时间尺度随机逼近、分布式优化、强化学习中的不动点寻找
  2. 次强制性理论: 最初用于Boltzmann和Fokker-Planck方程分析,提供了光谱分析的变分替代方法
  3. 耦合方法: 概率论中比较随机变量的强大工具,最近扩展到Langevin动力学的收缩率估计

结论与讨论

主要结论

  1. 双时间尺度GDA的收敛行为强烈依赖于学习率比例η
  2. 最优η选择应接近1,避免准静态区域
  3. 次强制性和耦合方法为分析提供了有效工具

局限性

  1. 有限维分析局限于二次博弈
  2. 平均场分析需要较强的正则化假设
  3. 连续时间分析可能不直接适用于离散化算法

未来方向

  1. 扩展次强制性方法到平均场GDA的非线性漂移结构
  2. 研究更一般的非凸-非凹目标函数
  3. 分析离散化误差的影响

深度评价

优点

  1. 理论严谨性: 提供了完整的收敛性分析,包括显式的收敛率
  2. 方法创新: 巧妙结合次强制性和耦合方法处理不同维度的问题
  3. 实用指导: 为学习率选择提供了理论指导
  4. 技术深度: 处理了具有挑战性的非线性和无限维问题

不足

  1. 应用范围: 有限维分析仅限于二次情况,实际应用有限
  2. 假设条件: 平均场分析需要较多技术假设
  3. 数值验证: 缺乏大规模数值实验验证理论结果

影响力

  1. 理论贡献: 为双时间尺度优化算法提供了新的分析框架
  2. 方法论价值: 次强制性方法可能适用于其他优化问题
  3. 实践指导: 为算法设计者提供了学习率选择的理论依据

适用场景

  1. 需要理论保证的极小极大优化问题
  2. 大规模分布式博弈问题
  3. 生成模型训练中的稳定性分析

参考文献

论文引用了56篇相关文献,涵盖了优化理论、概率论、偏微分方程等多个领域的重要工作,为研究提供了坚实的理论基础。