2025-11-10T03:10:07.820308

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

An, Lu

The two-timescale gradient descent-ascent (GDA) is a canonical gradient algorithm designed to find Nash equilibria in min-max games. We analyze the two-timescale GDA by investigating the effects of learning rate ratios on convergence behavior in both finite-dimensional and mean-field settings. In particular, for finite-dimensional quadratic min-max games, we obtain long-time convergence in near quasi-static regimes through the hypocoercivity method. For mean-field GDA dynamics, we investigate convergence under a finite-scale ratio using a mixed synchronous-reflection coupling technique.

academic

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

基本信息

论文ID: 2501.17122
标题: Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives
作者: Jing An, Jianfeng Lu (Duke University)
分类: math.OC cs.LG cs.NA math.NA
发表时间: 2025年1月 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.17122

摘要

双时间尺度梯度下降-上升（GDA）算法是寻找极小极大博弈中纳什均衡的经典梯度算法。本文通过研究学习率比例对收敛行为的影响，在有限维和平均场设置中分析了双时间尺度GDA。对于有限维二次极小极大博弈，通过次强制性方法在近准静态区域获得了长时间收敛性。对于平均场GDA动力学，使用混合同步-反射耦合技术研究了有限尺度比例下的收敛性。

研究背景与动机

核心问题: 极小极大优化问题在机器学习中广泛存在，如生成对抗网络(GANs)、多智能体强化学习、最优传输等。标准的梯度下降-上升算法在非凸-非凹设置下可能收敛到极限环或发散。
重要性: 双时间尺度GDA通过为梯度下降和上升更新采用不同的学习率，已成为解决非凸-非凹困难的流行替代方案。理解学习率比例如何影响收敛行为对算法设计至关重要。
现有局限性:
- 有限维情况下的最佳收敛结果需要较强的假设条件
- 平均场情况下，现有结果主要限制在准静态区域(η ≫ 1或η ≪ 1)
- 缺乏对学习率比例η的定量分析
研究动机: 回答关键问题："双时间尺度GDA如何根据学习率比例η收敛？"并为有限维和无限维情况提供定量答案。

核心贡献

有限维分析: 通过次强制性方法分析二次博弈的双时间尺度GDA动力学，构造Lyapunov函数定量估计收敛率与学习率比例η的关系。
预条件设计: 讨论如何为双时间尺度动力学设计预条件器，以减少对极端η值的敏感性并改善收敛性。
平均场分析: 使用混合同步-反射耦合方法研究熵正则化极小极大问题的收敛性，适用于有限范围的η值和局部非凸-非凹目标函数。
统一收敛率: 在两种设置下都获得了形如min{√η, 1/√η}或min{1, η}的收敛率，表明最优η选择应接近1而非准静态区域。

方法详解

任务定义

有限维情况: 考虑二次博弈

min_{x∈ℝⁿ} max_{y∈ℝᵐ} K(x,y) = min_{x∈ℝⁿ} max_{y∈ℝᵐ} {½x⊤Qx + x⊤Py - ½y⊤Ry}

无限维情况: 熵正则化极小极大问题

min_{p∈P(X)} max_{q∈P(Y)} E_β(p,q) := ∫∫ K(x,y)p(x)q(y)dxdy + β⁻¹H(p) - β⁻¹H(q)

模型架构

有限维双时间尺度GDA动力学

ẋ(t) = -∇_x K(x,y) = -Qx - Py
ẏ(t) = η∇_y K(x,y) = -ηRy + ηP⊤x

通过重标度z(t) = √η x(t)，系统可写为：

φ̇(t) = -Dφ(t) - √η Lφ(t)

其中D = Q 0; 0 ηR为对称矩阵，L = 0 P; -P⊤ 0为反对称矩阵。

平均场GDA动力学

∂_t p_t = ∇_x · (p_t ∫ ∇_x K(x,y)q_t(y)dy) + β⁻¹Δ_x p_t
∂_t q_t = η(-∇_y · (q_t ∫ ∇_y K(x,y)p_t(x)dx) + β⁻¹Δ_y q_t)

技术创新点

1. 次强制性方法

构造修正范数作为Lyapunov函数：

H(φ) = ½‖φ‖² - ε⟨Mφ,φ⟩

其中M = -(I + (LΠ)⊤LΠ)⁻¹(LΠ)⊤，Π是投影算子。

关键假设:

微观强制性: ⟨Sφ,φ⟩ ≥ λ‖(I-Π)φ‖²
宏观强制性: ‖LΠφ‖² ≥ λ_L‖Πφ‖²

2. 混合同步-反射耦合

对于平均场情况，采用正则化反射函数避免依赖局部区域的耦合时间：

r_c^i(Z_t,Q_t)² + s_c^i(Z_t,Q_t)² = 1

构造距离函数ρ_t = f₁(r₁(t)) + γf₂(r₂(t))，其中f₁,f₂为严格递增凹函数。

实验设置

理论分析验证

论文主要提供理论分析，通过数值实验验证：

随机生成10×10对称半正定矩阵Q,R和矩阵P
η取值范围0.01到10
验证最小特征值与η的关系

评价指标

有限维: 收敛率形式为exp(-Λmin{√η, 1/√η}s)
平均场: Wasserstein-1距离收敛率W₁((p_t,q_t), (p*,q*)) ≤ Ae^{-cmin{1,η}t}W₁((p₀,q₀), (p*,q*))

‖φ(s)‖² ≤ C exp(-Λ min{√η, 1/√η}s)‖φ₀‖²

回到原变量：

η‖x(t)‖² + ‖y(t)‖² ≤ Ce^{-Λmin{1,η}t}(η‖x(0)‖² + ‖y(0)‖²)

定理5.1 (平均场收敛性)

在假设5下，如果R ≤ √(2πβ⁻¹)min{√(m_x⁻¹), √(m_y⁻¹)}，且满足梯度Lipschitz条件，则：

W₁((p_t,q_t), (p*,q*)) ≤ Amax{1,γ}e^{-ct}W₁((p₀,q₀), (p*,q*))

其中c < min{c₁, ηc₂}。

关键发现

最优学习率比例: 两种设置都表明η ≈ 1为最优选择，而非准静态区域
统一收敛模式: 收敛率都具有min{√η, 1/√η}或min{1,η}的形式
预条件的必要性: 极端η值会导致条件数恶化，需要适当的预条件器

结论与讨论

主要结论

双时间尺度GDA的收敛行为强烈依赖于学习率比例η
最优η选择应接近1，避免准静态区域
次强制性和耦合方法为分析提供了有效工具

局限性

有限维分析局限于二次博弈
平均场分析需要较强的正则化假设
连续时间分析可能不直接适用于离散化算法

未来方向

扩展次强制性方法到平均场GDA的非线性漂移结构
研究更一般的非凸-非凹目标函数
分析离散化误差的影响

深度评价

优点

理论严谨性: 提供了完整的收敛性分析，包括显式的收敛率
方法创新: 巧妙结合次强制性和耦合方法处理不同维度的问题
实用指导: 为学习率选择提供了理论指导
技术深度: 处理了具有挑战性的非线性和无限维问题

不足

应用范围: 有限维分析仅限于二次情况，实际应用有限
假设条件: 平均场分析需要较多技术假设
数值验证: 缺乏大规模数值实验验证理论结果

影响力

理论贡献: 为双时间尺度优化算法提供了新的分析框架
方法论价值: 次强制性方法可能适用于其他优化问题
实践指导: 为算法设计者提供了学习率选择的理论依据

适用场景

需要理论保证的极小极大优化问题
大规模分布式博弈问题
生成模型训练中的稳定性分析

参考文献

论文引用了56篇相关文献，涵盖了优化理论、概率论、偏微分方程等多个领域的重要工作，为研究提供了坚实的理论基础。

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

基本信息

摘要

研究背景与动机

核心贡献

方法详解

任务定义

模型架构

有限维双时间尺度GDA动力学

平均场GDA动力学

技术创新点

1. 次强制性方法

2. 混合同步-反射耦合

实验设置

理论分析验证

评价指标

实验结果

主要理论结果

定理3.1 (有限维收敛性)

定理5.1 (平均场收敛性)

关键发现

相关工作

结论与讨论

主要结论

局限性

未来方向

深度评价

优点

不足

影响力

适用场景

参考文献