2025-11-10T03:10:07.820308

Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives

An, Lu
The two-timescale gradient descent-ascent (GDA) is a canonical gradient algorithm designed to find Nash equilibria in min-max games. We analyze the two-timescale GDA by investigating the effects of learning rate ratios on convergence behavior in both finite-dimensional and mean-field settings. In particular, for finite-dimensional quadratic min-max games, we obtain long-time convergence in near quasi-static regimes through the hypocoercivity method. For mean-field GDA dynamics, we investigate convergence under a finite-scale ratio using a mixed synchronous-reflection coupling technique.
academic

Convergence de la dynamique de descente-ascension de gradient à deux échelles de temps : perspectives en dimension finie et en champ moyen

Informations de base

  • ID de l'article: 2501.17122
  • Titre: Convergence of two-timescale gradient descent ascent dynamics: finite-dimensional and mean-field perspectives
  • Auteurs: Jing An, Jianfeng Lu (Duke University)
  • Classification: math.OC cs.LG cs.NA math.NA
  • Date de publication: Janvier 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2501.17122

Résumé

L'algorithme de descente-ascension de gradient (GDA) à deux échelles de temps est un algorithme de gradient classique pour trouver les équilibres de Nash dans les jeux minimax. Cet article analyse la GDA à deux échelles de temps dans les cadres en dimension finie et en champ moyen en étudiant l'influence du rapport des taux d'apprentissage sur le comportement de convergence. Pour les jeux minimax quadratiques en dimension finie, la convergence à long terme est obtenue dans le régime quasi-statique via la méthode de coercivité faible. Pour la dynamique GDA en champ moyen, la convergence sous des rapports d'échelle finis est étudiée en utilisant une technique de couplage hybride synchrone-réfléchi.

Contexte et motivation de la recherche

  1. Problème central: Les problèmes d'optimisation minimax sont omniprésents en apprentissage automatique, notamment dans les réseaux antagonistes génératifs (GANs), l'apprentissage par renforcement multi-agents et le transport optimal. L'algorithme standard de descente-ascension de gradient peut converger vers des cycles limites ou diverger dans les cadres non-convexes-non-concaves.
  2. Importance: La GDA à deux échelles de temps, qui utilise des taux d'apprentissage différents pour les mises à jour de descente et d'ascension de gradient, est devenue une alternative populaire pour résoudre les difficultés non-convexes-non-concaves. Comprendre comment le rapport des taux d'apprentissage affecte le comportement de convergence est crucial pour la conception d'algorithmes.
  3. Limitations existantes:
    • Les meilleurs résultats de convergence en dimension finie nécessitent des hypothèses fortes
    • En champ moyen, les résultats existants sont principalement limités au régime quasi-statique (η ≫ 1 ou η ≪ 1)
    • Absence d'analyse quantitative du rapport des taux d'apprentissage η
  4. Motivation de la recherche: Répondre à la question clé : « Comment la GDA à deux échelles de temps converge-t-elle en fonction du rapport des taux d'apprentissage η ? » et fournir des réponses quantitatives pour les cas en dimension finie et infinie.

Contributions principales

  1. Analyse en dimension finie: Analyse de la dynamique GDA à deux échelles de temps pour les jeux quadratiques via la méthode de coercivité faible, construction de fonctions de Lyapunov pour estimer quantitativement la relation entre le taux de convergence et le rapport des taux d'apprentissage η.
  2. Conception de préconditionneurs: Discussion sur la conception de préconditionneurs pour la dynamique à deux échelles de temps afin de réduire la sensibilité aux valeurs extrêmes de η et d'améliorer la convergence.
  3. Analyse en champ moyen: Étude de la convergence pour les problèmes minimax avec régularisation entropique en utilisant la méthode de couplage hybride synchrone-réfléchi, applicable à une plage finie de valeurs de η et aux objectifs localement non-convexes-non-concaves.
  4. Taux de convergence unifié: Obtention de taux de convergence de la forme min{√η, 1/√η} ou min{1, η} dans les deux cadres, indiquant que le choix optimal de η devrait être proche de 1 plutôt que dans le régime quasi-statique.

Détails méthodologiques

Définition de la tâche

Cas en dimension finie: Considérer le jeu quadratique

min_{x∈ℝⁿ} max_{y∈ℝᵐ} K(x,y) = min_{x∈ℝⁿ} max_{y∈ℝᵐ} {½x⊤Qx + x⊤Py - ½y⊤Ry}

Cas en dimension infinie: Problème minimax avec régularisation entropique

min_{p∈P(X)} max_{q∈P(Y)} E_β(p,q) := ∫∫ K(x,y)p(x)q(y)dxdy + β⁻¹H(p) - β⁻¹H(q)

Architecture du modèle

Dynamique GDA à deux échelles de temps en dimension finie

ẋ(t) = -∇_x K(x,y) = -Qx - Py
ẏ(t) = η∇_y K(x,y) = -ηRy + ηP⊤x

Par remise à l'échelle z(t) = √η x(t), le système peut s'écrire:

φ̇(t) = -Dφ(t) - √η Lφ(t)

où D = Q 0; 0 ηR est une matrice symétrique et L = 0 P; -P⊤ 0 est une matrice antisymétrique.

Dynamique GDA en champ moyen

∂_t p_t = ∇_x · (p_t ∫ ∇_x K(x,y)q_t(y)dy) + β⁻¹Δ_x p_t
∂_t q_t = η(-∇_y · (q_t ∫ ∇_y K(x,y)p_t(x)dx) + β⁻¹Δ_y q_t)

Points d'innovation technique

1. Méthode de coercivité faible

Construction d'une norme modifiée comme fonction de Lyapunov:

H(φ) = ½‖φ‖² - ε⟨Mφ,φ⟩

où M = -(I + (LΠ)⊤LΠ)⁻¹(LΠ)⊤, Π est un opérateur de projection.

Hypothèses clés:

  • Coercivité microscopique: ⟨Sφ,φ⟩ ≥ λ‖(I-Π)φ‖²
  • Coercivité macroscopique: ‖LΠφ‖² ≥ λ_L‖Πφ‖²

2. Couplage hybride synchrone-réfléchi

Pour le cas en champ moyen, utilisation de fonctions réfléchies régularisées pour éviter la dépendance du temps de couplage sur les régions locales:

r_c^i(Z_t,Q_t)² + s_c^i(Z_t,Q_t)² = 1

Construction d'une fonction de distance ρ_t = f₁(r₁(t)) + γf₂(r₂(t)), où f₁,f₂ sont des fonctions strictement croissantes et concaves.

Configuration expérimentale

Vérification de l'analyse théorique

L'article fournit principalement une analyse théorique, vérifiée par des expériences numériques:

  • Génération aléatoire de matrices symétriques semi-définies positives 10×10 Q, R et de matrice P
  • Plage de η de 0,01 à 10
  • Vérification de la relation entre la plus petite valeur propre et η

Indicateurs d'évaluation

  • Dimension finie: Taux de convergence de la forme exp(-Λmin{√η, 1/√η}s)
  • Champ moyen: Taux de convergence en distance de Wasserstein-1 W₁((p_t,q_t), (p*,q*)) ≤ Ae^{-cmin{1,η}t}W₁((p₀,q₀), (p*,q*))

Résultats expérimentaux

Résultats théoriques principaux

Théorème 3.1 (Convergence en dimension finie)

Sous les hypothèses appropriées, il existe des constantes C,Λ > 0 telles que:

‖φ(s)‖² ≤ C exp(-Λ min{√η, 1/√η}s)‖φ₀‖²

Retour aux variables originales:

η‖x(t)‖² + ‖y(t)‖² ≤ Ce^{-Λmin{1,η}t}(η‖x(0)‖² + ‖y(0)‖²)

Théorème 5.1 (Convergence en champ moyen)

Sous l'hypothèse 5, si R ≤ √(2πβ⁻¹)min{√(m_x⁻¹), √(m_y⁻¹)}, et si les conditions de Lipschitz du gradient sont satisfaites, alors:

W₁((p_t,q_t), (p*,q*)) ≤ Amax{1,γ}e^{-ct}W₁((p₀,q₀), (p*,q*))

où c < min{c₁, ηc₂}.

Découvertes clés

  1. Rapport optimal des taux d'apprentissage: Les deux cadres indiquent que η ≈ 1 est le choix optimal, plutôt que la région quasi-statique
  2. Motif de convergence unifié: Les taux de convergence dans les deux cadres ont la forme min{√η, 1/√η} ou min{1,η}
  3. Nécessité du préconditionnement: Les valeurs extrêmes de η entraînent une dégradation du nombre de conditionnement, nécessitant un préconditionnement approprié

Travaux connexes

  1. Méthodes à deux échelles de temps: Incluant l'approximation stochastique classique à deux échelles de temps, l'optimisation distribuée, la recherche de points fixes dans l'apprentissage par renforcement
  2. Théorie de coercivité faible: Initialement utilisée pour l'analyse des équations de Boltzmann et de Fokker-Planck, fournissant une alternative variationnelle à l'analyse spectrale
  3. Méthodes de couplage: Outils puissants en théorie des probabilités pour comparer les variables aléatoires, récemment étendus à l'estimation des taux de contraction pour la dynamique de Langevin

Conclusion et discussion

Conclusions principales

  1. Le comportement de convergence de la GDA à deux échelles de temps dépend fortement du rapport des taux d'apprentissage η
  2. Le choix optimal de η devrait être proche de 1, en évitant la région quasi-statique
  3. Les méthodes de coercivité faible et de couplage fournissent des outils efficaces pour l'analyse

Limitations

  1. L'analyse en dimension finie est limitée aux jeux quadratiques
  2. L'analyse en champ moyen nécessite des hypothèses de régularisation fortes
  3. L'analyse en temps continu peut ne pas s'appliquer directement aux algorithmes discrétisés

Directions futures

  1. Extension de la méthode de coercivité faible à la structure de dérive non-linéaire de la GDA en champ moyen
  2. Étude de fonctions objectif non-convexes-non-concaves plus générales
  3. Analyse de l'impact des erreurs de discrétisation

Évaluation approfondie

Avantages

  1. Rigueur théorique: Fournit une analyse de convergence complète avec des taux de convergence explicites
  2. Innovation méthodologique: Combine astucieusement les méthodes de coercivité faible et de couplage pour traiter les problèmes de différentes dimensions
  3. Orientation pratique: Fournit des conseils théoriques pour le choix des taux d'apprentissage
  4. Profondeur technique: Traite les problèmes non-linéaires et en dimension infinie difficiles

Insuffisances

  1. Portée d'application: L'analyse en dimension finie est limitée au cas quadratique, avec une applicabilité pratique limitée
  2. Conditions d'hypothèse: L'analyse en champ moyen nécessite de nombreuses hypothèses techniques
  3. Vérification numérique: Manque d'expériences numériques à grande échelle pour vérifier les résultats théoriques

Impact

  1. Contribution théorique: Fournit un nouveau cadre d'analyse pour les algorithmes d'optimisation à deux échelles de temps
  2. Valeur méthodologique: La méthode de coercivité faible peut s'appliquer à d'autres problèmes d'optimisation
  3. Orientation pratique: Fournit aux concepteurs d'algorithmes une base théorique pour le choix des taux d'apprentissage

Scénarios d'application

  1. Problèmes d'optimisation minimax nécessitant des garanties théoriques
  2. Problèmes de jeux distribués à grande échelle
  3. Analyse de stabilité dans l'entraînement de modèles génératifs

Références

L'article cite 56 références connexes, couvrant des travaux importants dans plusieurs domaines tels que la théorie de l'optimisation, la théorie des probabilités et les équations aux dérivées partielles, fournissant une base théorique solide pour la recherche.