2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani
In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.
academic

Convergence Linéaire d'un Algorithme Primal-Dual Unifié pour les Problèmes de Point Selle Convexe-Concave avec Croissance Quadratique

Informations Fondamentales

  • ID de l'article: 2510.11990
  • Titre: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
  • Auteurs: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
  • Classification: math.OC (Optimisation et Contrôle)
  • Date de publication: 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.11990

Résumé

Cet article étudie les problèmes de point selle (SP), en mettant l'accent sur les problèmes d'optimisation convexe-concave satisfaisant les conditions bilatérales de croissance quadratique fonctionnelle (QFG) ou de croissance quadratique du gradient (QGG). Ces conditions sont de nouvelles conditions spécialement adaptées aux problèmes de point selle, constituant une extension des conditions de croissance quadratique dans les problèmes de minimisation. Ces conditions relâchent les exigences traditionnelles de forte convexité-forte concavité, englobant ainsi une classe plus large de problèmes. Les auteurs proposent l'algorithme primal-dual accéléré généralisé (GAPD) pour résoudre les problèmes de point selle avec des fonctions objectif non-bilinéaires, unifiant et étendant les méthodes existantes. La convergence linéaire est démontrée sous ces conditions relâchées. De plus, des exemples de problèmes de point selle structurés satisfaisant les conditions QFG ou QGG bilatérales sont fournis, démontrant l'applicabilité pratique et la pertinence de la méthode.

Contexte et Motivation de la Recherche

Définition du Problème

Cet article étudie le problème de point selle suivant: minxXmaxyYf(x,y)\min_{x \in X} \max_{y \in Y} f(x,y)f:X×YRf: X \times Y \rightarrow \mathbb{R} est convexe en xx pour tout yYy \in Y et concave en yy pour tout xXx \in X, avec XXX \subseteq \mathcal{X} et YYY \subseteq \mathcal{Y} des ensembles fermés et convexes.

Motivation de la Recherche

  1. Limitations des méthodes traditionnelles: Les résultats de convergence linéaire existants pour les problèmes de point selle nécessitent généralement des conditions de forte convexité-forte concavité, qui sont trop restrictives pour de nombreuses applications pratiques.
  2. Applicabilité générale: Les problèmes de point selle ont des applications importantes en théorie des jeux, apprentissage robuste distributionnel, réseaux antagonistes génératifs, et autres domaines.
  3. Lacune théorique: Bien que les conditions de croissance quadratique (QFG et QGG) aient été prouvées garantir la convergence linéaire dans les problèmes de minimisation, l'extension de ces conditions aux problèmes de point selle constitue un défi non trivial et reste largement inexplorée.
  4. Unification des méthodes: Les méthodes primal-dual existantes telles que APD et OGDA manquent d'un cadre d'analyse unifié.

Contributions Principales

  1. Proposition de conditions de croissance bilatérales: Extension pour la première fois des conditions QFG et QGG aux problèmes de point selle, définissant les conditions de croissance quadratique fonctionnelle bilatérale et de croissance quadratique du gradient bilatérale.
  2. Cadre algorithmique unifié: Proposition de l'algorithme primal-dual accéléré généralisé (GAPD), unifiant les méthodes APD et OGDA existantes.
  3. Garantie de convergence linéaire: Démonstration de la convergence linéaire de l'algorithme GAPD sous les conditions QFG ou QGG bilatérales.
  4. Extension à la distance de Bregman: Extension du cadre d'analyse à la distance de Bregman, améliorant la flexibilité et l'applicabilité de la méthode.
  5. Classes de problèmes structurés: Fourniture d'exemples concrets de problèmes de point selle structurés satisfaisant les conditions de croissance bilatérales.

Détails de la Méthode

Définition de la Tâche

Étude des problèmes d'optimisation de point selle convexe-concave où la fonction objectif satisfait les conditions de croissance quadratique bilatérales plutôt que les conditions traditionnelles de forte convexité-forte concavité.

Définitions Fondamentales

Croissance Quadratique du Gradient Bilatérale (Two-Sided QGG)

Pour un problème de point selle, s'il existe des constantes (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 telles que pour tous xXx \in X et yYy \in Y: F(z)F(zˉ),zzˉ2DZM(z,zˉ)\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z})z=[xT,yT]Tz = [x^T, y^T]^T, zˉ=PZ(z)\bar{z} = P_{Z^*}(z), F(z)=[xf(x,y)T,yf(x,y)T]TF(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T, M=diag({μxIn,μyIm})M = \text{diag}(\{μ_x I_n, μ_y I_m\}).

Croissance Quadratique Fonctionnelle Bilatérale (Two-Sided QFG)

S'il existe des constantes (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 telles que: f(x,yˉ)f(xˉ,y)DZM(z,zˉ)f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})

Architecture de l'Algorithme GAPD

Les règles de mise à jour fondamentales de l'algorithme GAPD sont:

  1. Calcul des termes de moment:
    • qky=yf(xk,yk)yf(xk1,yk1)q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})
    • qkx=xf(xk,yk)xf(xk1,yk1)q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})
  2. Mise à jour de la variable duale: yk+1=argminyY{yf(xk,yk)+αkqky,y+1σkDY(y,yk)}y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}
  3. Construction du gradient agrégé: sk=θkxf(xk,yk+1)+(1θk)xf(xk,yk)+βkqkxs_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x
  4. Mise à jour de la variable primale: xk+1=argminxX{sk,x+1τkDX(x,xk)}x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}

Points d'Innovation Technique

  1. Unification: Unification des méthodes existantes par le paramètre θkθ_k:
    • θk=0θ_k = 0: dégénère en OGDA
    • θk=1,βk=0θ_k = 1, β_k = 0: dégénère en APD
  2. Distance de Bregman: Utilisation de la distance de Bregman au lieu de la distance euclidienne, offrant une plus grande flexibilité.
  3. Conditions bilatérales: Extension pour la première fois des conditions de croissance unilatérales à la version bilatérale pour les problèmes de point selle.

Analyse Théorique

Théorème de Convergence Principal

Théorème 4.4: Soit {(xk,yk)}k0\{(x_k, y_k)\}_{k≥0} la séquence générée par l'Algorithme 1. En supposant que les Hypothèses 2.1-4.3 sont satisfaites, alors pour tout K1K ≥ 1 et Γ0Γ \succ 0: DZAKΓBK(zˉK,zK)t0tKDZA0(zˉ0,z0)D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)

Taux de Convergence Linéaire

Corollaire 4.5: Avec un choix approprié des paramètres, la séquence itérative converge vers l'ensemble optimal à un taux linéaire: DZ(zˉK,zK)DZRK(zˉ0,z0)D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0)RK=αK+1(1α)cMR_K = \frac{α^{K+1}}{(1-α)c_M}, le taux de convergence dépendant du paramètre ς>0ς > 0 (où ς=θς = θ pour QFG et ς=2(1θ)ς = 2(1-θ) pour QGG).

Classes de Problèmes Structurés

Classe de Problèmes

Considération des problèmes de point selle convexe-concave structurés suivants: minxXmaxyYh(C1x)+Ax,yg(C2y)\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y)h:RpRh: \mathbb{R}^p \rightarrow \mathbb{R} et g:RqRg: \mathbb{R}^q \rightarrow \mathbb{R} sont des fonctions fortement convexes.

Conditions Suffisantes de Satisfaction

Proposition 5.1: S'il existe des constantes ξ1,ξ2,ξ3,ξ4>0ξ_1, ξ_2, ξ_3, ξ_4 > 0 telles que:

  • ξ1C1TC1ATAξ_1 C_1^T C_1 \succeq A^T A, ξ2C1TC1λ2GTGξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G
  • ξ3C2TC2AATξ_3 C_2^T C_2 \succeq AA^T, ξ4C2TC2ν2FTFξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F

alors cette classe de problèmes satisfait les conditions QGG et QFG bilatérales.

Expériences Numériques

Configuration Expérimentale

Considération de problèmes de point selle générés aléatoirement: minxRnmaxyRm12C1xb122+Ax,y12C2yb222\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2

Résultats Expérimentaux

  1. Tests de dimensionnalité: Tests réalisés sur trois dimensions différentes (n,m,p,q){(75,60,60,50),(150,120,120,100),(300,240,240,200)}(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}.
  2. Comparaison de performance: GAPD surpasse la méthode GDA standard pour différentes valeurs de θθ.
  3. Impact des paramètres: θ=0.99θ = 0.99 obtient les meilleures performances, légèrement supérieur au cas θ=1θ = 1.

Travaux Connexes

Problèmes de Minimisation

  • Les conditions QFG et QGG ont une importance significative dans les cadres d'optimisation déterministe et stochastique
  • Les travaux existants se concentrent principalement sur la convergence linéaire des problèmes d'optimisation convexe

Problèmes de Point Selle

  • Méthode Arrow-Hurwicz (GDA): complexité O(κ2log(1/ε))O(κ^2 \log(1/ε))
  • Méthode du gradient extérieur (EG): complexité O(κlog(1/ε))O(κ \log(1/ε))
  • Méthode du gradient optimiste (OGDA): complexité O(κlog(1/ε))O(κ \log(1/ε))
  • Méthode primal-dual accélérée (APD): atteint O(1/ε)O(1/ε) et O(1/ε2)O(1/ε^2) respectivement dans les cadres C-C et SC-C

Inégalités Variationnelles

Les conditions de croissance quadratique sont étroitement liées à l'analyse des bornes d'erreur pour les opérateurs monotones et à la régularité métrique sous-régulière.

Conclusion et Discussion

Conclusions Principales

  1. Extension réussie des conditions de croissance quadratique aux problèmes de point selle, proposant les conditions QFG et QGG bilatérales
  2. L'algorithme GAPD réalise la convergence linéaire sous des conditions relâchées, unifiant les méthodes existantes
  3. Fourniture de classes de problèmes structurés satisfaisant les nouvelles conditions de croissance

Limitations

  1. Vérification des conditions: La vérification des conditions de croissance bilatérales dans les applications pratiques peut être difficile
  2. Sélection des paramètres: Le choix du paramètre optimal θθ nécessite une connaissance spécifique au problème
  3. Traitement des contraintes: Concentration principale sur les ensembles de contraintes simples, avec une applicabilité limitée aux contraintes complexes

Directions Futures

  1. Étude du comportement de convergence sous les conditions de croissance quadratique unilatérales
  2. Exploration des applications en optimisation distribuée
  3. Extension aux problèmes d'optimisation avec contraintes plus complexes

Évaluation Approfondie

Avantages

  1. Innovation théorique: Extension systématique pour la première fois des conditions de croissance quadratique aux problèmes de point selle, comblant une lacune théorique importante
  2. Cadre unifié: L'algorithme GAPD unifie élégamment plusieurs méthodes existantes
  3. Valeur pratique: Les conditions relâchées rendent la méthode applicable à une classe plus large de problèmes
  4. Analyse rigoureuse: Fourniture d'une analyse de convergence complète et de taux de convergence explicites

Insuffisances

  1. Expériences limitées: Les expériences numériques sont relativement simples, manquant de validation dans des scénarios d'application réelle
  2. Relations entre conditions: L'analyse des relations entre les conditions QFG et QGG bilatérales pourrait être plus approfondie
  3. Complexité computationnelle: L'analyse détaillée de la complexité computationnelle par itération n'est pas fournie

Impact

  1. Contribution académique: Fourniture d'outils théoriques importants pour la théorie de l'optimisation de point selle
  2. Valeur pratique: L'unification et la flexibilité de la méthode offrent un potentiel dans plusieurs domaines d'application
  3. Extensibilité: Fourniture d'une base théorique solide pour les recherches ultérieures

Scénarios d'Application

  1. Entraînement antagoniste en apprentissage automatique
  2. Optimisation robuste distributionnelle
  3. Applications en théorie des jeux
  4. Problèmes d'optimisation convexe avec structure spéciale

Références Bibliographiques

L'article cite 46 références connexes, couvrant plusieurs domaines pertinents incluant l'optimisation de point selle, les inégalités variationnelles, les conditions de croissance quadratique et autres travaux importants, fournissant une base théorique solide pour cette recherche.