2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani

In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.

academic

Convergence Linéaire d'un Algorithme Primal-Dual Unifié pour les Problèmes de Point Selle Convexe-Concave avec Croissance Quadratique

Informations Fondamentales

ID de l'article: 2510.11990
Titre: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
Auteurs: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
Classification: math.OC (Optimisation et Contrôle)
Date de publication: 13 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.11990

Résumé

Cet article étudie les problèmes de point selle (SP), en mettant l'accent sur les problèmes d'optimisation convexe-concave satisfaisant les conditions bilatérales de croissance quadratique fonctionnelle (QFG) ou de croissance quadratique du gradient (QGG). Ces conditions sont de nouvelles conditions spécialement adaptées aux problèmes de point selle, constituant une extension des conditions de croissance quadratique dans les problèmes de minimisation. Ces conditions relâchent les exigences traditionnelles de forte convexité-forte concavité, englobant ainsi une classe plus large de problèmes. Les auteurs proposent l'algorithme primal-dual accéléré généralisé (GAPD) pour résoudre les problèmes de point selle avec des fonctions objectif non-bilinéaires, unifiant et étendant les méthodes existantes. La convergence linéaire est démontrée sous ces conditions relâchées. De plus, des exemples de problèmes de point selle structurés satisfaisant les conditions QFG ou QGG bilatérales sont fournis, démontrant l'applicabilité pratique et la pertinence de la méthode.

Contexte et Motivation de la Recherche

Définition du Problème

Cet article étudie le problème de point selle suivant: $\min_{x \in X} \max_{y \in Y} f(x,y)$ où $f: X \times Y \rightarrow \mathbb{R}$ est convexe en $x$ pour tout $y \in Y$ et concave en $y$ pour tout $x \in X$ , avec $X \subseteq \mathcal{X}$ et $Y \subseteq \mathcal{Y}$ des ensembles fermés et convexes.

Motivation de la Recherche

Limitations des méthodes traditionnelles: Les résultats de convergence linéaire existants pour les problèmes de point selle nécessitent généralement des conditions de forte convexité-forte concavité, qui sont trop restrictives pour de nombreuses applications pratiques.
Applicabilité générale: Les problèmes de point selle ont des applications importantes en théorie des jeux, apprentissage robuste distributionnel, réseaux antagonistes génératifs, et autres domaines.
Lacune théorique: Bien que les conditions de croissance quadratique (QFG et QGG) aient été prouvées garantir la convergence linéaire dans les problèmes de minimisation, l'extension de ces conditions aux problèmes de point selle constitue un défi non trivial et reste largement inexplorée.
Unification des méthodes: Les méthodes primal-dual existantes telles que APD et OGDA manquent d'un cadre d'analyse unifié.

Contributions Principales

Proposition de conditions de croissance bilatérales: Extension pour la première fois des conditions QFG et QGG aux problèmes de point selle, définissant les conditions de croissance quadratique fonctionnelle bilatérale et de croissance quadratique du gradient bilatérale.
Cadre algorithmique unifié: Proposition de l'algorithme primal-dual accéléré généralisé (GAPD), unifiant les méthodes APD et OGDA existantes.
Garantie de convergence linéaire: Démonstration de la convergence linéaire de l'algorithme GAPD sous les conditions QFG ou QGG bilatérales.
Extension à la distance de Bregman: Extension du cadre d'analyse à la distance de Bregman, améliorant la flexibilité et l'applicabilité de la méthode.
Classes de problèmes structurés: Fourniture d'exemples concrets de problèmes de point selle structurés satisfaisant les conditions de croissance bilatérales.

Détails de la Méthode

Définition de la Tâche

Étude des problèmes d'optimisation de point selle convexe-concave où la fonction objectif satisfait les conditions de croissance quadratique bilatérales plutôt que les conditions traditionnelles de forte convexité-forte concavité.

Définitions Fondamentales

Croissance Quadratique du Gradient Bilatérale (Two-Sided QGG)

Pour un problème de point selle, s'il existe des constantes $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ telles que pour tous $x \in X$ et $y \in Y$ : $\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z})$ où $z = [x^T, y^T]^T$ , $\bar{z} = P_{Z^*}(z)$ , $F(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T$ , $M = \text{diag}(\{μ_x I_n, μ_y I_m\})$ .

Croissance Quadratique Fonctionnelle Bilatérale (Two-Sided QFG)

S'il existe des constantes $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ telles que: $f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})$

Architecture de l'Algorithme GAPD

Les règles de mise à jour fondamentales de l'algorithme GAPD sont:

Calcul des termes de moment:
- $q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})$
- $q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})$
Mise à jour de la variable duale: $y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}$
Construction du gradient agrégé: $s_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x$
Mise à jour de la variable primale: $x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}$

Points d'Innovation Technique

Unification: Unification des méthodes existantes par le paramètre $θ_k$ $θ_{k}$ :
- $θ_k = 0$ : dégénère en OGDA
- $θ_k = 1, β_k = 0$ : dégénère en APD
Distance de Bregman: Utilisation de la distance de Bregman au lieu de la distance euclidienne, offrant une plus grande flexibilité.
Conditions bilatérales: Extension pour la première fois des conditions de croissance unilatérales à la version bilatérale pour les problèmes de point selle.

Analyse Théorique

Théorème de Convergence Principal

Théorème 4.4: Soit $\{(x_k, y_k)\}_{k≥0}$ la séquence générée par l'Algorithme 1. En supposant que les Hypothèses 2.1-4.3 sont satisfaites, alors pour tout $K ≥ 1$ et $Γ \succ 0$ : $D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)$

Taux de Convergence Linéaire

Corollaire 4.5: Avec un choix approprié des paramètres, la séquence itérative converge vers l'ensemble optimal à un taux linéaire: $D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0)$ où $R_K = \frac{α^{K+1}}{(1-α)c_M}$ , le taux de convergence dépendant du paramètre $ς > 0$ (où $ς = θ$ pour QFG et $ς = 2(1-θ)$ pour QGG).

Classes de Problèmes Structurés

Classe de Problèmes

Considération des problèmes de point selle convexe-concave structurés suivants: $\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y)$ où $h: \mathbb{R}^p \rightarrow \mathbb{R}$ et $g: \mathbb{R}^q \rightarrow \mathbb{R}$ sont des fonctions fortement convexes.

Conditions Suffisantes de Satisfaction

Proposition 5.1: S'il existe des constantes $ξ_1, ξ_2, ξ_3, ξ_4 > 0$ telles que:

$ξ_1 C_1^T C_1 \succeq A^T A$ , $ξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G$
$ξ_3 C_2^T C_2 \succeq AA^T$ , $ξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F$

alors cette classe de problèmes satisfait les conditions QGG et QFG bilatérales.

Expériences Numériques

Configuration Expérimentale

Considération de problèmes de point selle générés aléatoirement: $\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2$

Résultats Expérimentaux

Tests de dimensionnalité: Tests réalisés sur trois dimensions différentes $(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}$ .
Comparaison de performance: GAPD surpasse la méthode GDA standard pour différentes valeurs de $θ$ .
Impact des paramètres: $θ = 0.99$ obtient les meilleures performances, légèrement supérieur au cas $θ = 1$ .

Travaux Connexes

Problèmes de Minimisation

Les conditions QFG et QGG ont une importance significative dans les cadres d'optimisation déterministe et stochastique
Les travaux existants se concentrent principalement sur la convergence linéaire des problèmes d'optimisation convexe

Problèmes de Point Selle

Méthode Arrow-Hurwicz (GDA): complexité $O(κ^2 \log(1/ε))$
Méthode du gradient extérieur (EG): complexité $O(κ \log(1/ε))$
Méthode du gradient optimiste (OGDA): complexité $O(κ \log(1/ε))$
Méthode primal-dual accélérée (APD): atteint $O(1/ε)$ et $O(1/ε^2)$ respectivement dans les cadres C-C et SC-C

Inégalités Variationnelles

Les conditions de croissance quadratique sont étroitement liées à l'analyse des bornes d'erreur pour les opérateurs monotones et à la régularité métrique sous-régulière.

Conclusion et Discussion

Conclusions Principales

Extension réussie des conditions de croissance quadratique aux problèmes de point selle, proposant les conditions QFG et QGG bilatérales
L'algorithme GAPD réalise la convergence linéaire sous des conditions relâchées, unifiant les méthodes existantes
Fourniture de classes de problèmes structurés satisfaisant les nouvelles conditions de croissance

Limitations

Vérification des conditions: La vérification des conditions de croissance bilatérales dans les applications pratiques peut être difficile
Sélection des paramètres: Le choix du paramètre optimal $θ$ nécessite une connaissance spécifique au problème
Traitement des contraintes: Concentration principale sur les ensembles de contraintes simples, avec une applicabilité limitée aux contraintes complexes

Directions Futures

Étude du comportement de convergence sous les conditions de croissance quadratique unilatérales
Exploration des applications en optimisation distribuée
Extension aux problèmes d'optimisation avec contraintes plus complexes

Évaluation Approfondie

Avantages

Innovation théorique: Extension systématique pour la première fois des conditions de croissance quadratique aux problèmes de point selle, comblant une lacune théorique importante
Cadre unifié: L'algorithme GAPD unifie élégamment plusieurs méthodes existantes
Valeur pratique: Les conditions relâchées rendent la méthode applicable à une classe plus large de problèmes
Analyse rigoureuse: Fourniture d'une analyse de convergence complète et de taux de convergence explicites

Insuffisances

Expériences limitées: Les expériences numériques sont relativement simples, manquant de validation dans des scénarios d'application réelle
Relations entre conditions: L'analyse des relations entre les conditions QFG et QGG bilatérales pourrait être plus approfondie
Complexité computationnelle: L'analyse détaillée de la complexité computationnelle par itération n'est pas fournie

Impact

Contribution académique: Fourniture d'outils théoriques importants pour la théorie de l'optimisation de point selle
Valeur pratique: L'unification et la flexibilité de la méthode offrent un potentiel dans plusieurs domaines d'application
Extensibilité: Fourniture d'une base théorique solide pour les recherches ultérieures

Scénarios d'Application

Entraînement antagoniste en apprentissage automatique
Optimisation robuste distributionnelle
Applications en théorie des jeux
Problèmes d'optimisation convexe avec structure spéciale

Références Bibliographiques

L'article cite 46 références connexes, couvrant plusieurs domaines pertinents incluant l'optimisation de point selle, les inégalités variationnelles, les conditions de croissance quadratique et autres travaux importants, fournissant une base théorique solide pour cette recherche.