2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani

In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.

academic

Convergencia Lineal de un Algoritmo Primal-Dual Unificado para Problemas de Punto de Silla Convexo-Cóncavo con Crecimiento Cuadrático

Información Básica

ID del Artículo: 2510.11990
Título: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
Autores: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
Clasificación: math.OC (Optimización y Control)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.11990

Resumen

Este artículo estudia problemas de punto de silla (SP), enfocándose en problemas de optimización convexo-cóncava que satisfacen condiciones de crecimiento cuadrático bilateral de función (QFG) o crecimiento cuadrático bilateral de gradiente (QGG). Estas condiciones son nuevas y están específicamente diseñadas para problemas de punto de silla, extendiendo las condiciones de crecimiento cuadrático de problemas de minimización. Estas condiciones relajan los requisitos tradicionales de convexidad fuerte-concavidad fuerte, abarcando así una clase más amplia de problemas. Los autores proponen el algoritmo primal-dual acelerado generalizado (GAPD) para resolver problemas de punto de silla con funciones objetivo no bilineales, unificando y extendiendo métodos existentes. Se demuestra que el método logra una tasa de convergencia lineal bajo estas condiciones relajadas. Además, se proporcionan ejemplos de problemas de punto de silla estructurados que satisfacen QFG o QGG bilateral, demostrando la aplicabilidad práctica y relevancia del método.

Antecedentes de Investigación y Motivación

Definición del Problema

Este artículo estudia el siguiente problema de punto de silla: $\min_{x \in X} \max_{y \in Y} f(x,y)$ donde $f: X \times Y \rightarrow \mathbb{R}$ es convexa en $x$ para cualquier $y \in Y$ y cóncava en $y$ para cualquier $x \in X$ , siendo $X \subseteq \mathcal{X}$ e $Y \subseteq \mathcal{Y}$ conjuntos cerrados y convexos.

Motivación de la Investigación

Limitaciones de Métodos Tradicionales: Los resultados de convergencia lineal existentes para problemas de punto de silla típicamente requieren condiciones de convexidad fuerte-concavidad fuerte, que son demasiado restrictivas en muchas aplicaciones prácticas.
Amplitud de Aplicaciones: Los problemas de punto de silla tienen aplicaciones importantes en teoría de juegos, aprendizaje robusto distribuido, redes generativas adversariales y otros campos.
Vacío Teórico: Aunque en problemas de minimización las condiciones de crecimiento cuadrático (QFG y QGG) han demostrado garantizar convergencia lineal, extender estas condiciones a problemas de punto de silla es un desafío no trivial que en gran medida permanece sin explorar.
Unificación de Métodos: Los métodos primal-duales existentes como APD y OGDA carecen de un marco de análisis unificado.

Contribuciones Principales

Propuesta de Condiciones de Crecimiento Bilateral: Primera extensión de las condiciones QFG y QGG a problemas de punto de silla, definiendo condiciones de crecimiento cuadrático bilateral de función y crecimiento cuadrático bilateral de gradiente.
Marco Algorítmico Unificado: Propuesta del algoritmo primal-dual acelerado generalizado (GAPD), que unifica los métodos APD y OGDA existentes.
Garantía de Convergencia Lineal: Demostración de que el algoritmo GAPD logra una tasa de convergencia lineal bajo condiciones QFG o QGG bilateral.
Extensión de Distancia de Bregman: Extensión del marco de análisis a distancias de Bregman, aumentando la flexibilidad y aplicabilidad del método.
Categorías de Problemas Estructurados: Provisión de ejemplos específicos de problemas de punto de silla estructurados que satisfacen condiciones de crecimiento bilateral.

Explicación Detallada del Método

Definición de la Tarea

Estudio de problemas de optimización de punto de silla convexo-cóncavo donde la función objetivo satisface condiciones de crecimiento cuadrático bilateral en lugar de las condiciones tradicionales de convexidad fuerte-concavidad fuerte.

Definiciones Principales

Crecimiento Cuadrático Bilateral de Gradiente (Two-Sided QGG)

Para un problema de punto de silla, si existen constantes $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ tales que para cualquier $x \in X$ e $y \in Y$ : $\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z})$ donde $z = [x^T, y^T]^T$ , $\bar{z} = P_{Z^*}(z)$ , $F(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T$ , $M = \text{diag}(\{μ_x I_n, μ_y I_m\})$ .

Crecimiento Cuadrático Bilateral de Función (Two-Sided QFG)

Si existen constantes $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ tales que: $f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})$

Arquitectura del Algoritmo GAPD

Las reglas de actualización principal del algoritmo GAPD son:

Cálculo de Términos de Momento:
- $q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})$
- $q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})$
Actualización de Variable Dual: $y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}$
Construcción de Gradiente Agregado: $s_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x$
Actualización de Variable Primal: $x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}$

Puntos de Innovación Técnica

Unificación: Mediante el parámetro $θ_k$ $θ_{k}$ se unifican métodos existentes:
- $θ_k = 0$ : Se reduce a OGDA
- $θ_k = 1, β_k = 0$ : Se reduce a APD
Distancia de Bregman: Uso de distancia de Bregman en lugar de distancia euclidiana, proporcionando mayor flexibilidad.
Condiciones Bilaterales: Primera extensión de condiciones de crecimiento unilateral a versiones bilaterales para problemas de punto de silla.

Análisis Teórico

Teorema de Convergencia Principal

Teorema 4.4: Sea $\{(x_k, y_k)\}_{k≥0}$ la secuencia generada por el Algoritmo 1. Asumiendo que se cumplen las Suposiciones 2.1-4.3, entonces para cualquier $K ≥ 1$ y $Γ \succ 0$ : $D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)$

Tasa de Convergencia Lineal

Corolario 4.5: Con selección apropiada de parámetros, la secuencia de iteraciones converge a la solución óptima a una tasa lineal: $D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0)$ donde $R_K = \frac{α^{K+1}}{(1-α)c_M}$ , y la tasa de convergencia depende del parámetro $ς > 0$ (siendo $ς = θ$ para QFG y $ς = 2(1-θ)$ para QGG).

Categorías de Problemas Estructurados

Clase de Problemas

Se considera la siguiente clase de problemas de punto de silla convexo-cóncavo estructurados: $\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y)$ donde $h: \mathbb{R}^p \rightarrow \mathbb{R}$ y $g: \mathbb{R}^q \rightarrow \mathbb{R}$ son funciones fuertemente convexas.

Condiciones Suficientes para Satisfacer las Condiciones

Proposición 5.1: Si existen constantes $ξ_1, ξ_2, ξ_3, ξ_4 > 0$ tales que:

$ξ_1 C_1^T C_1 \succeq A^T A$ , $ξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G$
$ξ_3 C_2^T C_2 \succeq AA^T$ , $ξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F$

entonces esta clase de problemas satisface las condiciones QGG y QFG bilateral.

Experimentos Numéricos

Configuración Experimental

Se consideran problemas de punto de silla generados aleatoriamente: $\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2$

Resultados Experimentales

Pruebas de Dimensionalidad: Se realizan pruebas en tres dimensiones diferentes $(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}$ .
Comparación de Desempeño: GAPD supera al método GDA estándar para diferentes valores de $θ$ .
Influencia de Parámetros: $θ = 0.99$ logra el mejor desempeño, ligeramente superior al caso $θ = 1$ .

Trabajo Relacionado

Problemas de Minimización

Las condiciones QFG y QGG tienen valor importante tanto en configuraciones de optimización determinista como estocástica
Los trabajos existentes se enfocaban principalmente en convergencia lineal para problemas de optimización convexa

Problemas de Punto de Silla

Método Arrow-Hurwicz (GDA): complejidad $O(κ^2 \log(1/ε))$
Método de Gradiente Externo (EG): complejidad $O(κ \log(1/ε))$
Método de Gradiente Optimista (OGDA): complejidad $O(κ \log(1/ε))$
Método Primal-Dual Acelerado (APD): alcanza $O(1/ε)$ y $O(1/ε^2)$ en configuraciones C-C y SC-C respectivamente

Desigualdades Variacionales

Las condiciones de crecimiento cuadrático están estrechamente relacionadas con análisis de cotas de error para operadores monótonos y regularidad métrica subregular.

Conclusiones y Discusión

Conclusiones Principales

Extensión exitosa de condiciones de crecimiento cuadrático a problemas de punto de silla, proponiendo condiciones QFG y QGG bilateral
El algoritmo GAPD logra convergencia lineal bajo condiciones relajadas, unificando métodos existentes
Provisión de categorías de problemas estructurados que satisfacen las nuevas condiciones de crecimiento

Limitaciones

Verificación de Condiciones: Verificar condiciones de crecimiento bilateral en aplicaciones prácticas puede ser desafiante
Selección de Parámetros: La selección del parámetro óptimo $θ$ requiere conocimiento específico del problema
Manejo de Restricciones: Se enfoca principalmente en conjuntos de restricciones simples, con capacidad limitada para restricciones complejas

Direcciones Futuras

Investigación del comportamiento de convergencia bajo condiciones de crecimiento cuadrático unilateral
Exploración de aplicaciones en optimización distribuida
Extensión a problemas de optimización con restricciones más complejas

Evaluación Profunda

Fortalezas

Innovación Teórica: Primera extensión sistemática de condiciones de crecimiento cuadrático a problemas de punto de silla, llenando un vacío teórico importante
Marco Unificado: El algoritmo GAPD unifica elegantemente múltiples métodos existentes
Valor Práctico: Las condiciones relajadas hacen que el método sea aplicable a una clase más amplia de problemas
Análisis Riguroso: Proporciona análisis completo de convergencia y tasas de convergencia específicas

Deficiencias

Experimentos Limitados: Los experimentos numéricos son relativamente simples, careciendo de validación en escenarios de aplicación práctica
Relación de Condiciones: El análisis de la relación entre condiciones QFG y QGG bilateral podría ser más profundo
Complejidad Computacional: No se analiza en detalle la complejidad computacional de cada iteración

Impacto

Contribución Académica: Proporciona herramientas teóricas importantes para la teoría de optimización de punto de silla
Valor Práctico: La unificación y flexibilidad del método tiene potencial en múltiples dominios de aplicación
Escalabilidad: Proporciona una base teórica sólida para investigaciones posteriores

Escenarios de Aplicación

Entrenamiento adversarial en aprendizaje automático
Optimización robusta distribuida
Aplicaciones de teoría de juegos
Problemas de optimización convexa con estructura especial

Referencias

El artículo cita 46 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo optimización de punto de silla, desigualdades variacionales, condiciones de crecimiento cuadrático y otros trabajos importantes, proporcionando una base teórica sólida para esta investigación.