2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani
In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.
academic

Convergencia Lineal de un Algoritmo Primal-Dual Unificado para Problemas de Punto de Silla Convexo-Cóncavo con Crecimiento Cuadrático

Información Básica

  • ID del Artículo: 2510.11990
  • Título: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
  • Autores: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
  • Clasificación: math.OC (Optimización y Control)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.11990

Resumen

Este artículo estudia problemas de punto de silla (SP), enfocándose en problemas de optimización convexo-cóncava que satisfacen condiciones de crecimiento cuadrático bilateral de función (QFG) o crecimiento cuadrático bilateral de gradiente (QGG). Estas condiciones son nuevas y están específicamente diseñadas para problemas de punto de silla, extendiendo las condiciones de crecimiento cuadrático de problemas de minimización. Estas condiciones relajan los requisitos tradicionales de convexidad fuerte-concavidad fuerte, abarcando así una clase más amplia de problemas. Los autores proponen el algoritmo primal-dual acelerado generalizado (GAPD) para resolver problemas de punto de silla con funciones objetivo no bilineales, unificando y extendiendo métodos existentes. Se demuestra que el método logra una tasa de convergencia lineal bajo estas condiciones relajadas. Además, se proporcionan ejemplos de problemas de punto de silla estructurados que satisfacen QFG o QGG bilateral, demostrando la aplicabilidad práctica y relevancia del método.

Antecedentes de Investigación y Motivación

Definición del Problema

Este artículo estudia el siguiente problema de punto de silla: minxXmaxyYf(x,y)\min_{x \in X} \max_{y \in Y} f(x,y) donde f:X×YRf: X \times Y \rightarrow \mathbb{R} es convexa en xx para cualquier yYy \in Y y cóncava en yy para cualquier xXx \in X, siendo XXX \subseteq \mathcal{X} e YYY \subseteq \mathcal{Y} conjuntos cerrados y convexos.

Motivación de la Investigación

  1. Limitaciones de Métodos Tradicionales: Los resultados de convergencia lineal existentes para problemas de punto de silla típicamente requieren condiciones de convexidad fuerte-concavidad fuerte, que son demasiado restrictivas en muchas aplicaciones prácticas.
  2. Amplitud de Aplicaciones: Los problemas de punto de silla tienen aplicaciones importantes en teoría de juegos, aprendizaje robusto distribuido, redes generativas adversariales y otros campos.
  3. Vacío Teórico: Aunque en problemas de minimización las condiciones de crecimiento cuadrático (QFG y QGG) han demostrado garantizar convergencia lineal, extender estas condiciones a problemas de punto de silla es un desafío no trivial que en gran medida permanece sin explorar.
  4. Unificación de Métodos: Los métodos primal-duales existentes como APD y OGDA carecen de un marco de análisis unificado.

Contribuciones Principales

  1. Propuesta de Condiciones de Crecimiento Bilateral: Primera extensión de las condiciones QFG y QGG a problemas de punto de silla, definiendo condiciones de crecimiento cuadrático bilateral de función y crecimiento cuadrático bilateral de gradiente.
  2. Marco Algorítmico Unificado: Propuesta del algoritmo primal-dual acelerado generalizado (GAPD), que unifica los métodos APD y OGDA existentes.
  3. Garantía de Convergencia Lineal: Demostración de que el algoritmo GAPD logra una tasa de convergencia lineal bajo condiciones QFG o QGG bilateral.
  4. Extensión de Distancia de Bregman: Extensión del marco de análisis a distancias de Bregman, aumentando la flexibilidad y aplicabilidad del método.
  5. Categorías de Problemas Estructurados: Provisión de ejemplos específicos de problemas de punto de silla estructurados que satisfacen condiciones de crecimiento bilateral.

Explicación Detallada del Método

Definición de la Tarea

Estudio de problemas de optimización de punto de silla convexo-cóncavo donde la función objetivo satisface condiciones de crecimiento cuadrático bilateral en lugar de las condiciones tradicionales de convexidad fuerte-concavidad fuerte.

Definiciones Principales

Crecimiento Cuadrático Bilateral de Gradiente (Two-Sided QGG)

Para un problema de punto de silla, si existen constantes (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 tales que para cualquier xXx \in X e yYy \in Y: F(z)F(zˉ),zzˉ2DZM(z,zˉ)\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z}) donde z=[xT,yT]Tz = [x^T, y^T]^T, zˉ=PZ(z)\bar{z} = P_{Z^*}(z), F(z)=[xf(x,y)T,yf(x,y)T]TF(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T, M=diag({μxIn,μyIm})M = \text{diag}(\{μ_x I_n, μ_y I_m\}).

Crecimiento Cuadrático Bilateral de Función (Two-Sided QFG)

Si existen constantes (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 tales que: f(x,yˉ)f(xˉ,y)DZM(z,zˉ)f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})

Arquitectura del Algoritmo GAPD

Las reglas de actualización principal del algoritmo GAPD son:

  1. Cálculo de Términos de Momento:
    • qky=yf(xk,yk)yf(xk1,yk1)q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})
    • qkx=xf(xk,yk)xf(xk1,yk1)q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})
  2. Actualización de Variable Dual: yk+1=argminyY{yf(xk,yk)+αkqky,y+1σkDY(y,yk)}y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}
  3. Construcción de Gradiente Agregado: sk=θkxf(xk,yk+1)+(1θk)xf(xk,yk)+βkqkxs_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x
  4. Actualización de Variable Primal: xk+1=argminxX{sk,x+1τkDX(x,xk)}x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}

Puntos de Innovación Técnica

  1. Unificación: Mediante el parámetro θkθ_k se unifican métodos existentes:
    • θk=0θ_k = 0: Se reduce a OGDA
    • θk=1,βk=0θ_k = 1, β_k = 0: Se reduce a APD
  2. Distancia de Bregman: Uso de distancia de Bregman en lugar de distancia euclidiana, proporcionando mayor flexibilidad.
  3. Condiciones Bilaterales: Primera extensión de condiciones de crecimiento unilateral a versiones bilaterales para problemas de punto de silla.

Análisis Teórico

Teorema de Convergencia Principal

Teorema 4.4: Sea {(xk,yk)}k0\{(x_k, y_k)\}_{k≥0} la secuencia generada por el Algoritmo 1. Asumiendo que se cumplen las Suposiciones 2.1-4.3, entonces para cualquier K1K ≥ 1 y Γ0Γ \succ 0: DZAKΓBK(zˉK,zK)t0tKDZA0(zˉ0,z0)D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)

Tasa de Convergencia Lineal

Corolario 4.5: Con selección apropiada de parámetros, la secuencia de iteraciones converge a la solución óptima a una tasa lineal: DZ(zˉK,zK)DZRK(zˉ0,z0)D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0) donde RK=αK+1(1α)cMR_K = \frac{α^{K+1}}{(1-α)c_M}, y la tasa de convergencia depende del parámetro ς>0ς > 0 (siendo ς=θς = θ para QFG y ς=2(1θ)ς = 2(1-θ) para QGG).

Categorías de Problemas Estructurados

Clase de Problemas

Se considera la siguiente clase de problemas de punto de silla convexo-cóncavo estructurados: minxXmaxyYh(C1x)+Ax,yg(C2y)\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y) donde h:RpRh: \mathbb{R}^p \rightarrow \mathbb{R} y g:RqRg: \mathbb{R}^q \rightarrow \mathbb{R} son funciones fuertemente convexas.

Condiciones Suficientes para Satisfacer las Condiciones

Proposición 5.1: Si existen constantes ξ1,ξ2,ξ3,ξ4>0ξ_1, ξ_2, ξ_3, ξ_4 > 0 tales que:

  • ξ1C1TC1ATAξ_1 C_1^T C_1 \succeq A^T A, ξ2C1TC1λ2GTGξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G
  • ξ3C2TC2AATξ_3 C_2^T C_2 \succeq AA^T, ξ4C2TC2ν2FTFξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F

entonces esta clase de problemas satisface las condiciones QGG y QFG bilateral.

Experimentos Numéricos

Configuración Experimental

Se consideran problemas de punto de silla generados aleatoriamente: minxRnmaxyRm12C1xb122+Ax,y12C2yb222\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2

Resultados Experimentales

  1. Pruebas de Dimensionalidad: Se realizan pruebas en tres dimensiones diferentes (n,m,p,q){(75,60,60,50),(150,120,120,100),(300,240,240,200)}(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}.
  2. Comparación de Desempeño: GAPD supera al método GDA estándar para diferentes valores de θθ.
  3. Influencia de Parámetros: θ=0.99θ = 0.99 logra el mejor desempeño, ligeramente superior al caso θ=1θ = 1.

Trabajo Relacionado

Problemas de Minimización

  • Las condiciones QFG y QGG tienen valor importante tanto en configuraciones de optimización determinista como estocástica
  • Los trabajos existentes se enfocaban principalmente en convergencia lineal para problemas de optimización convexa

Problemas de Punto de Silla

  • Método Arrow-Hurwicz (GDA): complejidad O(κ2log(1/ε))O(κ^2 \log(1/ε))
  • Método de Gradiente Externo (EG): complejidad O(κlog(1/ε))O(κ \log(1/ε))
  • Método de Gradiente Optimista (OGDA): complejidad O(κlog(1/ε))O(κ \log(1/ε))
  • Método Primal-Dual Acelerado (APD): alcanza O(1/ε)O(1/ε) y O(1/ε2)O(1/ε^2) en configuraciones C-C y SC-C respectivamente

Desigualdades Variacionales

Las condiciones de crecimiento cuadrático están estrechamente relacionadas con análisis de cotas de error para operadores monótonos y regularidad métrica subregular.

Conclusiones y Discusión

Conclusiones Principales

  1. Extensión exitosa de condiciones de crecimiento cuadrático a problemas de punto de silla, proponiendo condiciones QFG y QGG bilateral
  2. El algoritmo GAPD logra convergencia lineal bajo condiciones relajadas, unificando métodos existentes
  3. Provisión de categorías de problemas estructurados que satisfacen las nuevas condiciones de crecimiento

Limitaciones

  1. Verificación de Condiciones: Verificar condiciones de crecimiento bilateral en aplicaciones prácticas puede ser desafiante
  2. Selección de Parámetros: La selección del parámetro óptimo θθ requiere conocimiento específico del problema
  3. Manejo de Restricciones: Se enfoca principalmente en conjuntos de restricciones simples, con capacidad limitada para restricciones complejas

Direcciones Futuras

  1. Investigación del comportamiento de convergencia bajo condiciones de crecimiento cuadrático unilateral
  2. Exploración de aplicaciones en optimización distribuida
  3. Extensión a problemas de optimización con restricciones más complejas

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: Primera extensión sistemática de condiciones de crecimiento cuadrático a problemas de punto de silla, llenando un vacío teórico importante
  2. Marco Unificado: El algoritmo GAPD unifica elegantemente múltiples métodos existentes
  3. Valor Práctico: Las condiciones relajadas hacen que el método sea aplicable a una clase más amplia de problemas
  4. Análisis Riguroso: Proporciona análisis completo de convergencia y tasas de convergencia específicas

Deficiencias

  1. Experimentos Limitados: Los experimentos numéricos son relativamente simples, careciendo de validación en escenarios de aplicación práctica
  2. Relación de Condiciones: El análisis de la relación entre condiciones QFG y QGG bilateral podría ser más profundo
  3. Complejidad Computacional: No se analiza en detalle la complejidad computacional de cada iteración

Impacto

  1. Contribución Académica: Proporciona herramientas teóricas importantes para la teoría de optimización de punto de silla
  2. Valor Práctico: La unificación y flexibilidad del método tiene potencial en múltiples dominios de aplicación
  3. Escalabilidad: Proporciona una base teórica sólida para investigaciones posteriores

Escenarios de Aplicación

  1. Entrenamiento adversarial en aprendizaje automático
  2. Optimización robusta distribuida
  3. Aplicaciones de teoría de juegos
  4. Problemas de optimización convexa con estructura especial

Referencias

El artículo cita 46 referencias relacionadas, cubriendo múltiples campos relevantes incluyendo optimización de punto de silla, desigualdades variacionales, condiciones de crecimiento cuadrático y otros trabajos importantes, proporcionando una base teórica sólida para esta investigación.