2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani
In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.
academic

Convergenza Lineare di un Algoritmo Primale-Duale Unificato per Problemi di Punto di Sella Convesso-Concavo con Crescita Quadratica

Informazioni Fondamentali

  • ID Articolo: 2510.11990
  • Titolo: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
  • Autori: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
  • Classificazione: math.OC (Ottimizzazione e Controllo)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.11990

Riassunto

Questo articolo studia i problemi di punto di sella (SP), concentrandosi su problemi di ottimizzazione convesso-concava che soddisfano le condizioni di crescita quadratica bilaterale (QFG) o di crescita quadratica del gradiente bilaterale (QGG). Queste condizioni sono nuove e specificamente adattate ai problemi di punto di sella, rappresentando un'estensione delle condizioni di crescita quadratica nei problemi di minimizzazione. Tali condizioni attenuano i tradizionali requisiti di forte convessità-forte concavità, coprendo così una classe più ampia di problemi. Gli autori propongono l'algoritmo primale-duale accelerato generalizzato (GAPD) per risolvere problemi di punto di sella con funzioni obiettivo non bilineari, unificando ed estendendo i metodi esistenti. Si dimostra che il metodo raggiunge un tasso di convergenza lineare sotto queste condizioni attenuate. Inoltre, vengono forniti esempi di problemi di punto di sella strutturati che soddisfano le condizioni QFG o QGG bilaterali, dimostrando l'applicabilità pratica e la rilevanza del metodo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo articolo studia il seguente problema di punto di sella: minxXmaxyYf(x,y)\min_{x \in X} \max_{y \in Y} f(x,y) dove f:X×YRf: X \times Y \rightarrow \mathbb{R} è convessa rispetto a xx per ogni yYy \in Y e concava rispetto a yy per ogni xXx \in X, e XXX \subseteq \mathcal{X} e YYY \subseteq \mathcal{Y} sono insiemi chiusi e convessi.

Motivazione della Ricerca

  1. Limitazioni dei Metodi Tradizionali: I risultati di convergenza lineare esistenti per problemi di punto di sella richiedono tipicamente condizioni di forte convessità-forte concavità, che sono troppo restrittive in molte applicazioni pratiche.
  2. Ampia Applicabilità: I problemi di punto di sella hanno importanti applicazioni nella teoria dei giochi, nell'apprendimento robusto distribuito e nelle reti generative antagoniste.
  3. Lacuna Teorica: Sebbene le condizioni di crescita quadratica (QFG e QGG) siano state dimostrate garantire convergenza lineare nei problemi di minimizzazione, l'estensione di queste condizioni ai problemi di punto di sella rappresenta una sfida non banale e rimane in gran parte inesplorata.
  4. Unificazione dei Metodi: I metodi primali-duali esistenti come APD e OGDA mancano di un quadro di analisi unificato.

Contributi Principali

  1. Proposizione di Condizioni di Crescita Bilaterale: Per la prima volta, le condizioni QFG e QGG sono estese ai problemi di punto di sella, definendo le condizioni di crescita quadratica bilaterale e di crescita quadratica del gradiente bilaterale.
  2. Quadro Algoritmico Unificato: Viene proposto l'algoritmo primale-duale accelerato generalizzato (GAPD), che unifica i metodi APD e OGDA esistenti.
  3. Garanzie di Convergenza Lineare: Si dimostra che l'algoritmo GAPD raggiunge un tasso di convergenza lineare sotto le condizioni QFG o QGG bilaterali.
  4. Estensione della Distanza di Bregman: Il quadro di analisi è esteso alla distanza di Bregman, aumentando la flessibilità e l'applicabilità del metodo.
  5. Classi di Problemi Strutturati: Vengono forniti esempi concreti di problemi di punto di sella strutturati che soddisfano le condizioni di crescita bilaterale.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Studio di problemi di ottimizzazione di punto di sella convesso-concavo, dove la funzione obiettivo soddisfa condizioni di crescita quadratica bilaterale piuttosto che le tradizionali condizioni di forte convessità-forte concavità.

Definizioni Fondamentali

Crescita Quadratica del Gradiente Bilaterale (Two-Sided QGG)

Per un problema di punto di sella, se esistono costanti (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 tali che per ogni xXx \in X e yYy \in Y: F(z)F(zˉ),zzˉ2DZM(z,zˉ)\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z}) dove z=[xT,yT]Tz = [x^T, y^T]^T, zˉ=PZ(z)\bar{z} = P_{Z^*}(z), F(z)=[xf(x,y)T,yf(x,y)T]TF(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T, M=diag({μxIn,μyIm})M = \text{diag}(\{μ_x I_n, μ_y I_m\}).

Crescita Quadratica della Funzione Bilaterale (Two-Sided QFG)

Se esistono costanti (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 tali che: f(x,yˉ)f(xˉ,y)DZM(z,zˉ)f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})

Architettura dell'Algoritmo GAPD

Le regole di aggiornamento fondamentali dell'algoritmo GAPD sono:

  1. Calcolo dei Termini di Momento:
    • qky=yf(xk,yk)yf(xk1,yk1)q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})
    • qkx=xf(xk,yk)xf(xk1,yk1)q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})
  2. Aggiornamento della Variabile Duale: yk+1=argminyY{yf(xk,yk)+αkqky,y+1σkDY(y,yk)}y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}
  3. Costruzione del Gradiente Aggregato: sk=θkxf(xk,yk+1)+(1θk)xf(xk,yk)+βkqkxs_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x
  4. Aggiornamento della Variabile Primale: xk+1=argminxX{sk,x+1τkDX(x,xk)}x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}

Punti di Innovazione Tecnica

  1. Unificazione: Attraverso il parametro θkθ_k si unificano i metodi esistenti:
    • θk=0θ_k = 0: degenera in OGDA
    • θk=1,βk=0θ_k = 1, β_k = 0: degenera in APD
  2. Distanza di Bregman: L'uso della distanza di Bregman al posto della distanza euclidea fornisce maggiore flessibilità.
  3. Condizioni Bilaterali: Per la prima volta, le condizioni di crescita unilaterale sono estese alla versione bilaterale per i problemi di punto di sella.

Analisi Teorica

Teorema di Convergenza Principale

Teorema 4.4: Sia {(xk,yk)}k0\{(x_k, y_k)\}_{k≥0} la sequenza generata dall'Algoritmo 1. Assumendo che le Assunzioni 2.1-4.3 siano soddisfatte, allora per ogni K1K ≥ 1 e Γ0Γ \succ 0: DZAKΓBK(zˉK,zK)t0tKDZA0(zˉ0,z0)D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)

Tasso di Convergenza Lineare

Corollario 4.5: Con scelte di parametri appropriate, la sequenza iterativa converge al set di soluzioni ottimali con tasso lineare: DZ(zˉK,zK)DZRK(zˉ0,z0)D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0) dove RK=αK+1(1α)cMR_K = \frac{α^{K+1}}{(1-α)c_M}, e il tasso di convergenza dipende dal parametro ς>0ς > 0 (con ς=θς = θ per QFG e ς=2(1θ)ς = 2(1-θ) per QGG).

Classi di Problemi Strutturati

Categoria di Problemi

Si considerano i seguenti problemi di punto di sella convesso-concavo strutturati: minxXmaxyYh(C1x)+Ax,yg(C2y)\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y) dove h:RpRh: \mathbb{R}^p \rightarrow \mathbb{R} e g:RqRg: \mathbb{R}^q \rightarrow \mathbb{R} sono funzioni fortemente convesse.

Condizioni Sufficienti per il Soddisfacimento

Proposizione 5.1: Se esistono costanti ξ1,ξ2,ξ3,ξ4>0ξ_1, ξ_2, ξ_3, ξ_4 > 0 tali che:

  • ξ1C1TC1ATAξ_1 C_1^T C_1 \succeq A^T A, ξ2C1TC1λ2GTGξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G
  • ξ3C2TC2AATξ_3 C_2^T C_2 \succeq AA^T, ξ4C2TC2ν2FTFξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F

allora questa categoria di problemi soddisfa le condizioni QGG e QFG bilaterali.

Esperimenti Numerici

Configurazione Sperimentale

Si considerano problemi di punto di sella generati casualmente: minxRnmaxyRm12C1xb122+Ax,y12C2yb222\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2

Risultati Sperimentali

  1. Test di Dimensionalità: Test condotti su tre diverse dimensioni (n,m,p,q){(75,60,60,50),(150,120,120,100),(300,240,240,200)}(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}.
  2. Confronto delle Prestazioni: GAPD supera il metodo GDA standard per diversi valori di θθ.
  3. Effetto dei Parametri: θ=0.99θ = 0.99 raggiunge le migliori prestazioni, leggermente superiore al caso θ=1θ = 1.

Lavori Correlati

Problemi di Minimizzazione

  • Le condizioni QFG e QGG hanno importanza significativa sia negli ambienti di ottimizzazione deterministica che stocastica
  • I lavori esistenti si concentrano principalmente sulla convergenza lineare nei problemi di ottimizzazione convessa

Problemi di Punto di Sella

  • Metodo Arrow-Hurwicz (GDA): complessità O(κ2log(1/ε))O(κ^2 \log(1/ε))
  • Metodo del Gradiente Esterno (EG): complessità O(κlog(1/ε))O(κ \log(1/ε))
  • Metodo del Gradiente Ottimista (OGDA): complessità O(κlog(1/ε))O(κ \log(1/ε))
  • Metodo Primale-Duale Accelerato (APD): raggiunge O(1/ε)O(1/ε) e O(1/ε2)O(1/ε^2) rispettivamente nelle impostazioni C-C e SC-C

Disuguaglianze Variazionali

Le condizioni di crescita quadratica sono strettamente correlate all'analisi dei margini di errore per operatori monotoni e alla regolarità metrica sottile.

Conclusioni e Discussione

Conclusioni Principali

  1. Estensione riuscita delle condizioni di crescita quadratica ai problemi di punto di sella, con proposizione delle condizioni QFG e QGG bilaterali
  2. L'algoritmo GAPD raggiunge convergenza lineare sotto condizioni attenuate, unificando i metodi esistenti
  3. Fornitura di classi di problemi strutturati che soddisfano le nuove condizioni di crescita

Limitazioni

  1. Verifica delle Condizioni: La verifica delle condizioni di crescita bilaterale nelle applicazioni pratiche potrebbe presentare sfide
  2. Scelta dei Parametri: La scelta del parametro ottimale θθ richiede conoscenza specifica del problema
  3. Gestione dei Vincoli: L'attenzione principale è rivolta a insiemi di vincoli semplici, con trattamento limitato di vincoli complessi

Direzioni Future

  1. Studio del comportamento di convergenza sotto condizioni di crescita quadratica unilaterale
  2. Esplorazione di applicazioni nell'ottimizzazione distribuita
  3. Estensione a problemi di ottimizzazione con vincoli più complessi

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: Per la prima volta, le condizioni di crescita quadratica sono sistematicamente estese ai problemi di punto di sella, colmando un'importante lacuna teorica
  2. Quadro Unificato: L'algoritmo GAPD unifica elegantemente molteplici metodi esistenti
  3. Valore Pratico: Le condizioni attenuate rendono il metodo applicabile a una classe più ampia di problemi
  4. Analisi Rigorosa: Fornisce un'analisi di convergenza completa e tassi di convergenza specifici

Punti Deboli

  1. Esperimenti Limitati: Gli esperimenti numerici sono relativamente semplici, mancando di validazione in scenari di applicazione pratica
  2. Relazione tra Condizioni: L'analisi della relazione tra le condizioni QFG e QGG bilaterali potrebbe essere più approfondita
  3. Complessità Computazionale: Non è stata analizzata in dettaglio la complessità computazionale di ogni iterazione

Impatto

  1. Contributo Accademico: Fornisce importanti strumenti teorici per la teoria dell'ottimizzazione di punto di sella
  2. Valore Pratico: L'unificazione e la flessibilità del metodo lo rendono potenzialmente utile in molteplici domini applicativi
  3. Estensibilità: Fornisce una base teorica solida per ricerche successive

Scenari Applicabili

  1. Addestramento antagonista nell'apprendimento automatico
  2. Ottimizzazione robusta distribuita
  3. Applicazioni della teoria dei giochi
  4. Problemi di ottimizzazione convessa con struttura speciale

Bibliografia

L'articolo cita 46 lavori correlati, coprendo molteplici aree rilevanti inclusi l'ottimizzazione di punto di sella, le disuguaglianze variazionali e le condizioni di crescita quadratica, fornendo una base teorica solida per questa ricerca.