2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani

In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.

academic

Convergenza Lineare di un Algoritmo Primale-Duale Unificato per Problemi di Punto di Sella Convesso-Concavo con Crescita Quadratica

Informazioni Fondamentali

ID Articolo: 2510.11990
Titolo: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
Autori: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
Classificazione: math.OC (Ottimizzazione e Controllo)
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.11990

Riassunto

Questo articolo studia i problemi di punto di sella (SP), concentrandosi su problemi di ottimizzazione convesso-concava che soddisfano le condizioni di crescita quadratica bilaterale (QFG) o di crescita quadratica del gradiente bilaterale (QGG). Queste condizioni sono nuove e specificamente adattate ai problemi di punto di sella, rappresentando un'estensione delle condizioni di crescita quadratica nei problemi di minimizzazione. Tali condizioni attenuano i tradizionali requisiti di forte convessità-forte concavità, coprendo così una classe più ampia di problemi. Gli autori propongono l'algoritmo primale-duale accelerato generalizzato (GAPD) per risolvere problemi di punto di sella con funzioni obiettivo non bilineari, unificando ed estendendo i metodi esistenti. Si dimostra che il metodo raggiunge un tasso di convergenza lineare sotto queste condizioni attenuate. Inoltre, vengono forniti esempi di problemi di punto di sella strutturati che soddisfano le condizioni QFG o QGG bilaterali, dimostrando l'applicabilità pratica e la rilevanza del metodo.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo articolo studia il seguente problema di punto di sella: $\min_{x \in X} \max_{y \in Y} f(x,y)$ dove $f: X \times Y \rightarrow \mathbb{R}$ è convessa rispetto a $x$ per ogni $y \in Y$ e concava rispetto a $y$ per ogni $x \in X$ , e $X \subseteq \mathcal{X}$ e $Y \subseteq \mathcal{Y}$ sono insiemi chiusi e convessi.

Motivazione della Ricerca

Limitazioni dei Metodi Tradizionali: I risultati di convergenza lineare esistenti per problemi di punto di sella richiedono tipicamente condizioni di forte convessità-forte concavità, che sono troppo restrittive in molte applicazioni pratiche.
Ampia Applicabilità: I problemi di punto di sella hanno importanti applicazioni nella teoria dei giochi, nell'apprendimento robusto distribuito e nelle reti generative antagoniste.
Lacuna Teorica: Sebbene le condizioni di crescita quadratica (QFG e QGG) siano state dimostrate garantire convergenza lineare nei problemi di minimizzazione, l'estensione di queste condizioni ai problemi di punto di sella rappresenta una sfida non banale e rimane in gran parte inesplorata.
Unificazione dei Metodi: I metodi primali-duali esistenti come APD e OGDA mancano di un quadro di analisi unificato.

Contributi Principali

Proposizione di Condizioni di Crescita Bilaterale: Per la prima volta, le condizioni QFG e QGG sono estese ai problemi di punto di sella, definendo le condizioni di crescita quadratica bilaterale e di crescita quadratica del gradiente bilaterale.
Quadro Algoritmico Unificato: Viene proposto l'algoritmo primale-duale accelerato generalizzato (GAPD), che unifica i metodi APD e OGDA esistenti.
Garanzie di Convergenza Lineare: Si dimostra che l'algoritmo GAPD raggiunge un tasso di convergenza lineare sotto le condizioni QFG o QGG bilaterali.
Estensione della Distanza di Bregman: Il quadro di analisi è esteso alla distanza di Bregman, aumentando la flessibilità e l'applicabilità del metodo.
Classi di Problemi Strutturati: Vengono forniti esempi concreti di problemi di punto di sella strutturati che soddisfano le condizioni di crescita bilaterale.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Studio di problemi di ottimizzazione di punto di sella convesso-concavo, dove la funzione obiettivo soddisfa condizioni di crescita quadratica bilaterale piuttosto che le tradizionali condizioni di forte convessità-forte concavità.

Definizioni Fondamentali

Crescita Quadratica del Gradiente Bilaterale (Two-Sided QGG)

Per un problema di punto di sella, se esistono costanti $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ tali che per ogni $x \in X$ e $y \in Y$ : $\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z})$ dove $z = [x^T, y^T]^T$ , $\bar{z} = P_{Z^*}(z)$ , $F(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T$ , $M = \text{diag}(\{μ_x I_n, μ_y I_m\})$ .

Crescita Quadratica della Funzione Bilaterale (Two-Sided QFG)

Se esistono costanti $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ tali che: $f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})$

Architettura dell'Algoritmo GAPD

Le regole di aggiornamento fondamentali dell'algoritmo GAPD sono:

Calcolo dei Termini di Momento:
- $q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})$
- $q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})$
Aggiornamento della Variabile Duale: $y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}$
Costruzione del Gradiente Aggregato: $s_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x$
Aggiornamento della Variabile Primale: $x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}$

Punti di Innovazione Tecnica

Unificazione: Attraverso il parametro $θ_k$ $θ_{k}$ si unificano i metodi esistenti:
- $θ_k = 0$ : degenera in OGDA
- $θ_k = 1, β_k = 0$ : degenera in APD
Distanza di Bregman: L'uso della distanza di Bregman al posto della distanza euclidea fornisce maggiore flessibilità.
Condizioni Bilaterali: Per la prima volta, le condizioni di crescita unilaterale sono estese alla versione bilaterale per i problemi di punto di sella.

Analisi Teorica

Teorema di Convergenza Principale

Teorema 4.4: Sia $\{(x_k, y_k)\}_{k≥0}$ la sequenza generata dall'Algoritmo 1. Assumendo che le Assunzioni 2.1-4.3 siano soddisfatte, allora per ogni $K ≥ 1$ e $Γ \succ 0$ : $D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)$

Tasso di Convergenza Lineare

Corollario 4.5: Con scelte di parametri appropriate, la sequenza iterativa converge al set di soluzioni ottimali con tasso lineare: $D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0)$ dove $R_K = \frac{α^{K+1}}{(1-α)c_M}$ , e il tasso di convergenza dipende dal parametro $ς > 0$ (con $ς = θ$ per QFG e $ς = 2(1-θ)$ per QGG).

Classi di Problemi Strutturati

Categoria di Problemi

Si considerano i seguenti problemi di punto di sella convesso-concavo strutturati: $\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y)$ dove $h: \mathbb{R}^p \rightarrow \mathbb{R}$ e $g: \mathbb{R}^q \rightarrow \mathbb{R}$ sono funzioni fortemente convesse.

Condizioni Sufficienti per il Soddisfacimento

Proposizione 5.1: Se esistono costanti $ξ_1, ξ_2, ξ_3, ξ_4 > 0$ tali che:

$ξ_1 C_1^T C_1 \succeq A^T A$ , $ξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G$
$ξ_3 C_2^T C_2 \succeq AA^T$ , $ξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F$

allora questa categoria di problemi soddisfa le condizioni QGG e QFG bilaterali.

Esperimenti Numerici

Configurazione Sperimentale

Si considerano problemi di punto di sella generati casualmente: $\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2$

Risultati Sperimentali

Test di Dimensionalità: Test condotti su tre diverse dimensioni $(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}$ .
Confronto delle Prestazioni: GAPD supera il metodo GDA standard per diversi valori di $θ$ .
Effetto dei Parametri: $θ = 0.99$ raggiunge le migliori prestazioni, leggermente superiore al caso $θ = 1$ .

Lavori Correlati

Problemi di Minimizzazione

Le condizioni QFG e QGG hanno importanza significativa sia negli ambienti di ottimizzazione deterministica che stocastica
I lavori esistenti si concentrano principalmente sulla convergenza lineare nei problemi di ottimizzazione convessa

Problemi di Punto di Sella

Metodo Arrow-Hurwicz (GDA): complessità $O(κ^2 \log(1/ε))$
Metodo del Gradiente Esterno (EG): complessità $O(κ \log(1/ε))$
Metodo del Gradiente Ottimista (OGDA): complessità $O(κ \log(1/ε))$
Metodo Primale-Duale Accelerato (APD): raggiunge $O(1/ε)$ e $O(1/ε^2)$ rispettivamente nelle impostazioni C-C e SC-C

Disuguaglianze Variazionali

Le condizioni di crescita quadratica sono strettamente correlate all'analisi dei margini di errore per operatori monotoni e alla regolarità metrica sottile.

Conclusioni e Discussione

Conclusioni Principali

Estensione riuscita delle condizioni di crescita quadratica ai problemi di punto di sella, con proposizione delle condizioni QFG e QGG bilaterali
L'algoritmo GAPD raggiunge convergenza lineare sotto condizioni attenuate, unificando i metodi esistenti
Fornitura di classi di problemi strutturati che soddisfano le nuove condizioni di crescita

Limitazioni

Verifica delle Condizioni: La verifica delle condizioni di crescita bilaterale nelle applicazioni pratiche potrebbe presentare sfide
Scelta dei Parametri: La scelta del parametro ottimale $θ$ richiede conoscenza specifica del problema
Gestione dei Vincoli: L'attenzione principale è rivolta a insiemi di vincoli semplici, con trattamento limitato di vincoli complessi

Direzioni Future

Studio del comportamento di convergenza sotto condizioni di crescita quadratica unilaterale
Esplorazione di applicazioni nell'ottimizzazione distribuita
Estensione a problemi di ottimizzazione con vincoli più complessi

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: Per la prima volta, le condizioni di crescita quadratica sono sistematicamente estese ai problemi di punto di sella, colmando un'importante lacuna teorica
Quadro Unificato: L'algoritmo GAPD unifica elegantemente molteplici metodi esistenti
Valore Pratico: Le condizioni attenuate rendono il metodo applicabile a una classe più ampia di problemi
Analisi Rigorosa: Fornisce un'analisi di convergenza completa e tassi di convergenza specifici

Punti Deboli

Esperimenti Limitati: Gli esperimenti numerici sono relativamente semplici, mancando di validazione in scenari di applicazione pratica
Relazione tra Condizioni: L'analisi della relazione tra le condizioni QFG e QGG bilaterali potrebbe essere più approfondita
Complessità Computazionale: Non è stata analizzata in dettaglio la complessità computazionale di ogni iterazione

Impatto

Contributo Accademico: Fornisce importanti strumenti teorici per la teoria dell'ottimizzazione di punto di sella
Valore Pratico: L'unificazione e la flessibilità del metodo lo rendono potenzialmente utile in molteplici domini applicativi
Estensibilità: Fornisce una base teorica solida per ricerche successive

Scenari Applicabili

Addestramento antagonista nell'apprendimento automatico
Ottimizzazione robusta distribuita
Applicazioni della teoria dei giochi
Problemi di ottimizzazione convessa con struttura speciale

Bibliografia

L'articolo cita 46 lavori correlati, coprendo molteplici aree rilevanti inclusi l'ottimizzazione di punto di sella, le disuguaglianze variazionali e le condizioni di crescita quadratica, fornendo una base teorica solida per questa ricerca.