2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani

In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.

academic

Lineare Konvergenz eines einheitlichen Primal-Dual-Algorithmus für konvex-konkave Sattelpunktprobleme mit quadratischem Wachstum

Grundlegende Informationen

Papier-ID: 2510.11990
Titel: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
Autoren: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
Klassifizierung: math.OC (Optimierung und Steuerung)
Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
Papierlink: https://arxiv.org/abs/2510.11990

Zusammenfassung

Dieses Papier untersucht Sattelpunktprobleme (SP) mit Fokus auf konvex-konkave Optimierungsprobleme, die die zweiseitigen Bedingungen des quadratischen Funktionswachstums (QFG) oder des quadratischen Gradientenwachstums (QGG) erfüllen. Diese Bedingungen sind speziell für Sattelpunktprobleme entwickelte neue Bedingungen und stellen eine Erweiterung der Wachstumsbedingungen aus Minimierungsproblemen dar. Diese Bedingungen lockern die traditionellen Anforderungen der starken Konvexität-starken Konkavität auf und umfassen somit eine breitere Klasse von Problemen. Die Autoren schlagen den verallgemeinerten beschleunigten Primal-Dual-Algorithmus (GAPD) zur Lösung von Sattelpunktproblemen mit nicht-bilinearen Zielfunktionen vor, der bestehende Methoden vereinheitlicht und erweitert. Es wird nachgewiesen, dass das Verfahren unter diesen gelockerten Bedingungen eine lineare Konvergenzrate erreicht. Darüber hinaus werden Beispiele strukturierter Sattelpunktprobleme bereitgestellt, die die zweiseitigen QFG- oder QGG-Bedingungen erfüllen, und demonstrieren die praktische Anwendbarkeit und Relevanz des Verfahrens.

Forschungshintergrund und Motivation

Problembeschreibung

Dieses Papier untersucht das folgende Sattelpunktproblem: $\min_{x \in X} \max_{y \in Y} f(x,y)$ wobei $f: X \times Y \rightarrow \mathbb{R}$ bezüglich $x$ konvex für alle $y \in Y$ und bezüglich $y$ konkav für alle $x \in X$ ist, und $X \subseteq \mathcal{X}$ sowie $Y \subseteq \mathcal{Y}$ abgeschlossene konvexe Mengen sind.

Forschungsmotivation

Einschränkungen traditioneller Methoden: Bestehende Ergebnisse zur linearen Konvergenz für Sattelpunktprobleme erfordern typischerweise Bedingungen der starken Konvexität-starken Konkavität, was in vielen praktischen Anwendungen zu restriktiv ist.
Breite Anwendbarkeit: Sattelpunktprobleme haben wichtige Anwendungen in Spieltheorie, verteilungsrobustem Lernen, generativen gegnerischen Netzwerken und anderen Bereichen.
Theoretische Lücke: Während Wachstumsbedingungen (QFG und QGG) in Minimierungsproblemen nachweislich lineare Konvergenz garantieren, ist die Erweiterung dieser Bedingungen auf Sattelpunktprobleme eine nicht-triviale Herausforderung und weitgehend unerforschtes Gebiet.
Methodische Einheitlichkeit: Bestehende Primal-Dual-Methoden wie APD und OGDA ermangeln eines einheitlichen Analyseverfahrens.

Kernbeiträge

Zweiseitige Wachstumsbedingungen: Erstmalige Erweiterung der QFG- und QGG-Bedingungen auf Sattelpunktprobleme mit Definition zweiseitiger quadratischer Funktionswachstums- und zweiseitiger quadratischer Gradientenwachstumsbedingungen.
Einheitliches Algorithmusgerüst: Vorschlag des verallgemeinerten beschleunigten Primal-Dual-Algorithmus (GAPD), der die bestehenden APD- und OGDA-Methoden vereinheitlicht.
Garantie linearer Konvergenz: Nachweis, dass der GAPD-Algorithmus unter zweiseitigen QFG- oder QGG-Bedingungen eine lineare Konvergenzrate erreicht.
Bregman-Distanz-Erweiterung: Erweiterung des Analyseverfahrens auf Bregman-Distanzen, was die Flexibilität und Anwendbarkeit der Methode erhöht.
Strukturierte Problemklassen: Bereitstellung konkreter Beispiele strukturierter Sattelpunktprobleme, die zweiseitige Wachstumsbedingungen erfüllen.

Methodische Erläuterung

Aufgabendefinition

Untersuchung konvex-konkaver Sattelpunkt-Optimierungsprobleme, bei denen die Zielfunktion zweiseitige quadratische Wachstumsbedingungen statt traditioneller starker Konvexität-starker Konkavität erfüllt.

Kerndefintionen

Zweiseitiges quadratisches Gradientenwachstum (Two-Sided QGG)

Für ein Sattelpunktproblem, wenn es Konstanten $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ gibt, so dass für alle $x \in X$ und $y \in Y$ gilt: $\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z})$ wobei $z = [x^T, y^T]^T$ , $\bar{z} = P_{Z^*}(z)$ , $F(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T$ , $M = \text{diag}(\{μ_x I_n, μ_y I_m\})$ .

Zweiseitiges quadratisches Funktionswachstum (Two-Sided QFG)

Wenn es Konstanten $(μ_x, μ_y) \in \mathbb{R}_{++}^2$ gibt, so dass: $f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})$

GAPD-Algorithmusarchitektur

Die Kernaktualisierungsregeln des GAPD-Algorithmus sind:

Momentumterm-Berechnung:
- $q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})$
- $q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})$
Aktualisierung der dualen Variablen: $y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}$
Konstruktion aggregierter Gradienten: $s_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x$
Aktualisierung der primalen Variablen: $x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}$

Technische Innovationen

Einheitlichkeit: Vereinheitlichung bestehender Methoden durch Parameter $θ_k$ $θ_{k}$ :
- $θ_k = 0$ : Degeneration zu OGDA
- $θ_k = 1, β_k = 0$ : Degeneration zu APD
Bregman-Distanz: Verwendung von Bregman-Distanzen statt euklidischer Distanzen für größere Flexibilität.
Zweiseitige Bedingungen: Erstmalige Erweiterung einseitiger Wachstumsbedingungen zur zweiseitigen Version für Sattelpunktprobleme.

Theoretische Analyse

Hauptkonvergenzsatz

Theorem 4.4: Sei $\{(x_k, y_k)\}_{k≥0}$ die durch Algorithmus 1 erzeugte Folge. Unter der Annahme, dass die Annahmen 2.1-4.3 erfüllt sind, gilt für alle $K ≥ 1$ und $Γ \succ 0$ : $D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)$

Lineare Konvergenzrate

Korollar 4.5: Bei angemessener Parameterwahl konvergiert die Iterationsfolge mit linearer Geschwindigkeit zur optimalen Lösungsmenge: $D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0)$ wobei $R_K = \frac{α^{K+1}}{(1-α)c_M}$ , und die Konvergenzrate hängt vom Parameter $ς > 0$ ab (bei QFG ist $ς = θ$ , bei QGG ist $ς = 2(1-θ)$ ).

Strukturierte Problemklassen

Problemklasse

Betrachtung strukturierter konvex-konkaver Sattelpunktprobleme: $\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y)$ wobei $h: \mathbb{R}^p \rightarrow \mathbb{R}$ und $g: \mathbb{R}^q \rightarrow \mathbb{R}$ stark konvexe Funktionen sind.

Hinreichende Bedingungen für die Erfüllung der Bedingungen

Proposition 5.1: Wenn es Konstanten $ξ_1, ξ_2, ξ_3, ξ_4 > 0$ gibt, so dass:

$ξ_1 C_1^T C_1 \succeq A^T A$ , $ξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G$
$ξ_3 C_2^T C_2 \succeq AA^T$ , $ξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F$

dann erfüllt diese Problemklasse die zweiseitigen QGG- und QFG-Bedingungen.

Numerische Experimente

Experimentelle Einrichtung

Betrachtung zufällig generierter Sattelpunktprobleme: $\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2$

Experimentelle Ergebnisse

Dimensionstests: Tests unter drei verschiedenen Dimensionen $(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}$ .
Leistungsvergleich: GAPD übertrifft die Standard-GDA-Methode bei verschiedenen $θ$ -Werten.
Parametereinfluss: $θ = 0.99$ erreicht die beste Leistung, leicht besser als der Fall $θ = 1$ .

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Erweiterung quadratischer Wachstumsbedingungen auf Sattelpunktprobleme mit Einführung zweiseitiger QFG- und QGG-Bedingungen
Der GAPD-Algorithmus erreicht unter gelockerten Bedingungen lineare Konvergenz und vereinheitlicht bestehende Methoden
Bereitstellung strukturierter Problemklassen, die neue Wachstumsbedingungen erfüllen

Einschränkungen

Bedingungsverifikation: Die Verifikation zweiseitiger Wachstumsbedingungen in praktischen Anwendungen kann herausfordernd sein
Parameterwahl: Die Wahl des optimalen Parameters $θ$ erfordert problemspezifisches Wissen
Nebenbedingungsbehandlung: Fokus liegt hauptsächlich auf einfachen Nebenbedingungsmengen, mit begrenzter Behandlung komplexer Nebenbedingungen

Zukünftige Richtungen

Untersuchung des Konvergenzverhaltens unter einseitigen quadratischen Wachstumsbedingungen
Erkundung von Anwendungen in verteilter Optimierung
Erweiterung auf komplexere Nebenbedingungsoptimierungsprobleme

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Erstmalige systematische Erweiterung quadratischer Wachstumsbedingungen auf Sattelpunktprobleme, Schließung einer wichtigen theoretischen Lücke
Einheitliches Gerüst: Der GAPD-Algorithmus vereinheitlicht elegant mehrere bestehende Methoden
Praktischer Wert: Gelockerte Bedingungen ermöglichen die Anwendung auf eine breitere Problemklasse
Rigorose Analyse: Vollständige Konvergenzanalyse und konkrete Konvergenzraten

Mängel

Begrenzte Experimente: Numerische Experimente sind relativ einfach, mit mangelnder Validierung in realen Anwendungsszenarien
Bedingungsbeziehungen: Die Beziehungsanalyse zwischen zweiseitigen QFG- und QGG-Bedingungen könnte tiefergehend sein
Rechenkomplexität: Detaillierte Analyse der Rechenkomplexität pro Iteration fehlt

Einflussfähigkeit

Akademischer Beitrag: Bereitstellung wichtiger theoretischer Werkzeuge für die Sattelpunkt-Optimierungstheorie
Praktischer Wert: Die Einheitlichkeit und Flexibilität der Methode bietet Potenzial in mehreren Anwendungsbereichen
Erweiterbarkeit: Bietet solide theoretische Grundlagen für nachfolgende Forschung

Anwendungsszenarien

Adversariales Training im maschinellen Lernen
Verteilungsrobuste Optimierung
Spieltheoretische Anwendungen
Konvexe Optimierungsprobleme mit spezieller Struktur

Literaturverzeichnis

Das Papier zitiert 46 relevante Literaturquellen, die wichtige Arbeiten in mehreren verwandten Bereichen wie Sattelpunkt-Optimierung, Variationsungleichungen und quadratischen Wachstumsbedingungen abdecken und eine solide theoretische Grundlage für diese Forschung bieten.