2025-11-10T02:58:56.248145

Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth

Melcher, Jalilzadeh, Hamedani
In this paper, we study saddle point (SP) problems, focusing on convex-concave optimization involving functions that satisfy either two-sided quadratic functional growth (QFG) or two-sided quadratic gradient growth (QGG)--novel conditions tailored specifically for SP problems as extensions of quadratic growth conditions in minimization. These conditions relax the traditional requirement of strong convexity-strong concavity, thereby encompassing a broader class of problems. We propose a generalized accelerated primal-dual (GAPD) algorithm to solve SP problems with non-bilinear objective functions, unifying and extending existing methods. We prove that our method achieves a linear convergence rate under these relaxed conditions. Additionally, we provide examples of structured SP problems that satisfy either two-sided QFG or QGG, demonstrating the practical applicability and relevance of our approach.
academic

Lineare Konvergenz eines einheitlichen Primal-Dual-Algorithmus für konvex-konkave Sattelpunktprobleme mit quadratischem Wachstum

Grundlegende Informationen

  • Papier-ID: 2510.11990
  • Titel: Linear Convergence of a Unified Primal--Dual Algorithm for Convex--Concave Saddle Point Problems with Quadratic Growth
  • Autoren: Cody Melcher (University of Arizona), Afrooz Jalilzadeh (University of Arizona), Erfan Yazdandoost Hamedani (University of Arizona)
  • Klassifizierung: math.OC (Optimierung und Steuerung)
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv-Preprint)
  • Papierlink: https://arxiv.org/abs/2510.11990

Zusammenfassung

Dieses Papier untersucht Sattelpunktprobleme (SP) mit Fokus auf konvex-konkave Optimierungsprobleme, die die zweiseitigen Bedingungen des quadratischen Funktionswachstums (QFG) oder des quadratischen Gradientenwachstums (QGG) erfüllen. Diese Bedingungen sind speziell für Sattelpunktprobleme entwickelte neue Bedingungen und stellen eine Erweiterung der Wachstumsbedingungen aus Minimierungsproblemen dar. Diese Bedingungen lockern die traditionellen Anforderungen der starken Konvexität-starken Konkavität auf und umfassen somit eine breitere Klasse von Problemen. Die Autoren schlagen den verallgemeinerten beschleunigten Primal-Dual-Algorithmus (GAPD) zur Lösung von Sattelpunktproblemen mit nicht-bilinearen Zielfunktionen vor, der bestehende Methoden vereinheitlicht und erweitert. Es wird nachgewiesen, dass das Verfahren unter diesen gelockerten Bedingungen eine lineare Konvergenzrate erreicht. Darüber hinaus werden Beispiele strukturierter Sattelpunktprobleme bereitgestellt, die die zweiseitigen QFG- oder QGG-Bedingungen erfüllen, und demonstrieren die praktische Anwendbarkeit und Relevanz des Verfahrens.

Forschungshintergrund und Motivation

Problembeschreibung

Dieses Papier untersucht das folgende Sattelpunktproblem: minxXmaxyYf(x,y)\min_{x \in X} \max_{y \in Y} f(x,y) wobei f:X×YRf: X \times Y \rightarrow \mathbb{R} bezüglich xx konvex für alle yYy \in Y und bezüglich yy konkav für alle xXx \in X ist, und XXX \subseteq \mathcal{X} sowie YYY \subseteq \mathcal{Y} abgeschlossene konvexe Mengen sind.

Forschungsmotivation

  1. Einschränkungen traditioneller Methoden: Bestehende Ergebnisse zur linearen Konvergenz für Sattelpunktprobleme erfordern typischerweise Bedingungen der starken Konvexität-starken Konkavität, was in vielen praktischen Anwendungen zu restriktiv ist.
  2. Breite Anwendbarkeit: Sattelpunktprobleme haben wichtige Anwendungen in Spieltheorie, verteilungsrobustem Lernen, generativen gegnerischen Netzwerken und anderen Bereichen.
  3. Theoretische Lücke: Während Wachstumsbedingungen (QFG und QGG) in Minimierungsproblemen nachweislich lineare Konvergenz garantieren, ist die Erweiterung dieser Bedingungen auf Sattelpunktprobleme eine nicht-triviale Herausforderung und weitgehend unerforschtes Gebiet.
  4. Methodische Einheitlichkeit: Bestehende Primal-Dual-Methoden wie APD und OGDA ermangeln eines einheitlichen Analyseverfahrens.

Kernbeiträge

  1. Zweiseitige Wachstumsbedingungen: Erstmalige Erweiterung der QFG- und QGG-Bedingungen auf Sattelpunktprobleme mit Definition zweiseitiger quadratischer Funktionswachstums- und zweiseitiger quadratischer Gradientenwachstumsbedingungen.
  2. Einheitliches Algorithmusgerüst: Vorschlag des verallgemeinerten beschleunigten Primal-Dual-Algorithmus (GAPD), der die bestehenden APD- und OGDA-Methoden vereinheitlicht.
  3. Garantie linearer Konvergenz: Nachweis, dass der GAPD-Algorithmus unter zweiseitigen QFG- oder QGG-Bedingungen eine lineare Konvergenzrate erreicht.
  4. Bregman-Distanz-Erweiterung: Erweiterung des Analyseverfahrens auf Bregman-Distanzen, was die Flexibilität und Anwendbarkeit der Methode erhöht.
  5. Strukturierte Problemklassen: Bereitstellung konkreter Beispiele strukturierter Sattelpunktprobleme, die zweiseitige Wachstumsbedingungen erfüllen.

Methodische Erläuterung

Aufgabendefinition

Untersuchung konvex-konkaver Sattelpunkt-Optimierungsprobleme, bei denen die Zielfunktion zweiseitige quadratische Wachstumsbedingungen statt traditioneller starker Konvexität-starker Konkavität erfüllt.

Kerndefintionen

Zweiseitiges quadratisches Gradientenwachstum (Two-Sided QGG)

Für ein Sattelpunktproblem, wenn es Konstanten (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 gibt, so dass für alle xXx \in X und yYy \in Y gilt: F(z)F(zˉ),zzˉ2DZM(z,zˉ)\langle F(z) - F(\bar{z}), z - \bar{z} \rangle \geq 2D_Z^M(z, \bar{z}) wobei z=[xT,yT]Tz = [x^T, y^T]^T, zˉ=PZ(z)\bar{z} = P_{Z^*}(z), F(z)=[xf(x,y)T,yf(x,y)T]TF(z) = [\nabla_x f(x,y)^T, -\nabla_y f(x,y)^T]^T, M=diag({μxIn,μyIm})M = \text{diag}(\{μ_x I_n, μ_y I_m\}).

Zweiseitiges quadratisches Funktionswachstum (Two-Sided QFG)

Wenn es Konstanten (μx,μy)R++2(μ_x, μ_y) \in \mathbb{R}_{++}^2 gibt, so dass: f(x,yˉ)f(xˉ,y)DZM(z,zˉ)f(x, \bar{y}) - f(\bar{x}, y) \geq D_Z^M(z, \bar{z})

GAPD-Algorithmusarchitektur

Die Kernaktualisierungsregeln des GAPD-Algorithmus sind:

  1. Momentumterm-Berechnung:
    • qky=yf(xk,yk)yf(xk1,yk1)q_k^y = \nabla_y f(x_k, y_k) - \nabla_y f(x_{k-1}, y_{k-1})
    • qkx=xf(xk,yk)xf(xk1,yk1)q_k^x = \nabla_x f(x_k, y_k) - \nabla_x f(x_{k-1}, y_{k-1})
  2. Aktualisierung der dualen Variablen: yk+1=argminyY{yf(xk,yk)+αkqky,y+1σkDY(y,yk)}y_{k+1} = \arg\min_{y \in Y} \left\{-\langle \nabla_y f(x_k, y_k) + α_k q_k^y, y \rangle + \frac{1}{σ_k} D_Y(y, y_k) \right\}
  3. Konstruktion aggregierter Gradienten: sk=θkxf(xk,yk+1)+(1θk)xf(xk,yk)+βkqkxs_k = θ_k \nabla_x f(x_k, y_{k+1}) + (1-θ_k) \nabla_x f(x_k, y_k) + β_k q_k^x
  4. Aktualisierung der primalen Variablen: xk+1=argminxX{sk,x+1τkDX(x,xk)}x_{k+1} = \arg\min_{x \in X} \left\{ \langle s_k, x \rangle + \frac{1}{τ_k} D_X(x, x_k) \right\}

Technische Innovationen

  1. Einheitlichkeit: Vereinheitlichung bestehender Methoden durch Parameter θkθ_k:
    • θk=0θ_k = 0: Degeneration zu OGDA
    • θk=1,βk=0θ_k = 1, β_k = 0: Degeneration zu APD
  2. Bregman-Distanz: Verwendung von Bregman-Distanzen statt euklidischer Distanzen für größere Flexibilität.
  3. Zweiseitige Bedingungen: Erstmalige Erweiterung einseitiger Wachstumsbedingungen zur zweiseitigen Version für Sattelpunktprobleme.

Theoretische Analyse

Hauptkonvergenzsatz

Theorem 4.4: Sei {(xk,yk)}k0\{(x_k, y_k)\}_{k≥0} die durch Algorithmus 1 erzeugte Folge. Unter der Annahme, dass die Annahmen 2.1-4.3 erfüllt sind, gilt für alle K1K ≥ 1 und Γ0Γ \succ 0: DZAKΓBK(zˉK,zK)t0tKDZA0(zˉ0,z0)D_Z^{A_K - Γ B_K}(\bar{z}_K, z_K) ≤ \frac{t_0}{t_K} D_Z^{A_0}(\bar{z}_0, z_0)

Lineare Konvergenzrate

Korollar 4.5: Bei angemessener Parameterwahl konvergiert die Iterationsfolge mit linearer Geschwindigkeit zur optimalen Lösungsmenge: DZ(zˉK,zK)DZRK(zˉ0,z0)D_Z(\bar{z}_K, z_K) ≤ D_Z^{R_K}(\bar{z}_0, z_0) wobei RK=αK+1(1α)cMR_K = \frac{α^{K+1}}{(1-α)c_M}, und die Konvergenzrate hängt vom Parameter ς>0ς > 0 ab (bei QFG ist ς=θς = θ, bei QGG ist ς=2(1θ)ς = 2(1-θ)).

Strukturierte Problemklassen

Problemklasse

Betrachtung strukturierter konvex-konkaver Sattelpunktprobleme: minxXmaxyYh(C1x)+Ax,yg(C2y)\min_{x \in X} \max_{y \in Y} h(C_1 x) + \langle Ax, y \rangle - g(C_2 y) wobei h:RpRh: \mathbb{R}^p \rightarrow \mathbb{R} und g:RqRg: \mathbb{R}^q \rightarrow \mathbb{R} stark konvexe Funktionen sind.

Hinreichende Bedingungen für die Erfüllung der Bedingungen

Proposition 5.1: Wenn es Konstanten ξ1,ξ2,ξ3,ξ4>0ξ_1, ξ_2, ξ_3, ξ_4 > 0 gibt, so dass:

  • ξ1C1TC1ATAξ_1 C_1^T C_1 \succeq A^T A, ξ2C1TC1λ2GTGξ_2 C_1^T C_1 \succeq \|λ^*\|^2 G^T G
  • ξ3C2TC2AATξ_3 C_2^T C_2 \succeq AA^T, ξ4C2TC2ν2FTFξ_4 C_2^T C_2 \succeq \|ν^*\|^2 F^T F

dann erfüllt diese Problemklasse die zweiseitigen QGG- und QFG-Bedingungen.

Numerische Experimente

Experimentelle Einrichtung

Betrachtung zufällig generierter Sattelpunktprobleme: minxRnmaxyRm12C1xb122+Ax,y12C2yb222\min_{x \in \mathbb{R}^n} \max_{y \in \mathbb{R}^m} \frac{1}{2}\|C_1 x - b_1\|_2^2 + \langle Ax, y \rangle - \frac{1}{2}\|C_2 y - b_2\|_2^2

Experimentelle Ergebnisse

  1. Dimensionstests: Tests unter drei verschiedenen Dimensionen (n,m,p,q){(75,60,60,50),(150,120,120,100),(300,240,240,200)}(n,m,p,q) \in \{(75,60,60,50), (150,120,120,100), (300,240,240,200)\}.
  2. Leistungsvergleich: GAPD übertrifft die Standard-GDA-Methode bei verschiedenen θθ-Werten.
  3. Parametereinfluss: θ=0.99θ = 0.99 erreicht die beste Leistung, leicht besser als der Fall θ=1θ = 1.

Verwandte Arbeiten

Minimierungsprobleme

  • QFG- und QGG-Bedingungen haben wichtige Bedeutung in deterministischen und stochastischen Optimierungseinstellungen
  • Bestehende Arbeiten konzentrieren sich hauptsächlich auf lineare Konvergenz bei konvexen Optimierungsproblemen

Sattelpunktprobleme

  • Arrow-Hurwicz-Methode (GDA): O(κ2log(1/ε))O(κ^2 \log(1/ε)) Komplexität
  • Extragradientenmethode (EG): O(κlog(1/ε))O(κ \log(1/ε)) Komplexität
  • Optimistische Gradientenmethode (OGDA): O(κlog(1/ε))O(κ \log(1/ε)) Komplexität
  • Beschleunigter Primal-Dual-Algorithmus (APD): erreicht O(1/ε)O(1/ε) bzw. O(1/ε2)O(1/ε^2) in C-C- und SC-C-Einstellungen

Variationsungleichungen

Quadratische Wachstumsbedingungen stehen in enger Beziehung zur Fehlergrenzanalyse monotoner Operatoren und metrischer Subregularität.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Erweiterung quadratischer Wachstumsbedingungen auf Sattelpunktprobleme mit Einführung zweiseitiger QFG- und QGG-Bedingungen
  2. Der GAPD-Algorithmus erreicht unter gelockerten Bedingungen lineare Konvergenz und vereinheitlicht bestehende Methoden
  3. Bereitstellung strukturierter Problemklassen, die neue Wachstumsbedingungen erfüllen

Einschränkungen

  1. Bedingungsverifikation: Die Verifikation zweiseitiger Wachstumsbedingungen in praktischen Anwendungen kann herausfordernd sein
  2. Parameterwahl: Die Wahl des optimalen Parameters θθ erfordert problemspezifisches Wissen
  3. Nebenbedingungsbehandlung: Fokus liegt hauptsächlich auf einfachen Nebenbedingungsmengen, mit begrenzter Behandlung komplexer Nebenbedingungen

Zukünftige Richtungen

  1. Untersuchung des Konvergenzverhaltens unter einseitigen quadratischen Wachstumsbedingungen
  2. Erkundung von Anwendungen in verteilter Optimierung
  3. Erweiterung auf komplexere Nebenbedingungsoptimierungsprobleme

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erstmalige systematische Erweiterung quadratischer Wachstumsbedingungen auf Sattelpunktprobleme, Schließung einer wichtigen theoretischen Lücke
  2. Einheitliches Gerüst: Der GAPD-Algorithmus vereinheitlicht elegant mehrere bestehende Methoden
  3. Praktischer Wert: Gelockerte Bedingungen ermöglichen die Anwendung auf eine breitere Problemklasse
  4. Rigorose Analyse: Vollständige Konvergenzanalyse und konkrete Konvergenzraten

Mängel

  1. Begrenzte Experimente: Numerische Experimente sind relativ einfach, mit mangelnder Validierung in realen Anwendungsszenarien
  2. Bedingungsbeziehungen: Die Beziehungsanalyse zwischen zweiseitigen QFG- und QGG-Bedingungen könnte tiefergehend sein
  3. Rechenkomplexität: Detaillierte Analyse der Rechenkomplexität pro Iteration fehlt

Einflussfähigkeit

  1. Akademischer Beitrag: Bereitstellung wichtiger theoretischer Werkzeuge für die Sattelpunkt-Optimierungstheorie
  2. Praktischer Wert: Die Einheitlichkeit und Flexibilität der Methode bietet Potenzial in mehreren Anwendungsbereichen
  3. Erweiterbarkeit: Bietet solide theoretische Grundlagen für nachfolgende Forschung

Anwendungsszenarien

  1. Adversariales Training im maschinellen Lernen
  2. Verteilungsrobuste Optimierung
  3. Spieltheoretische Anwendungen
  4. Konvexe Optimierungsprobleme mit spezieller Struktur

Literaturverzeichnis

Das Papier zitiert 46 relevante Literaturquellen, die wichtige Arbeiten in mehreren verwandten Bereichen wie Sattelpunkt-Optimierung, Variationsungleichungen und quadratischen Wachstumsbedingungen abdecken und eine solide theoretische Grundlage für diese Forschung bieten.