2025-11-10T02:43:53.338320

Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization

Huang
In this paper, we propose a novel extrapolation coefficient scheme within a new extrapolation term and develop an accelerated proximal gradient algorithm. We establish that the algorithm achieves a sublinear convergence rate. The proposed scheme only requires the Lipschitz constant estimate sequence to satisfy mild initial conditions, under which a key equality property can be derived to support the convergence analysis. Numerical experiments are provided to demonstrate the effectiveness and practical performance of the proposed method.
academic

Schnelle beschleunigte proximale Gradientenmethode mit neuem Extrapolationsterm für Mehrzieloptimierung

Grundinformationen

  • Paper-ID: 2507.06737
  • Titel: Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization
  • Autor: Huang Chengzhi
  • Klassifizierung: math.OC (Optimierung und Steuerung)
  • Veröffentlichungsdatum: 17. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2507.06737

Zusammenfassung

In diesem Artikel wird ein neues Extrapolationskoeffizientenschema und ein Extrapolationsterm vorgeschlagen und ein beschleunigter proximaler Gradientenalgorithmus entwickelt. Der Algorithmus erreicht eine sublineare Konvergenzrate. Das vorgeschlagene Schema erfordert nur, dass die Sequenz der Lipschitz-Konstanten-Schätzungen milde Anfangsbedingungen erfüllt. Unter diesen Bedingungen können kritische Gleichheitseigenschaften abgeleitet werden, um die Konvergenzanalyse zu unterstützen. Numerische Experimente validieren die Wirksamkeit und praktische Leistung der vorgeschlagenen Methode.

Forschungshintergrund und Motivation

  1. Zu lösende Probleme: Mehrzieloptimierungsprobleme, insbesondere zusammengesetzte uneingeschränkte Mehrzieloptimierungsprobleme: minxRnF(x)(f1(x)+g1(x),,fm(x)+gm(x))T\min_{x \in \mathbb{R}^n} F(x) \equiv (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T wobei fif_i glatte konvexe Funktionen sind und gig_i konvexe Funktionen (möglicherweise nicht glatt) sind.
  2. Problemrelevanz: Mehrzieloptimierung ist in praktischen Anwendungen weit verbreitet, wie in der Bildwiederherstellung, Compressed Sensing und anderen Bereichen. Solche Probleme haben typischerweise keine einzelne optimale Lösung, sondern eine Lösungsmenge, die aus Pareto-optimalen Lösungen besteht.
  3. Einschränkungen bestehender Methoden:
    • Tanabe et al. erweiterten FISTA auf Mehrzieloptimierung und erreichten eine O(1/k2)O(1/k^2) Konvergenzrate
    • Die Arbeiten von Sonntag et al. und Zhang et al. weisen unvollständige theoretische Beweise auf. Ihre Konvergenzanalyse hängt von der Nicht-Negativität der Hilfsfunktion σ(z)=mini=1,,mFi(xk)Fi(z)\sigma(z) = \min_{i=1,\ldots,m} F_i(x_k) - F_i(z) ab, eine Bedingung, die schwer zu garantieren ist
  4. Forschungsmotivation: Überwindung der Mängel in der theoretischen Analyse bestehender Methoden, Vorschlag einer Methode mit milderen Anforderungen an die anfängliche Schätzung der Lipschitz-Konstante und Vermeidung der Abhängigkeit von der Nicht-Negativität von σ\sigma durch kritische Gleichheiten.

Kernbeiträge

  1. Neues Extrapolationsterm-Schema: Verwendung der Extrapolationsform yk=xk+k+α4k+α1(xkxk1)y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1}), wobei α3\alpha \geq 3
  2. Etablierung milder Anfangsbedingungen: Die Sequenz der Lipschitz-Konstanten-Schätzungen muss nur schwächere Anfangsbedingungen erfüllen
  3. Ableitung kritischer Gleichheitseigenschaften: Vermeidung der Abhängigkeit von der Nicht-Negativität der Hilfsfunktion und Verbesserung der theoretischen Analyse
  4. Beweis sublinearer Konvergenzraten: Erreichen von O(1/k2)O(1/k^2) Konvergenzrate im glatten Fall und O(1/k)O(1/k) Konvergenzrate im nicht-glatten Fall
  5. Erweiterung auf nicht-glatte Fälle: Behandlung vollständig nicht-glatter Mehrzieloptimierungsprobleme durch Glättungstechniken

Methodische Details

Aufgabendefinition

Betrachten Sie das zusammengesetzte uneingeschränkte Mehrzieloptimierungsproblem (MOP): minxRnF(x)=(f1(x)+g1(x),,fm(x)+gm(x))T\min_{x \in \mathbb{R}^n} F(x) = (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T

wobei:

  • fi:RnRf_i: \mathbb{R}^n \to \mathbb{R} stetig differenzierbare konvexe Funktionen sind
  • gi:RnRg_i: \mathbb{R}^n \to \mathbb{R} konvexe Funktionen (möglicherweise nicht glatt) sind
  • Das Ziel ist, schwach Pareto-optimale Lösungen zu finden

Modellarchitektur

Algorithmus für glatten Fall (Algorithm 1)

Kernunterproblem: minzRnϕL(f)(z;x,y)=maxi=1,,m[fi(y),zy+gi(z)+fi(y)Fi(x)]+L(f)2zy2\min_{z \in \mathbb{R}^n} \phi_{L(f)}(z; x, y) = \max_{i=1,\ldots,m}[\langle\nabla f_i(y), z-y\rangle + g_i(z) + f_i(y) - F_i(x)] + \frac{L(f)}{2}\|z-y\|^2

Algorithmusschritte:

  1. Berechnung des Extrapolationspunktes: yk=xk+k+α4k+α1(xkxk1)y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1})
  2. Lösen des Unterproblems: xk+1=psk(xk,yk)x_{k+1} = p_{s_k}(x_k, y_k)
  3. Parameteraktualisierung: sk+1=ηsks_{k+1} = \eta s_k, wobei η=(k+α2)2(k+α1)(k+α3)\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)}

Parameterbedingungen:

  • Wenn α>3\alpha > 3: 0<α2α3s0<1L(f)0 < \frac{\alpha-2}{\alpha-3}s_0 < \frac{1}{L(f)}
  • Wenn α=3\alpha = 3: 0<s0<1L(f)0 < s_0 < \frac{1}{L(f)}

Algorithmus für nicht-glatten Fall (Algorithm 2)

Approximation nicht-glatter Funktionen fi(x)f_i(x) durch Glättungsfunktionen f~i(x,μ)\tilde{f}_i(x, \mu), wobei die Glättungsfunktion erfüllt:

  • Stetige Differenzierbarkeit: Für festes μ>0\mu > 0 ist f~(,μ)\tilde{f}(\cdot, \mu) stetig differenzierbar
  • Konsistenz: limzx,μ0f~(z,μ)=f(x)\lim_{z \to x, \mu \downarrow 0} \tilde{f}(z, \mu) = f(x)
  • Gradientenkonsistenz: {limzx,μ0f~(z,μ)}f(x)\{\lim_{z \to x, \mu \downarrow 0} \nabla\tilde{f}(z, \mu)\} \subseteq \partial f(x)

Technische Innovationen

  1. Neues Extrapolationskoeffizientendesign: Durch spezifische Parameteraktualisierungsweise η=(k+α2)2(k+α1)(k+α3)\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)} wird sichergestellt, dass sk<1L(f)s_k < \frac{1}{L(f)} immer erfüllt ist
  2. Ableitung kritischer Gleichheiten: Durch geschickte algebraische Manipulationen und Parameterauswahl wird die Abhängigkeit von der Nicht-Negativität von σk(z)\sigma_k(z) vermieden
  3. Einheitlicher Rahmen: Wenn α=3\alpha = 3, degeneriert die Methode zu bestehenden Verfahren, bietet aber eine vollständigere theoretische Analyse

Experimentelle Einrichtung

Datensätze

Das Papier erwähnt numerische Experimente für drei Drei-Ziel-Optimierungsprobleme:

  • BK1&ℓ1-Problem
  • JOS1&ℓ1-Problem
  • SP1&ℓ1-Problem

Bewertungsmetriken

Verwendung der Meritfunktion u0(x)=supzRnmini=1,,m[Fi(x)Fi(z)]u_0(x) = \sup_{z \in \mathbb{R}^n} \min_{i=1,\ldots,m}[F_i(x) - F_i(z)] zur Bewertung der Algorithmusleistung, die erfüllt:

  • u0(x)0u_0(x) \geq 0 für alle xx
  • xx ist schwach Pareto-optimal genau dann, wenn u0(x)=0u_0(x) = 0

Implementierungsdetails

  • Stoppkriterium: xkxk+1<ε\|x_k - x_{k+1}\| < \varepsilon
  • Für nicht-glatte Fälle auch μk<ε\mu_k < \varepsilon
  • Parameteraktualisierung: μk+1=k+α2k+α1μk\mu_{k+1} = \frac{k+\alpha-2}{k+\alpha-1}\mu_k, sk+1=k+α2k+α3sks_{k+1} = \frac{k+\alpha-2}{k+\alpha-3}s_k

Experimentelle Ergebnisse

Hauptergebnisse

Das Papier zeigt Pareto-Front-Diagramme für drei Drei-Ziel-Optimierungsprobleme, aber die spezifischen numerischen Ergebnisse und Leistungsvergleichsdaten sind in den bereitgestellten Dokumenten unvollständig.

Theoretische Konvergenzresultate

Glatter Fall (Theorem 4.3): u0(xk)L(f)(α1)22(k+α1)2Ru_0(x_k) \leq \frac{L(f)(\alpha-1)^2}{2(k+\alpha-1)^2}R erreicht eine O(1/k2)O(1/k^2) Konvergenzrate.

Nicht-glatter Fall (Theorem 6.2): u0(xk+1)O(1k)u_0(x_{k+1}) \leq O\left(\frac{1}{k}\right) erreicht eine O(1/k)O(1/k) Konvergenzrate.

Verwandte Arbeiten

  1. Mehrziel-FISTA-Erweiterung: Tanabe et al. erweiterten FISTA erstmals auf Mehrzieloptimierung und erreichten O(1/k2)O(1/k^2) Konvergenzrate
  2. Monotone Varianten: Nishimura et al. schlugen eine monotone Variante von Mehrziel-FISTA vor
  3. Verallgemeinerter Rahmen: Tanabe et al. verallgemeinerten den Rahmen durch Einführung von Hyperparametern auf den Einzelzielfall
  4. Nesterov-artige Schemata: Sonntag et al. und Zhang et al. versuchten, effektivere Extrapolationsterme zu verwenden, aber die theoretische Analyse war unvollständig
  5. Nicht-glatte Methoden: Gebken et al. schlugen einen Subgradientenabstiegsalgorithmus für nicht-glatte Mehrzieloptimierung vor

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Es wird eine beschleunigte proximale Gradientenmethode mit neuem Extrapolationsterm vorgeschlagen, die auf glatte und nicht-glatte Mehrzieloptimierung anwendbar ist
  2. Eine vollständige Konvergenztheorie wird etabliert, die die theoretischen Mängel bestehender Methoden vermeidet
  3. Der glatte Fall erreicht O(1/k2)O(1/k^2) Konvergenzrate, der nicht-glatte Fall erreicht O(1/k)O(1/k) Konvergenzrate

Einschränkungen

  1. Unzureichende experimentelle Teile: Numerische Experimentergebnisse sind unvollständig, es fehlen detaillierte Leistungsvergleiche
  2. Parameterwahl-Einschränkungen: Es gibt spezifische Anforderungen an die anfänglichen Parameter s0s_0 und α\alpha
  3. Langsamere Konvergenzrate im nicht-glatten Fall: Im Vergleich zum glatten Fall sinkt die Konvergenzrate der nicht-glatten Version auf O(1/k)O(1/k)

Zukünftige Richtungen

  1. Erforschung besserer Glättungstechniken zur Verbesserung der Konvergenzrate im nicht-glatten Fall
  2. Untersuchung adaptiver Parameterwahlstrategien
  3. Erweiterung auf eingeschränkte Mehrzieloptimierungsprobleme

Tiefgreifende Bewertung

Stärken

  1. Bedeutende theoretische Beiträge: Lösung kritischer Mängel in der theoretischen Analyse bestehender Methoden mit vollständigen Konvergenzbeweisen
  2. Geschicktes Methodendesign: Sicherung theoretischer Garantien durch spezifische Parameteraktualisierungsstrategien
  3. Rahmeneinheitlichkeit: Einbeziehung glatter und nicht-glatter Fälle in einen einheitlichen Rahmen
  4. Mathematische Strenge: Detaillierte Beweise mit klarer Logik

Schwächen

  1. Unzureichende experimentelle Validierung: Der numerische Experimentteil ist zu einfach, es fehlen detaillierte Vergleiche mit anderen fortgeschrittenen Methoden
  2. Fehlende Praktikabilitätsanalyse: Mangelnde Analyse der Rechenkomplexität und praktischen Anwendungsszenarien
  3. Parametersensitivität nicht diskutiert: Keine Analyse des Einflusses der Parameterwahl auf die Algorithmusleistung

Einfluss

  1. Hoher theoretischer Wert: Bietet eine solidere theoretische Grundlage für beschleunigte Methoden in der Mehrzieloptimierung
  2. Praktischer Wert zu validieren: Erfordert mehr experimentelle Validierung seiner Wirksamkeit bei praktischen Problemen
  3. Gute Reproduzierbarkeit: Klare Algorithmusbeschreibung und vollständige theoretische Analyse

Anwendungsszenarien

  1. Mehrzieloptimierungsprobleme mit zusammengesetzter Struktur
  2. Anwendungsbereiche wie Bildverarbeitung und Compressed Sensing
  3. Optimierungsszenarien, die theoretische Garantien erfordern

Literaturverzeichnis

Das Papier zitiert wichtige Literatur im Bereich der Mehrzieloptimierung, einschließlich:

  • Bahnbrechende Arbeiten von Tanabe et al. zu Mehrziel-FISTA
  • Verwandte Theorien zu Nesterov-Beschleunigungsmethoden
  • Relevante Literatur zu Glättungstechniken
  • Klassische theoretische Grundlagen der Mehrzieloptimierung

Gesamtbewertung: Dies ist ein Papier mit herausragenden theoretischen Beiträgen, das erfolgreich theoretische Mängel in bestehenden beschleunigten proximalen Gradientenmethoden für Mehrzieloptimierung behebt und eine vollständige Konvergenzanalyse bietet. Das Papier hat jedoch noch Verbesserungspotenzial in der experimentellen Validierung und Praktikabilitätsanalyse.