2025-11-10T02:43:53.338320

Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization

Huang
In this paper, we propose a novel extrapolation coefficient scheme within a new extrapolation term and develop an accelerated proximal gradient algorithm. We establish that the algorithm achieves a sublinear convergence rate. The proposed scheme only requires the Lipschitz constant estimate sequence to satisfy mild initial conditions, under which a key equality property can be derived to support the convergence analysis. Numerical experiments are provided to demonstrate the effectiveness and practical performance of the proposed method.
academic

Metodo del Gradiente Prossimale Accelerato Veloce con Nuovo Termine di Estrapolazione per l'Ottimizzazione Multiobjective

Informazioni Fondamentali

  • ID Articolo: 2507.06737
  • Titolo: Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization
  • Autore: Huang Chengzhi
  • Classificazione: math.OC (Ottimizzazione e Controllo)
  • Data di Pubblicazione: 17 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2507.06737

Riassunto

Questo articolo propone un nuovo schema di coefficienti di estrapolazione e un termine di estrapolazione innovativo, sviluppando un algoritmo del gradiente prossimale accelerato. L'algoritmo raggiunge un tasso di convergenza sublineare. Lo schema proposto richiede solo che la sequenza di stime delle costanti di Lipschitz soddisfi condizioni iniziali moderate, sotto le quali è possibile derivare proprietà di uguaglianza critiche per supportare l'analisi di convergenza. Gli esperimenti numerici verificano l'efficacia e le prestazioni pratiche del metodo proposto.

Contesto di Ricerca e Motivazione

  1. Problema da risolvere: Problemi di ottimizzazione multiobjective, in particolare problemi compositi senza vincoli multiobjective: minxRnF(x)(f1(x)+g1(x),,fm(x)+gm(x))T\min_{x \in \mathbb{R}^n} F(x) \equiv (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T dove fif_i sono funzioni convesse lisce e gig_i sono funzioni convesse (potenzialmente non lisce).
  2. Importanza del problema: L'ottimizzazione multiobjective è ampiamente presente nelle applicazioni pratiche, come il ripristino di immagini e la compressione percettiva. Questi problemi generalmente non hanno una soluzione ottimale unica, ma piuttosto un insieme di soluzioni costituito da soluzioni Pareto ottimali.
  3. Limitazioni dei metodi esistenti:
    • Tanabe et al. hanno esteso FISTA all'ottimizzazione multiobjective, raggiungendo un tasso di convergenza O(1/k2)O(1/k^2)
    • I lavori di Sonntag et al. e Zhang et al. presentano prove teoriche incomplete, con analisi di convergenza che dipendono dalla non negatività della funzione ausiliaria σ(z)=mini=1,,mFi(xk)Fi(z)\sigma(z) = \min_{i=1,\ldots,m} F_i(x_k) - F_i(z), una condizione difficile da garantire
  4. Motivazione della ricerca: Superare i difetti nell'analisi teorica dei metodi esistenti, proporre un metodo con requisiti più moderati per le stime iniziali delle costanti di Lipschitz, ed evitare la dipendenza dalla non negatività di σ\sigma attraverso uguaglianze critiche.

Contributi Principali

  1. Propone un nuovo schema di termine di estrapolazione: Utilizza la forma di estrapolazione yk=xk+k+α4k+α1(xkxk1)y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1}), dove α3\alpha \geq 3
  2. Stabilisce condizioni iniziali moderate: Richiede solo che la sequenza di stime delle costanti di Lipschitz soddisfi condizioni iniziali più deboli
  3. Deriva proprietà di uguaglianza critiche: Evita la dipendenza dalla non negatività della funzione ausiliaria, perfezionando l'analisi teorica
  4. Prova il tasso di convergenza sublineare: Raggiunge un tasso di convergenza O(1/k2)O(1/k^2) nel caso liscio e O(1/k)O(1/k) nel caso non liscio
  5. Estende al caso non liscio: Gestisce problemi di ottimizzazione multiobjective completamente non lisci attraverso tecniche di lisciamento

Descrizione Dettagliata del Metodo

Definizione del Compito

Consideriamo il problema composito di ottimizzazione multiobjective senza vincoli (MOP): minxRnF(x)=(f1(x)+g1(x),,fm(x)+gm(x))T\min_{x \in \mathbb{R}^n} F(x) = (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T

dove:

  • fi:RnRf_i: \mathbb{R}^n \to \mathbb{R} sono funzioni convesse continuamente differenziabili
  • gi:RnRg_i: \mathbb{R}^n \to \mathbb{R} sono funzioni convesse (potenzialmente non lisce)
  • L'obiettivo è trovare soluzioni debolmente Pareto ottimali

Architettura del Modello

Algoritmo per il Caso Liscio (Algorithm 1)

Sottoproblema principale: minzRnϕL(f)(z;x,y)=maxi=1,,m[fi(y),zy+gi(z)+fi(y)Fi(x)]+L(f)2zy2\min_{z \in \mathbb{R}^n} \phi_{L(f)}(z; x, y) = \max_{i=1,\ldots,m}[\langle\nabla f_i(y), z-y\rangle + g_i(z) + f_i(y) - F_i(x)] + \frac{L(f)}{2}\|z-y\|^2

Passi dell'algoritmo:

  1. Calcola il punto di estrapolazione: yk=xk+k+α4k+α1(xkxk1)y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1})
  2. Risolvi il sottoproblema: xk+1=psk(xk,yk)x_{k+1} = p_{s_k}(x_k, y_k)
  3. Aggiorna i parametri: sk+1=ηsks_{k+1} = \eta s_k, dove η=(k+α2)2(k+α1)(k+α3)\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)}

Condizioni sui parametri:

  • Quando α>3\alpha > 3: 0<α2α3s0<1L(f)0 < \frac{\alpha-2}{\alpha-3}s_0 < \frac{1}{L(f)}
  • Quando α=3\alpha = 3: 0<s0<1L(f)0 < s_0 < \frac{1}{L(f)}

Algoritmo per il Caso Non Liscio (Algorithm 2)

Approssima le funzioni non lisce fi(x)f_i(x) attraverso funzioni lisciate f~i(x,μ)\tilde{f}_i(x, \mu), dove la funzione lisciata soddisfa:

  • Differenziabilità continua: Per μ>0\mu > 0 fissato, f~(,μ)\tilde{f}(\cdot, \mu) è continuamente differenziabile
  • Consistenza: limzx,μ0f~(z,μ)=f(x)\lim_{z \to x, \mu \downarrow 0} \tilde{f}(z, \mu) = f(x)
  • Consistenza del gradiente: {limzx,μ0f~(z,μ)}f(x)\{\lim_{z \to x, \mu \downarrow 0} \nabla\tilde{f}(z, \mu)\} \subseteq \partial f(x)

Punti di Innovazione Tecnica

  1. Nuovo design dei coefficienti di estrapolazione: Attraverso uno specifico metodo di aggiornamento dei parametri η=(k+α2)2(k+α1)(k+α3)\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)} si assicura che sk<1L(f)s_k < \frac{1}{L(f)} valga sempre
  2. Derivazione di uguaglianze critiche: Attraverso manipolazioni algebriche intelligenti e scelta dei parametri, evita la dipendenza dalla non negatività di σk(z)\sigma_k(z)
  3. Framework unificato: Quando α=3\alpha = 3 degenera ai metodi esistenti, ma fornisce un'analisi teorica più completa

Configurazione Sperimentale

Dataset

L'articolo menziona esperimenti numerici su tre problemi di ottimizzazione con tre obiettivi:

  • Problema BK1&ℓ1
  • Problema JOS1&ℓ1
  • Problema SP1&ℓ1

Metriche di Valutazione

Utilizza la funzione di merito u0(x)=supzRnmini=1,,m[Fi(x)Fi(z)]u_0(x) = \sup_{z \in \mathbb{R}^n} \min_{i=1,\ldots,m}[F_i(x) - F_i(z)] per valutare le prestazioni dell'algoritmo, che soddisfa:

  • u0(x)0u_0(x) \geq 0 per tutti gli xx
  • xx è debolmente Pareto ottimale se e solo se u0(x)=0u_0(x) = 0

Dettagli di Implementazione

  • Criterio di arresto: xkxk+1<ε\|x_k - x_{k+1}\| < \varepsilon
  • Per il caso non liscio è inoltre richiesto μk<ε\mu_k < \varepsilon
  • Aggiornamento dei parametri: μk+1=k+α2k+α1μk\mu_{k+1} = \frac{k+\alpha-2}{k+\alpha-1}\mu_k, sk+1=k+α2k+α3sks_{k+1} = \frac{k+\alpha-2}{k+\alpha-3}s_k

Risultati Sperimentali

Risultati Principali

L'articolo presenta grafici della frontiera di Pareto per tre problemi di ottimizzazione con tre obiettivi, ma i risultati numerici specifici e i dati di confronto delle prestazioni nel documento fornito non sono completi.

Risultati Teorici di Convergenza

Caso Liscio (Theorem 4.3): u0(xk)L(f)(α1)22(k+α1)2Ru_0(x_k) \leq \frac{L(f)(\alpha-1)^2}{2(k+\alpha-1)^2}R raggiunge un tasso di convergenza O(1/k2)O(1/k^2).

Caso Non Liscio (Theorem 6.2): u0(xk+1)O(1k)u_0(x_{k+1}) \leq O\left(\frac{1}{k}\right) raggiunge un tasso di convergenza O(1/k)O(1/k).

Lavori Correlati

  1. Estensione FISTA multiobjective: Tanabe et al. hanno esteso per primi FISTA all'ottimizzazione multiobjective, raggiungendo un tasso di convergenza O(1/k2)O(1/k^2)
  2. Varianti monotone: Nishimura et al. hanno proposto una variante monotona di FISTA multiobjective
  3. Framework generalizzato: Tanabe et al. hanno esteso il framework a problemi a singolo obiettivo introducendo iperparametri
  4. Schemi di tipo Nesterov: Sonntag et al. e Zhang et al. hanno tentato di utilizzare termini di estrapolazione più efficienti, ma con analisi teorica incompleta
  5. Metodi non lisci: Gebken et al. hanno proposto algoritmi di discesa del sottogradiente per l'ottimizzazione multiobjective non liscia

Conclusioni e Discussione

Conclusioni Principali

  1. Propone un metodo del gradiente prossimale accelerato con nuovo termine di estrapolazione, applicabile all'ottimizzazione multiobjective liscia e non liscia
  2. Stabilisce una teoria di convergenza completa, evitando i difetti teorici dei metodi esistenti
  3. Raggiunge un tasso di convergenza O(1/k2)O(1/k^2) nel caso liscio e O(1/k)O(1/k) nel caso non liscio

Limitazioni

  1. Parte sperimentale insufficiente: I risultati degli esperimenti numerici sono presentati in modo incompleto, mancano confronti dettagliati delle prestazioni
  2. Restrizioni nella scelta dei parametri: Requisiti specifici per i parametri iniziali s0s_0 e α\alpha
  3. Tasso di convergenza più lento nel caso non liscio: Rispetto al caso liscio, la versione non liscia ha un tasso di convergenza ridotto a O(1/k)O(1/k)

Direzioni Future

  1. Esplorare tecniche di lisciamento migliori per migliorare il tasso di convergenza nel caso non liscio
  2. Ricercare strategie di scelta adattiva dei parametri
  3. Estendere a problemi di ottimizzazione multiobjective con vincoli

Valutazione Approfondita

Punti di Forza

  1. Contributi teorici significativi: Risolve i difetti critici nell'analisi teorica dei metodi esistenti, fornendo prove di convergenza complete
  2. Design del metodo intelligente: Attraverso strategie specifiche di aggiornamento dei parametri assicura le garanzie teoriche dell'algoritmo
  3. Unità del framework: Incorpora i casi liscio e non liscio in un framework unificato
  4. Rigore matematico: Il processo di prova è dettagliato e la logica è chiara

Insufficienze

  1. Verifica sperimentale insufficiente: La parte degli esperimenti numerici è troppo semplice, mancano confronti dettagliati con altri metodi avanzati
  2. Analisi di praticità carente: Manca un'analisi approfondita della complessità computazionale e degli scenari di applicazione pratica
  3. Sensibilità ai parametri non discussa: Non analizza l'impatto della scelta dei parametri sulle prestazioni dell'algoritmo

Impatto

  1. Valore teorico elevato: Fornisce una base teorica più completa per i metodi accelerati di ottimizzazione multiobjective
  2. Valore pratico da verificare: Richiede più esperimenti per verificare l'efficacia in problemi reali
  3. Buona riproducibilità: La descrizione dell'algoritmo è chiara e l'analisi teorica è completa

Scenari Applicabili

  1. Problemi di ottimizzazione multiobjective con struttura composita
  2. Campi applicativi come l'elaborazione di immagini e la compressione percettiva
  3. Scenari di ottimizzazione che richiedono garanzie teoriche

Bibliografia

L'articolo cita letteratura importante nel campo dell'ottimizzazione multiobjective, incluso:

  • Lavori pioneristici di Tanabe et al. su FISTA multiobjective
  • Teoria correlata dei metodi di accelerazione di Nesterov
  • Letteratura correlata sulle tecniche di lisciamento
  • Fondamenti teorici classici dell'ottimizzazione multiobjective

Valutazione Complessiva: Questo è un articolo con contributi teorici eccezionali che risolve con successo i difetti teorici nei metodi accelerati di gradiente prossimale multiobjective esistenti, fornendo un'analisi di convergenza completa. Tuttavia, l'articolo ha ancora spazio per miglioramenti nella verifica sperimentale e nell'analisi di praticità.