2025-11-10T02:43:53.338320

Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization

Huang

In this paper, we propose a novel extrapolation coefficient scheme within a new extrapolation term and develop an accelerated proximal gradient algorithm. We establish that the algorithm achieves a sublinear convergence rate. The proposed scheme only requires the Lipschitz constant estimate sequence to satisfy mild initial conditions, under which a key equality property can be derived to support the convergence analysis. Numerical experiments are provided to demonstrate the effectiveness and practical performance of the proposed method.

academic

Metodo del Gradiente Prossimale Accelerato Veloce con Nuovo Termine di Estrapolazione per l'Ottimizzazione Multiobjective

Informazioni Fondamentali

ID Articolo: 2507.06737
Titolo: Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization
Autore: Huang Chengzhi
Classificazione: math.OC (Ottimizzazione e Controllo)
Data di Pubblicazione: 17 ottobre 2025
Link Articolo: https://arxiv.org/abs/2507.06737

Riassunto

Questo articolo propone un nuovo schema di coefficienti di estrapolazione e un termine di estrapolazione innovativo, sviluppando un algoritmo del gradiente prossimale accelerato. L'algoritmo raggiunge un tasso di convergenza sublineare. Lo schema proposto richiede solo che la sequenza di stime delle costanti di Lipschitz soddisfi condizioni iniziali moderate, sotto le quali è possibile derivare proprietà di uguaglianza critiche per supportare l'analisi di convergenza. Gli esperimenti numerici verificano l'efficacia e le prestazioni pratiche del metodo proposto.

Contesto di Ricerca e Motivazione

Problema da risolvere: Problemi di ottimizzazione multiobjective, in particolare problemi compositi senza vincoli multiobjective: $\min_{x \in \mathbb{R}^n} F(x) \equiv (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T$ dove $f_i$ sono funzioni convesse lisce e $g_i$ sono funzioni convesse (potenzialmente non lisce).
Importanza del problema: L'ottimizzazione multiobjective è ampiamente presente nelle applicazioni pratiche, come il ripristino di immagini e la compressione percettiva. Questi problemi generalmente non hanno una soluzione ottimale unica, ma piuttosto un insieme di soluzioni costituito da soluzioni Pareto ottimali.
Limitazioni dei metodi esistenti:
- Tanabe et al. hanno esteso FISTA all'ottimizzazione multiobjective, raggiungendo un tasso di convergenza $O(1/k^2)$
- I lavori di Sonntag et al. e Zhang et al. presentano prove teoriche incomplete, con analisi di convergenza che dipendono dalla non negatività della funzione ausiliaria $\sigma(z) = \min_{i=1,\ldots,m} F_i(x_k) - F_i(z)$ , una condizione difficile da garantire
Motivazione della ricerca: Superare i difetti nell'analisi teorica dei metodi esistenti, proporre un metodo con requisiti più moderati per le stime iniziali delle costanti di Lipschitz, ed evitare la dipendenza dalla non negatività di $\sigma$ attraverso uguaglianze critiche.

Contributi Principali

Propone un nuovo schema di termine di estrapolazione: Utilizza la forma di estrapolazione $y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1})$ , dove $\alpha \geq 3$
Stabilisce condizioni iniziali moderate: Richiede solo che la sequenza di stime delle costanti di Lipschitz soddisfi condizioni iniziali più deboli
Deriva proprietà di uguaglianza critiche: Evita la dipendenza dalla non negatività della funzione ausiliaria, perfezionando l'analisi teorica
Prova il tasso di convergenza sublineare: Raggiunge un tasso di convergenza $O(1/k^2)$ nel caso liscio e $O(1/k)$ nel caso non liscio
Estende al caso non liscio: Gestisce problemi di ottimizzazione multiobjective completamente non lisci attraverso tecniche di lisciamento

Descrizione Dettagliata del Metodo

Definizione del Compito

Consideriamo il problema composito di ottimizzazione multiobjective senza vincoli (MOP): $\min_{x \in \mathbb{R}^n} F(x) = (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T$

dove:

$f_i: \mathbb{R}^n \to \mathbb{R}$ sono funzioni convesse continuamente differenziabili
$g_i: \mathbb{R}^n \to \mathbb{R}$ sono funzioni convesse (potenzialmente non lisce)
L'obiettivo è trovare soluzioni debolmente Pareto ottimali

Architettura del Modello

Algoritmo per il Caso Liscio (Algorithm 1)

Sottoproblema principale: $\min_{z \in \mathbb{R}^n} \phi_{L(f)}(z; x, y) = \max_{i=1,\ldots,m}[\langle\nabla f_i(y), z-y\rangle + g_i(z) + f_i(y) - F_i(x)] + \frac{L(f)}{2}\|z-y\|^2$

Passi dell'algoritmo:

Calcola il punto di estrapolazione: $y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1})$
Risolvi il sottoproblema: $x_{k+1} = p_{s_k}(x_k, y_k)$
Aggiorna i parametri: $s_{k+1} = \eta s_k$ , dove $\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)}$

Condizioni sui parametri:

Quando $\alpha > 3$ : $0 < \frac{\alpha-2}{\alpha-3}s_0 < \frac{1}{L(f)}$
Quando $\alpha = 3$ : $0 < s_0 < \frac{1}{L(f)}$

Algoritmo per il Caso Non Liscio (Algorithm 2)

Approssima le funzioni non lisce $f_i(x)$ attraverso funzioni lisciate $\tilde{f}_i(x, \mu)$ , dove la funzione lisciata soddisfa:

Differenziabilità continua: Per $\mu > 0$ fissato, $\tilde{f}(\cdot, \mu)$ è continuamente differenziabile
Consistenza: $\lim_{z \to x, \mu \downarrow 0} \tilde{f}(z, \mu) = f(x)$
Consistenza del gradiente: $\{\lim_{z \to x, \mu \downarrow 0} \nabla\tilde{f}(z, \mu)\} \subseteq \partial f(x)$

Punti di Innovazione Tecnica

Nuovo design dei coefficienti di estrapolazione: Attraverso uno specifico metodo di aggiornamento dei parametri $\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)}$ si assicura che $s_k < \frac{1}{L(f)}$ valga sempre
Derivazione di uguaglianze critiche: Attraverso manipolazioni algebriche intelligenti e scelta dei parametri, evita la dipendenza dalla non negatività di $\sigma_k(z)$
Framework unificato: Quando $\alpha = 3$ degenera ai metodi esistenti, ma fornisce un'analisi teorica più completa

Configurazione Sperimentale

Dataset

L'articolo menziona esperimenti numerici su tre problemi di ottimizzazione con tre obiettivi:

Problema BK1&ℓ1
Problema JOS1&ℓ1
Problema SP1&ℓ1

Metriche di Valutazione

Utilizza la funzione di merito $u_0(x) = \sup_{z \in \mathbb{R}^n} \min_{i=1,\ldots,m}[F_i(x) - F_i(z)]$ per valutare le prestazioni dell'algoritmo, che soddisfa:

$u_0(x) \geq 0$ per tutti gli $x$
$x$ è debolmente Pareto ottimale se e solo se $u_0(x) = 0$

Dettagli di Implementazione

Criterio di arresto: $\|x_k - x_{k+1}\| < \varepsilon$
Per il caso non liscio è inoltre richiesto $\mu_k < \varepsilon$
Aggiornamento dei parametri: $\mu_{k+1} = \frac{k+\alpha-2}{k+\alpha-1}\mu_k$ , $s_{k+1} = \frac{k+\alpha-2}{k+\alpha-3}s_k$

Risultati Sperimentali

Risultati Principali

L'articolo presenta grafici della frontiera di Pareto per tre problemi di ottimizzazione con tre obiettivi, ma i risultati numerici specifici e i dati di confronto delle prestazioni nel documento fornito non sono completi.

Risultati Teorici di Convergenza

Caso Liscio (Theorem 4.3): $u_0(x_k) \leq \frac{L(f)(\alpha-1)^2}{2(k+\alpha-1)^2}R$ raggiunge un tasso di convergenza $O(1/k^2)$ .

Caso Non Liscio (Theorem 6.2): $u_0(x_{k+1}) \leq O\left(\frac{1}{k}\right)$ raggiunge un tasso di convergenza $O(1/k)$ .

Lavori Correlati

Estensione FISTA multiobjective: Tanabe et al. hanno esteso per primi FISTA all'ottimizzazione multiobjective, raggiungendo un tasso di convergenza $O(1/k^2)$
Varianti monotone: Nishimura et al. hanno proposto una variante monotona di FISTA multiobjective
Framework generalizzato: Tanabe et al. hanno esteso il framework a problemi a singolo obiettivo introducendo iperparametri
Schemi di tipo Nesterov: Sonntag et al. e Zhang et al. hanno tentato di utilizzare termini di estrapolazione più efficienti, ma con analisi teorica incompleta
Metodi non lisci: Gebken et al. hanno proposto algoritmi di discesa del sottogradiente per l'ottimizzazione multiobjective non liscia

Conclusioni e Discussione

Conclusioni Principali

Propone un metodo del gradiente prossimale accelerato con nuovo termine di estrapolazione, applicabile all'ottimizzazione multiobjective liscia e non liscia
Stabilisce una teoria di convergenza completa, evitando i difetti teorici dei metodi esistenti
Raggiunge un tasso di convergenza $O(1/k^2)$ nel caso liscio e $O(1/k)$ nel caso non liscio

Limitazioni

Parte sperimentale insufficiente: I risultati degli esperimenti numerici sono presentati in modo incompleto, mancano confronti dettagliati delle prestazioni
Restrizioni nella scelta dei parametri: Requisiti specifici per i parametri iniziali $s_0$ e $\alpha$
Tasso di convergenza più lento nel caso non liscio: Rispetto al caso liscio, la versione non liscia ha un tasso di convergenza ridotto a $O(1/k)$

Direzioni Future

Esplorare tecniche di lisciamento migliori per migliorare il tasso di convergenza nel caso non liscio
Ricercare strategie di scelta adattiva dei parametri
Estendere a problemi di ottimizzazione multiobjective con vincoli

Valutazione Approfondita

Punti di Forza

Contributi teorici significativi: Risolve i difetti critici nell'analisi teorica dei metodi esistenti, fornendo prove di convergenza complete
Design del metodo intelligente: Attraverso strategie specifiche di aggiornamento dei parametri assicura le garanzie teoriche dell'algoritmo
Unità del framework: Incorpora i casi liscio e non liscio in un framework unificato
Rigore matematico: Il processo di prova è dettagliato e la logica è chiara

Insufficienze

Verifica sperimentale insufficiente: La parte degli esperimenti numerici è troppo semplice, mancano confronti dettagliati con altri metodi avanzati
Analisi di praticità carente: Manca un'analisi approfondita della complessità computazionale e degli scenari di applicazione pratica
Sensibilità ai parametri non discussa: Non analizza l'impatto della scelta dei parametri sulle prestazioni dell'algoritmo

Impatto

Valore teorico elevato: Fornisce una base teorica più completa per i metodi accelerati di ottimizzazione multiobjective
Valore pratico da verificare: Richiede più esperimenti per verificare l'efficacia in problemi reali
Buona riproducibilità: La descrizione dell'algoritmo è chiara e l'analisi teorica è completa

Scenari Applicabili

Problemi di ottimizzazione multiobjective con struttura composita
Campi applicativi come l'elaborazione di immagini e la compressione percettiva
Scenari di ottimizzazione che richiedono garanzie teoriche

Bibliografia

L'articolo cita letteratura importante nel campo dell'ottimizzazione multiobjective, incluso:

Lavori pioneristici di Tanabe et al. su FISTA multiobjective
Teoria correlata dei metodi di accelerazione di Nesterov
Letteratura correlata sulle tecniche di lisciamento
Fondamenti teorici classici dell'ottimizzazione multiobjective

Valutazione Complessiva: Questo è un articolo con contributi teorici eccezionali che risolve con successo i difetti teorici nei metodi accelerati di gradiente prossimale multiobjective esistenti, fornendo un'analisi di convergenza completa. Tuttavia, l'articolo ha ancora spazio per miglioramenti nella verifica sperimentale e nell'analisi di praticità.