2025-11-22T03:37:15.627362

Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound

Liu, Tajbakhsh
Performance analysis of first-order algorithms with inexact oracles has gained recent attention due to various emerging applications in which obtaining exact gradients is impossible or computationally expensive. Previous research has demonstrated that the performance of accelerated first-order methods is more sensitive to gradient errors compared with non-accelerated ones. This paper investigates the nonasymptotic convergence bound of two accelerated methods with inexact gradients to solve deterministic smooth convex problems. Performance Estimation Problem (PEP) is used as the primary tool to analyze the convergence bounds of the underlying algorithms. By finding an analytical solution to PEP, we derive novel convergence bounds of Generalized Optimized Gradient Method (GOGM) and Generalized Fast Gradient Method (GFGM) with inexact gradient oracles following the absolute error bound. The derived bounds allow varying oracle inexactness along the iterations; furthermore, their accumulated error terms are independent of the initial condition and any unknown parameters. Furthermore, we analyze the tradeoff between the vanishing term and the accumulated error in the convergence bound that guides finding the optimal stepsize. Finally, we determine the optimal strategy to set the gradient inexactness along iterations (if possible in a given application), ensuring that the accumulated error remains subordinate to the vanishing term.
academic

Analisi Non-Asintotica dei Metodi Accelerati con Oracle Inesatto sotto Vincolo di Errore Assoluto

Informazioni Fondamentali

  • ID Articolo: 2408.00720
  • Titolo: Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound
  • Autori: Yin Liu (Università di Pechino), Sam Davanloo Tajbakhsh (Università Statale dell'Ohio)
  • Classificazione: math.OC (Ottimizzazione e Controllo)
  • Data di Pubblicazione: 15 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2408.00720

Riassunto

Questo articolo studia i limiti di convergenza non-asintotici dei metodi del primo ordine accelerati sotto oracle di gradiente inesatto. Poiché l'acquisizione di gradienti esatti è impossibile o computazionalmente costosa in molte applicazioni emergenti, l'analisi delle prestazioni degli algoritmi del primo ordine con oracle inesatto ha ricevuto ampia attenzione. Ricerche precedenti hanno dimostrato che i metodi del primo ordine accelerati sono più sensibili agli errori di gradiente rispetto ai metodi non accelerati. Questo articolo utilizza il Problema di Stima delle Prestazioni (PEP) come principale strumento di analisi e, trovando soluzioni analitiche del PEP, deriva nuovi limiti di convergenza per il Metodo Generalizzato di Gradiente Ottimizzato (GOGM) e il Metodo Generalizzato di Gradiente Veloce (GFGM) sotto vincoli di errore assoluto.

Contesto di Ricerca e Motivazione

Definizione del Problema

Questo articolo considera il problema di ottimizzazione:

min_{x∈R^d} f(x)

dove f è una funzione convessa con gradiente Lipschitz continuo. In applicazioni pratiche, è possibile ottenere solo stime di gradiente inesatte:

∇̃f(x) = ∇f(x) + e, ||e|| ≤ b

Motivazione della Ricerca

  1. Esigenze Pratiche: In ottimizzazione bilivello, ottimizzazione combinatoria, ottimizzazione del primo ordine, l'acquisizione di gradienti esatti è difficile o costosa
  2. Carenze Teoriche: L'analisi esistente dipende da ipotesi forti (come domini fattibili limitati) o contiene termini non quantificabili
  3. Limitazioni dei Metodi: I metodi accelerati sono più sensibili agli errori di gradiente, richiedendo analisi più raffinate

Scenari Applicativi

  • Ottimizzazione Bilivello: Il problema inferiore può essere risolto solo a soluzioni subottimali
  • Ottimizzazione Combinatoria: Stima dell'aspettativa attraverso campionamento in piccoli batch
  • Ottimizzazione del Primo Ordine: Stima del gradiente attraverso differenze finite o lisciamento gaussiano

Contributi Principali

  1. Avanzamento Teorico: Derivazione di limiti di convergenza quantificati per iGOGM e iGFGM sotto condizioni di errore assoluto (AE), eliminando la dipendenza da parametri sconosciuti
  2. Innovazione Metodologica: Attraverso la tecnica PEP, trovamento di soluzioni analitiche fattibili, fornendo termini di errore cumulativo indipendenti dalle condizioni iniziali
  3. Guida Pratica: Analisi del compromesso tra tasso di convergenza ed errore cumulativo, fornendo strategie di scelta del passo ottimale
  4. Pianificazione Ottimale: Determinazione della strategia di configurazione ottimale dell'inesattezza del gradiente, minimizzando il costo computazionale totale

Spiegazione Dettagliata del Metodo

Definizione del Compito

Studio della convergenza dei metodi di gradiente accelerati sotto condizioni di errore assoluto:

  • Input: Oracle di gradiente inesatto soddisfa ||∇̃f(x) - ∇f(x)|| ≤ b_x
  • Output: Limite superiore del limite di convergenza f(x_K) - f*
  • Vincoli: f ∈ F_{0,L} (solo convesso e L-liscio)

Algoritmi Principali

Algoritmo iGOGM (Algorithm 2)

Input: z_0 = x_0, A_0 = α_0 = 1, parametri passo {λ_k}
for k = 0 to K-1:
    y_{k+1} = x_k - (1/L)∇̃f(x_k)
    z_{k+1} = z_k - (2/L)α_k∇̃f(x_k)  # Cruciale: coefficiente 2
    α_{k+1} = (λ_{k+1} + √(4λ_{k+1}A_k + λ²_{k+1}))/2
    A_{k+1} = A_k + α_{k+1}
    x_{k+1} = (1 - α_{k+1}/A_{k+1})y_{k+1} + (α_{k+1}/A_{k+1})z_{k+1}

Algoritmo iGFGM (Algorithm 1)

Simile a iGOGM, ma il coefficiente nel passo 3 è 1 anziché 2.

Punti di Innovazione Tecnica

1. Soluzione Analitica PEP

Attraverso la forma duale del Problema di Stima delle Prestazioni, trovamento di soluzioni analitiche fattibili:

τ = L/(4A_K), v_{i,i+1} = A_i/A_K
u_i = [A_i(1+2α_{i+1})(A_i+2α_iα_{i+1})]/(4LA_K(A_{i+1}-α²_{i+1})) + Σ_{k=i+1}^{K-1} [A_k(1+2α_{k+1})α_iα_{k+1}]/(2LA_K(A_{k+1}-α²_{k+1}))

2. Tecnica di Fattorizzazione Matriciale

Utilizzo del complemento di Schur e proprietà di matrici diagonalmente dominanti, garantendo vincoli semi-definiti positivi:

  • Costruzione della matrice di Gram G = X^T X
  • Gestione dei vincoli PSD attraverso fattorizzazione a blocchi
  • Prova che la soluzione data da u_i soddisfa le condizioni di fattibilità

Risultati Teorici Principali

Teorema 2.2 (Limite di Convergenza iGOGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(4A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Teorema 2.4 (Limite di Convergenza iGFGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(2A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Caratteristiche Chiave:

  • Il termine di errore cumulativo è indipendente dalle condizioni iniziali ||x_0 - x*||
  • Consente livelli di errore variabili lungo le iterazioni b_k
  • I coefficienti u_k sono calcolabili esplicitamente

Configurazione Sperimentale e Risultati

Verifica Numerica

  1. Verifica della Soluzione: Verifica dell'accuratezza della soluzione analitica attraverso risoluzione numerica, errore relativo <10^{-3}
  2. Analisi del Compromesso: Analisi del compromesso tra tasso di convergenza ed errore cumulativo per OGM-a (α_i = (i+a)/a)
  3. Pianificazione Ottimale: Confronto tra errore fisso vs errore variabile ottimale nella complessità totale

Risultati Chiave

  • Quando a=4, l'errore cumulativo è nell'ordine di O(b²K³/L)
  • L'aumento di a può ridurre l'errore cumulativo ma diminuisce il tasso di convergenza
  • La pianificazione dell'errore ottimale può ridurre significativamente la complessità η totale

Confronto con Lavori Correlati

Condizione di ErroreConsente Errore Variabile?Complessità IterativaCondizioni Limitanti
BIE 8×O(1/A_K + δ)Insieme fattibile limitato
IFO 12O(1/A_K + Σδ_i/A_K)Insieme fattibile limitato
IFO-q 41×O(1/K² + δ/K^{3q/2-1})Condizione di subgradiente
AE 58×O(1/K² + R̃_Kδ + Kδ²)R̃_K sconosciuto
Questo ArticoloO(1/A_K + Σu_kb_k²)Nessuna Ipotesi Aggiuntiva

Pianificazione Ottimale dell'Errore

Problema di Ottimizzazione

min Σ_{k=0}^{K-1} η_k = Σ_{k=0}^{K-1} h^{-1}(b_k)
s.t. Σ_{k=0}^{K-1} u_kb_k² ≤ LR²/(4A_K)

Caso di Decadimento Potenza

Per h(η) = c₁η^{-c₂}, la soluzione ottimale è:

b_k* = √(LR²/(4A_K)) · u_k^{1/(1+2c₂)} / (Σu_j^{1/(1+2c₂)})^{1/2}

Caso di Decadimento Esponenziale

Per h(η) = q₁q₂^{-η}, la soluzione ottimale è:

b_k* = √(LR²/(4KA_Ku_k))

Conclusioni e Discussione

Conclusioni Principali

  1. Primo lavoro a fornire limiti di convergenza quantificati e indipendenti da parametri sconosciuti per metodi accelerati sotto condizioni di errore assoluto
  2. Il termine di errore cumulativo è indipendente dalle condizioni iniziali, dipendendo solo dalla costante di Lipschitz e dal passo
  3. La pianificazione dell'errore ottimale può ridurre significativamente la complessità computazionale totale

Limitazioni

  1. I risultati teorici richiedono α_k² < A_k (disuguaglianza stretta), escludendo il caso standard FGM di α_k² = A_k
  2. I passi dell'algoritmo ottimale mancano di struttura ricorsiva, rendendo difficile l'implementazione pratica
  3. L'analisi si concentra principalmente su impostazioni deterministiche, il caso stocastico richiede ulteriori ricerche

Direzioni Future

  1. Estensione al caso fortemente convesso e impostazioni stocastiche
  2. Studio di condizioni di errore più generali
  3. Sviluppo di strategie pratiche di controllo dell'errore adattivo

Valutazione Approfondita

Punti di Forza

  1. Contributo Teorico Significativo: Colma il vuoto nell'analisi dei metodi accelerati sotto condizioni di errore assoluto
  2. Tecniche Avanzate: L'applicazione della tecnica PEP è innovativa
  3. Risultati Praticamente Utili: Fornisce limiti di errore calcolabili e strategie di pianificazione ottimale
  4. Analisi Completa e Approfondita: Comprende sia prove teoriche che verifiche numeriche

Insufficienze

  1. Praticità Limitata: La natura non ricorsiva dell'algoritmo ottimale limita l'applicazione pratica
  2. Restrizioni Condizionali: La condizione ristretta α_k² < A_k esclude alcuni casi importanti
  3. Esperimenti Insufficienti: Mancano esperimenti numerici su problemi di ottimizzazione reali

Impatto

Questo articolo fornisce una base teorica importante per l'ottimizzazione accelerata con oracle inesatto, con significative implicazioni per applicazioni in ottimizzazione bilivello, ottimizzazione combinatoria e altri campi correlati. L'applicazione della tecnica PEP fornisce anche una nuova metodologia per analisi correlate.

Scenari Applicabili

  • Problemi di ottimizzazione su larga scala dove il calcolo del gradiente è costoso
  • Problemi di ottimizzazione bilivello e combinatoria
  • Applicazioni che richiedono compromessi tra precisione computazionale e numero di iterazioni
  • Analisi teorica di metodi di ottimizzazione del primo ordine

Bibliografia

Le riferimenti chiave includono la teoria PEP fondamentale di Drori & Teboulle 18, il metodo OGM di Kim & Fessler 32,33, e l'analisi dell'oracle inesatto di Devolder et al. 12.