2025-11-22T03:37:15.627362

Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound

Liu, Tajbakhsh

Performance analysis of first-order algorithms with inexact oracles has gained recent attention due to various emerging applications in which obtaining exact gradients is impossible or computationally expensive. Previous research has demonstrated that the performance of accelerated first-order methods is more sensitive to gradient errors compared with non-accelerated ones. This paper investigates the nonasymptotic convergence bound of two accelerated methods with inexact gradients to solve deterministic smooth convex problems. Performance Estimation Problem (PEP) is used as the primary tool to analyze the convergence bounds of the underlying algorithms. By finding an analytical solution to PEP, we derive novel convergence bounds of Generalized Optimized Gradient Method (GOGM) and Generalized Fast Gradient Method (GFGM) with inexact gradient oracles following the absolute error bound. The derived bounds allow varying oracle inexactness along the iterations; furthermore, their accumulated error terms are independent of the initial condition and any unknown parameters. Furthermore, we analyze the tradeoff between the vanishing term and the accumulated error in the convergence bound that guides finding the optimal stepsize. Finally, we determine the optimal strategy to set the gradient inexactness along iterations (if possible in a given application), ensuring that the accumulated error remains subordinate to the vanishing term.

academic

Análisis No Asintótico de Métodos Acelerados con Oráculo Inexacto Bajo Cota de Error Absoluto

Información Básica

ID del Artículo: 2408.00720
Título: Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound
Autores: Yin Liu (Universidad de Pekín), Sam Davanloo Tajbakhsh (Universidad Estatal de Ohio)
Clasificación: math.OC (Optimización y Control)
Fecha de Publicación: 15 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2408.00720

Resumen

Este artículo investiga las cotas de convergencia no asintótica de métodos de primer orden acelerados bajo un oráculo de gradiente inexacto. Dado que en muchas aplicaciones emergentes es imposible o computacionalmente costoso obtener gradientes exactos, el análisis de rendimiento de algoritmos de primer orden bajo oráculos inexactos ha recibido amplia atención. Investigaciones previas han demostrado que los métodos de primer orden acelerados son más sensibles a los errores de gradiente en comparación con métodos no acelerados. Este artículo utiliza el Problema de Estimación de Rendimiento (PEP) como herramienta analítica principal, derivando nuevas cotas de convergencia para el Método de Gradiente Generalizado Optimizado (GOGM) y el Método de Gradiente Rápido Generalizado (GFGM) bajo cotas de error absoluto mediante la búsqueda de soluciones analíticas del PEP.

Antecedentes de Investigación y Motivación

Definición del Problema

Este artículo considera el problema de optimización:

min_{x∈R^d} f(x)

donde f es una función convexa con gradiente Lipschitz continuo. En aplicaciones prácticas, solo se pueden obtener estimaciones de gradiente inexactas:

∇̃f(x) = ∇f(x) + e, ||e|| ≤ b

Motivación de la Investigación

Necesidad Práctica: En optimización de dos niveles, optimización combinatoria, optimización de orden cero y otras aplicaciones, es difícil o costoso obtener gradientes exactos
Deficiencias Teóricas: Los análisis existentes dependen de supuestos fuertes (como dominios factibles acotados) o contienen términos no cuantificables
Limitaciones de Métodos: Los métodos acelerados son más sensibles a errores de gradiente, requiriendo análisis más refinados

Escenarios de Aplicación

Optimización de Dos Niveles: El problema de nivel inferior solo puede resolverse a una solución subóptima
Optimización Combinatoria: Estimación de esperanzas mediante muestreo de pequeños lotes
Optimización de Orden Cero: Estimación de gradientes mediante diferencias finitas o suavizado gaussiano

Contribuciones Principales

Avance Teórico: Derivación de cotas de convergencia cuantificadas para iGOGM e iGFGM bajo condiciones de error absoluto (AE), eliminando la dependencia de parámetros desconocidos
Innovación Metodológica: Búsqueda de soluciones analíticas factibles mediante técnica PEP, proporcionando términos de error acumulado independientes de condiciones iniciales
Orientación Práctica: Análisis del compromiso entre tasa de convergencia y error acumulado, proporcionando estrategias de selección de tamaño de paso óptimo
Programación Óptima: Determinación de estrategias óptimas de configuración para la inexactitud del gradiente, minimizando el costo computacional total

Explicación Detallada del Método

Definición de la Tarea

Investigación de la convergencia de métodos de gradiente acelerado bajo condiciones de error absoluto:

Entrada: Oráculo de gradiente inexacto satisfaciendo ||∇̃f(x) - ∇f(x)|| ≤ b_x
Salida: Cota superior del error f(x_K) - f*
Restricciones: f ∈ F_{0,L} (solo convexa y L-suave)

Algoritmos Principales

Algoritmo iGOGM (Algoritmo 2)

Entrada: z_0 = x_0, A_0 = α_0 = 1, parámetros de tamaño de paso {λ_k}
para k = 0 hasta K-1:
    y_{k+1} = x_k - (1/L)∇̃f(x_k)
    z_{k+1} = z_k - (2/L)α_k∇̃f(x_k)  # Clave: coeficiente 2
    α_{k+1} = (λ_{k+1} + √(4λ_{k+1}A_k + λ²_{k+1}))/2
    A_{k+1} = A_k + α_{k+1}
    x_{k+1} = (1 - α_{k+1}/A_{k+1})y_{k+1} + (α_{k+1}/A_{k+1})z_{k+1}

Algoritmo iGFGM (Algoritmo 1)

Similar a iGOGM, pero el coeficiente en el paso 3 es 1 en lugar de 2.

Puntos de Innovación Técnica

1. Solución Analítica de PEP

Mediante la forma dual del Problema de Estimación de Rendimiento, se encuentra una solución analítica factible:

τ = L/(4A_K), v_{i,i+1} = A_i/A_K
u_i = [A_i(1+2α_{i+1})(A_i+2α_iα_{i+1})]/(4LA_K(A_{i+1}-α²_{i+1})) + Σ_{k=i+1}^{K-1} [A_k(1+2α_{k+1})α_iα_{k+1}]/(2LA_K(A_{k+1}-α²_{k+1}))

2. Técnica de Descomposición Matricial

Utilización de complemento de Schur y propiedades de matrices diagonalmente dominantes, asegurando restricciones semidefinidas positivas:

Construcción de matriz de Gram G = X^T X
Manejo de restricciones PSD mediante descomposición de matrices de bloques
Demostración de que la solución dada por u_i satisface condiciones de factibilidad

Resultados Teóricos Principales

Teorema 2.2 (Cota de Convergencia iGOGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(4A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Teorema 2.4 (Cota de Convergencia iGFGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(2A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Características Clave:

El término de error acumulado es independiente de la condición inicial ||x_0 - x*||
Permite niveles de error variables a lo largo de las iteraciones b_k
Los coeficientes u_k pueden calcularse explícitamente

Configuración Experimental y Resultados

Verificación Numérica

Verificación de Soluciones: Verificación de la precisión de soluciones analíticas mediante resolución numérica, error relativo <10^{-3}
Análisis de Compromiso: Análisis del compromiso entre tasa de convergencia y error acumulado para OGM-a (α_i = (i+a)/a)
Programación Óptima: Comparación de error fijo versus error óptimo variable en complejidad total

Hallazgos Clave

Cuando a=4, el error acumulado está en el orden O(b²K³/L)
Aumentar a puede reducir el error acumulado pero disminuye la tasa de convergencia
La programación óptima de errores puede reducir significativamente la complejidad η total

Comparación con Trabajo Relacionado

Condición de Error	¿Permite Error Variable?	Complejidad de Iteraciones	Limitaciones
BIE 8	×	O(1/A_K + δ)	Conjunto factible acotado
IFO 12	✓	O(1/A_K + Σδ_i/A_K)	Conjunto factible acotado
IFO-q 41	×	O(1/K² + δ/K^{3q/2-1})	Condición de subgradiente
AE 58	×	O(1/K² + R̃_Kδ + Kδ²)	R̃_K desconocido
Este Artículo	✓	O(1/A_K + Σu_kb_k²)	Sin supuestos adicionales

Programación Óptima de Errores

Problema de Optimización

min Σ_{k=0}^{K-1} η_k = Σ_{k=0}^{K-1} h^{-1}(b_k)
s.a. Σ_{k=0}^{K-1} u_kb_k² ≤ LR²/(4A_K)

Caso de Decaimiento de Ley de Potencia

Para h(η) = c₁η^{-c₂}, la solución óptima es:

b_k* = √(LR²/(4A_K)) · u_k^{1/(1+2c₂)} / (Σu_j^{1/(1+2c₂)})^{1/2}

Caso de Decaimiento Exponencial

Para h(η) = q₁q₂^{-η}, la solución óptima es:

b_k* = √(LR²/(4KA_Ku_k))

Conclusiones y Discusión

Conclusiones Principales

Primera provisión de cotas de convergencia cuantificadas e independientes de parámetros desconocidos para métodos acelerados bajo condiciones de error absoluto
El término de error acumulado es independiente de la condición inicial, dependiendo solo de la constante de Lipschitz y del tamaño de paso
La programación óptima de errores puede reducir significativamente la complejidad computacional total

Limitaciones

Los resultados teóricos requieren α_k² < A_k (desigualdad estricta), excluyendo el caso estándar de FGM donde α_k² = A_k
Los tamaños de paso del algoritmo óptimo carecen de estructura recursiva, dificultando la implementación práctica
El análisis se centra principalmente en configuraciones deterministas, requiriendo investigación adicional para casos aleatorios

Direcciones Futuras

Extensión a casos fuertemente convexos y configuraciones aleatorias
Investigación de condiciones de error más generales
Desarrollo de estrategias prácticas de control de errores adaptativos

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Cierre de la brecha en el análisis de métodos acelerados bajo condiciones de error absoluto
Técnicas Avanzadas: Aplicación innovadora de la técnica PEP
Resultados Altamente Prácticos: Provisión de cotas de error computables y estrategias de programación óptima
Análisis Profundo y Completo: Tanto pruebas teóricas como verificación numérica

Deficiencias

Practicidad Limitada: La naturaleza no recursiva del algoritmo óptimo limita la aplicación práctica
Restricciones de Condiciones: La condición estricta α_k² < A_k excluye algunos casos importantes
Experimentos Insuficientes: Carencia de experimentos numéricos en problemas de optimización reales

Impacto

Este artículo proporciona una base teórica importante para optimización acelerada bajo oráculos inexactos, con significado orientador para campos de aplicación como optimización de dos niveles y optimización combinatoria. La aplicación de la técnica PEP también proporciona nueva metodología para análisis relacionados.

Escenarios Aplicables

Problemas de optimización a gran escala donde el cálculo de gradientes es costoso
Problemas de optimización de dos niveles y optimización combinatoria
Aplicaciones que requieren equilibrio entre precisión computacional e iteraciones
Análisis teórico de métodos de optimización de orden cero

Referencias

Las referencias clave incluyen la teoría fundamental de PEP de Drori & Teboulle 18, el método OGM de Kim & Fessler 32,33, y el análisis de oráculo inexacto de Devolder et al. 12.