2025-11-22T03:37:15.627362

Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound

Liu, Tajbakhsh
Performance analysis of first-order algorithms with inexact oracles has gained recent attention due to various emerging applications in which obtaining exact gradients is impossible or computationally expensive. Previous research has demonstrated that the performance of accelerated first-order methods is more sensitive to gradient errors compared with non-accelerated ones. This paper investigates the nonasymptotic convergence bound of two accelerated methods with inexact gradients to solve deterministic smooth convex problems. Performance Estimation Problem (PEP) is used as the primary tool to analyze the convergence bounds of the underlying algorithms. By finding an analytical solution to PEP, we derive novel convergence bounds of Generalized Optimized Gradient Method (GOGM) and Generalized Fast Gradient Method (GFGM) with inexact gradient oracles following the absolute error bound. The derived bounds allow varying oracle inexactness along the iterations; furthermore, their accumulated error terms are independent of the initial condition and any unknown parameters. Furthermore, we analyze the tradeoff between the vanishing term and the accumulated error in the convergence bound that guides finding the optimal stepsize. Finally, we determine the optimal strategy to set the gradient inexactness along iterations (if possible in a given application), ensuring that the accumulated error remains subordinate to the vanishing term.
academic

Análisis No Asintótico de Métodos Acelerados con Oráculo Inexacto Bajo Cota de Error Absoluto

Información Básica

  • ID del Artículo: 2408.00720
  • Título: Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound
  • Autores: Yin Liu (Universidad de Pekín), Sam Davanloo Tajbakhsh (Universidad Estatal de Ohio)
  • Clasificación: math.OC (Optimización y Control)
  • Fecha de Publicación: 15 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2408.00720

Resumen

Este artículo investiga las cotas de convergencia no asintótica de métodos de primer orden acelerados bajo un oráculo de gradiente inexacto. Dado que en muchas aplicaciones emergentes es imposible o computacionalmente costoso obtener gradientes exactos, el análisis de rendimiento de algoritmos de primer orden bajo oráculos inexactos ha recibido amplia atención. Investigaciones previas han demostrado que los métodos de primer orden acelerados son más sensibles a los errores de gradiente en comparación con métodos no acelerados. Este artículo utiliza el Problema de Estimación de Rendimiento (PEP) como herramienta analítica principal, derivando nuevas cotas de convergencia para el Método de Gradiente Generalizado Optimizado (GOGM) y el Método de Gradiente Rápido Generalizado (GFGM) bajo cotas de error absoluto mediante la búsqueda de soluciones analíticas del PEP.

Antecedentes de Investigación y Motivación

Definición del Problema

Este artículo considera el problema de optimización:

min_{x∈R^d} f(x)

donde f es una función convexa con gradiente Lipschitz continuo. En aplicaciones prácticas, solo se pueden obtener estimaciones de gradiente inexactas:

∇̃f(x) = ∇f(x) + e, ||e|| ≤ b

Motivación de la Investigación

  1. Necesidad Práctica: En optimización de dos niveles, optimización combinatoria, optimización de orden cero y otras aplicaciones, es difícil o costoso obtener gradientes exactos
  2. Deficiencias Teóricas: Los análisis existentes dependen de supuestos fuertes (como dominios factibles acotados) o contienen términos no cuantificables
  3. Limitaciones de Métodos: Los métodos acelerados son más sensibles a errores de gradiente, requiriendo análisis más refinados

Escenarios de Aplicación

  • Optimización de Dos Niveles: El problema de nivel inferior solo puede resolverse a una solución subóptima
  • Optimización Combinatoria: Estimación de esperanzas mediante muestreo de pequeños lotes
  • Optimización de Orden Cero: Estimación de gradientes mediante diferencias finitas o suavizado gaussiano

Contribuciones Principales

  1. Avance Teórico: Derivación de cotas de convergencia cuantificadas para iGOGM e iGFGM bajo condiciones de error absoluto (AE), eliminando la dependencia de parámetros desconocidos
  2. Innovación Metodológica: Búsqueda de soluciones analíticas factibles mediante técnica PEP, proporcionando términos de error acumulado independientes de condiciones iniciales
  3. Orientación Práctica: Análisis del compromiso entre tasa de convergencia y error acumulado, proporcionando estrategias de selección de tamaño de paso óptimo
  4. Programación Óptima: Determinación de estrategias óptimas de configuración para la inexactitud del gradiente, minimizando el costo computacional total

Explicación Detallada del Método

Definición de la Tarea

Investigación de la convergencia de métodos de gradiente acelerado bajo condiciones de error absoluto:

  • Entrada: Oráculo de gradiente inexacto satisfaciendo ||∇̃f(x) - ∇f(x)|| ≤ b_x
  • Salida: Cota superior del error f(x_K) - f*
  • Restricciones: f ∈ F_{0,L} (solo convexa y L-suave)

Algoritmos Principales

Algoritmo iGOGM (Algoritmo 2)

Entrada: z_0 = x_0, A_0 = α_0 = 1, parámetros de tamaño de paso {λ_k}
para k = 0 hasta K-1:
    y_{k+1} = x_k - (1/L)∇̃f(x_k)
    z_{k+1} = z_k - (2/L)α_k∇̃f(x_k)  # Clave: coeficiente 2
    α_{k+1} = (λ_{k+1} + √(4λ_{k+1}A_k + λ²_{k+1}))/2
    A_{k+1} = A_k + α_{k+1}
    x_{k+1} = (1 - α_{k+1}/A_{k+1})y_{k+1} + (α_{k+1}/A_{k+1})z_{k+1}

Algoritmo iGFGM (Algoritmo 1)

Similar a iGOGM, pero el coeficiente en el paso 3 es 1 en lugar de 2.

Puntos de Innovación Técnica

1. Solución Analítica de PEP

Mediante la forma dual del Problema de Estimación de Rendimiento, se encuentra una solución analítica factible:

τ = L/(4A_K), v_{i,i+1} = A_i/A_K
u_i = [A_i(1+2α_{i+1})(A_i+2α_iα_{i+1})]/(4LA_K(A_{i+1}-α²_{i+1})) + Σ_{k=i+1}^{K-1} [A_k(1+2α_{k+1})α_iα_{k+1}]/(2LA_K(A_{k+1}-α²_{k+1}))

2. Técnica de Descomposición Matricial

Utilización de complemento de Schur y propiedades de matrices diagonalmente dominantes, asegurando restricciones semidefinidas positivas:

  • Construcción de matriz de Gram G = X^T X
  • Manejo de restricciones PSD mediante descomposición de matrices de bloques
  • Demostración de que la solución dada por u_i satisface condiciones de factibilidad

Resultados Teóricos Principales

Teorema 2.2 (Cota de Convergencia iGOGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(4A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Teorema 2.4 (Cota de Convergencia iGFGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(2A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Características Clave:

  • El término de error acumulado es independiente de la condición inicial ||x_0 - x*||
  • Permite niveles de error variables a lo largo de las iteraciones b_k
  • Los coeficientes u_k pueden calcularse explícitamente

Configuración Experimental y Resultados

Verificación Numérica

  1. Verificación de Soluciones: Verificación de la precisión de soluciones analíticas mediante resolución numérica, error relativo <10^{-3}
  2. Análisis de Compromiso: Análisis del compromiso entre tasa de convergencia y error acumulado para OGM-a (α_i = (i+a)/a)
  3. Programación Óptima: Comparación de error fijo versus error óptimo variable en complejidad total

Hallazgos Clave

  • Cuando a=4, el error acumulado está en el orden O(b²K³/L)
  • Aumentar a puede reducir el error acumulado pero disminuye la tasa de convergencia
  • La programación óptima de errores puede reducir significativamente la complejidad η total

Comparación con Trabajo Relacionado

Condición de Error¿Permite Error Variable?Complejidad de IteracionesLimitaciones
BIE 8×O(1/A_K + δ)Conjunto factible acotado
IFO 12O(1/A_K + Σδ_i/A_K)Conjunto factible acotado
IFO-q 41×O(1/K² + δ/K^{3q/2-1})Condición de subgradiente
AE 58×O(1/K² + R̃_Kδ + Kδ²)R̃_K desconocido
Este ArtículoO(1/A_K + Σu_kb_k²)Sin supuestos adicionales

Programación Óptima de Errores

Problema de Optimización

min Σ_{k=0}^{K-1} η_k = Σ_{k=0}^{K-1} h^{-1}(b_k)
s.a. Σ_{k=0}^{K-1} u_kb_k² ≤ LR²/(4A_K)

Caso de Decaimiento de Ley de Potencia

Para h(η) = c₁η^{-c₂}, la solución óptima es:

b_k* = √(LR²/(4A_K)) · u_k^{1/(1+2c₂)} / (Σu_j^{1/(1+2c₂)})^{1/2}

Caso de Decaimiento Exponencial

Para h(η) = q₁q₂^{-η}, la solución óptima es:

b_k* = √(LR²/(4KA_Ku_k))

Conclusiones y Discusión

Conclusiones Principales

  1. Primera provisión de cotas de convergencia cuantificadas e independientes de parámetros desconocidos para métodos acelerados bajo condiciones de error absoluto
  2. El término de error acumulado es independiente de la condición inicial, dependiendo solo de la constante de Lipschitz y del tamaño de paso
  3. La programación óptima de errores puede reducir significativamente la complejidad computacional total

Limitaciones

  1. Los resultados teóricos requieren α_k² < A_k (desigualdad estricta), excluyendo el caso estándar de FGM donde α_k² = A_k
  2. Los tamaños de paso del algoritmo óptimo carecen de estructura recursiva, dificultando la implementación práctica
  3. El análisis se centra principalmente en configuraciones deterministas, requiriendo investigación adicional para casos aleatorios

Direcciones Futuras

  1. Extensión a casos fuertemente convexos y configuraciones aleatorias
  2. Investigación de condiciones de error más generales
  3. Desarrollo de estrategias prácticas de control de errores adaptativos

Evaluación Profunda

Fortalezas

  1. Contribución Teórica Significativa: Cierre de la brecha en el análisis de métodos acelerados bajo condiciones de error absoluto
  2. Técnicas Avanzadas: Aplicación innovadora de la técnica PEP
  3. Resultados Altamente Prácticos: Provisión de cotas de error computables y estrategias de programación óptima
  4. Análisis Profundo y Completo: Tanto pruebas teóricas como verificación numérica

Deficiencias

  1. Practicidad Limitada: La naturaleza no recursiva del algoritmo óptimo limita la aplicación práctica
  2. Restricciones de Condiciones: La condición estricta α_k² < A_k excluye algunos casos importantes
  3. Experimentos Insuficientes: Carencia de experimentos numéricos en problemas de optimización reales

Impacto

Este artículo proporciona una base teórica importante para optimización acelerada bajo oráculos inexactos, con significado orientador para campos de aplicación como optimización de dos niveles y optimización combinatoria. La aplicación de la técnica PEP también proporciona nueva metodología para análisis relacionados.

Escenarios Aplicables

  • Problemas de optimización a gran escala donde el cálculo de gradientes es costoso
  • Problemas de optimización de dos niveles y optimización combinatoria
  • Aplicaciones que requieren equilibrio entre precisión computacional e iteraciones
  • Análisis teórico de métodos de optimización de orden cero

Referencias

Las referencias clave incluyen la teoría fundamental de PEP de Drori & Teboulle 18, el método OGM de Kim & Fessler 32,33, y el análisis de oráculo inexacto de Devolder et al. 12.