2025-11-22T03:37:15.627362

Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound

Liu, Tajbakhsh
Performance analysis of first-order algorithms with inexact oracles has gained recent attention due to various emerging applications in which obtaining exact gradients is impossible or computationally expensive. Previous research has demonstrated that the performance of accelerated first-order methods is more sensitive to gradient errors compared with non-accelerated ones. This paper investigates the nonasymptotic convergence bound of two accelerated methods with inexact gradients to solve deterministic smooth convex problems. Performance Estimation Problem (PEP) is used as the primary tool to analyze the convergence bounds of the underlying algorithms. By finding an analytical solution to PEP, we derive novel convergence bounds of Generalized Optimized Gradient Method (GOGM) and Generalized Fast Gradient Method (GFGM) with inexact gradient oracles following the absolute error bound. The derived bounds allow varying oracle inexactness along the iterations; furthermore, their accumulated error terms are independent of the initial condition and any unknown parameters. Furthermore, we analyze the tradeoff between the vanishing term and the accumulated error in the convergence bound that guides finding the optimal stepsize. Finally, we determine the optimal strategy to set the gradient inexactness along iterations (if possible in a given application), ensuring that the accumulated error remains subordinate to the vanishing term.
academic

Analyse Non-Asymptotique des Méthodes Accélérées avec Oracle Inexact sous Borne d'Erreur Absolue

Informations Fondamentales

  • ID de l'article: 2408.00720
  • Titre: Nonasymptotic Analysis of Accelerated Methods With Inexact Oracle Under Absolute Error Bound
  • Auteurs: Yin Liu (Université de Pékin), Sam Davanloo Tajbakhsh (Université d'État de l'Ohio)
  • Classification: math.OC (Optimisation et Contrôle)
  • Date de publication: 15 octobre 2025
  • Lien de l'article: https://arxiv.org/abs/2408.00720

Résumé

Cet article étudie les bornes de convergence non-asymptotiques des méthodes du premier ordre accélérées sous oracle de gradient inexact. Puisque l'obtention de gradients exacts est impossible ou coûteuse en calcul dans de nombreuses applications émergentes, l'analyse de performance des algorithmes du premier ordre sous oracle inexact suscite un intérêt considérable. Des recherches antérieures ont montré que les méthodes du premier ordre accélérées sont plus sensibles aux erreurs de gradient que les méthodes non-accélérées. Cet article utilise le problème d'estimation de performance (PEP) comme outil d'analyse principal et, en trouvant des solutions analytiques au PEP, dérive de nouvelles bornes de convergence pour la méthode de gradient généralisée (GOGM) et la méthode de gradient rapide généralisée (GFGM) sous borne d'erreur absolue.

Contexte et Motivation de la Recherche

Définition du Problème

Cet article considère le problème d'optimisation:

min_{x∈R^d} f(x)

où f est une fonction convexe avec gradient Lipschitz continu. En pratique, seules des estimations de gradient inexactes sont disponibles:

∇̃f(x) = ∇f(x) + e, ||e|| ≤ b

Motivation de la Recherche

  1. Besoins pratiques: L'obtention de gradients exacts est difficile ou coûteuse dans l'optimisation bicouche, l'optimisation combinatoire, l'optimisation d'ordre zéro, etc.
  2. Lacunes théoriques: Les analyses existantes dépendent d'hypothèses fortes (comme des domaines réalisables bornés) ou contiennent des termes non quantifiables
  3. Limitations des méthodes: Les méthodes accélérées sont plus sensibles aux erreurs de gradient, nécessitant une analyse plus fine

Scénarios d'Application

  • Optimisation bicouche: Le problème inférieur ne peut être résolu qu'à une solution sous-optimale
  • Optimisation combinatoire: Estimation de l'espérance par échantillonnage en petits lots
  • Optimisation d'ordre zéro: Estimation du gradient par différences finies ou lissage gaussien

Contributions Principales

  1. Percée théorique: Dérivation de bornes de convergence quantifiées pour iGOGM et iGFGM sous conditions d'erreur absolue (AE), éliminant la dépendance aux paramètres inconnus
  2. Innovation méthodologique: Découverte de solutions analytiques réalisables via la technique PEP, fournissant des termes d'erreur cumulée indépendants des conditions initiales
  3. Orientation pratique: Analyse du compromis entre taux de convergence et erreur cumulée, fournissant des stratégies de sélection de pas optimal
  4. Planification optimale: Détermination de stratégies de configuration optimale de l'imprécision du gradient, minimisant le coût de calcul total

Détails de la Méthode

Définition de la Tâche

Étude de la convergence des méthodes de gradient accélérées sous conditions d'erreur absolue:

  • Entrée: Oracle de gradient inexact satisfaisant ||∇̃f(x) - ∇f(x)|| ≤ b_x
  • Sortie: Borne supérieure de f(x_K) - f*
  • Contraintes: f ∈ F_{0,L} (convexe et L-lisse uniquement)

Algorithmes Principaux

Algorithme iGOGM (Algorithme 2)

Entrée: z_0 = x_0, A_0 = α_0 = 1, paramètres de pas {λ_k}
pour k = 0 à K-1:
    y_{k+1} = x_k - (1/L)∇̃f(x_k)
    z_{k+1} = z_k - (2/L)α_k∇̃f(x_k)  # Clé: coefficient 2
    α_{k+1} = (λ_{k+1} + √(4λ_{k+1}A_k + λ²_{k+1}))/2
    A_{k+1} = A_k + α_{k+1}
    x_{k+1} = (1 - α_{k+1}/A_{k+1})y_{k+1} + (α_{k+1}/A_{k+1})z_{k+1}

Algorithme iGFGM (Algorithme 1)

Similaire à iGOGM, mais avec coefficient 1 au lieu de 2 à l'étape 3.

Points d'Innovation Technique

1. Solution Analytique du PEP

Via la forme duale du problème d'estimation de performance, obtention d'une solution analytique réalisable:

τ = L/(4A_K), v_{i,i+1} = A_i/A_K
u_i = [A_i(1+2α_{i+1})(A_i+2α_iα_{i+1})]/(4LA_K(A_{i+1}-α²_{i+1})) + Σ_{k=i+1}^{K-1} [A_k(1+2α_{k+1})α_iα_{k+1}]/(2LA_K(A_{k+1}-α²_{k+1}))

2. Technique de Décomposition Matricielle

Utilisation du complément de Schur et des propriétés de matrices diagonalement dominantes, garantissant les contraintes semi-définies positives:

  • Construction de la matrice de Gram G = X^T X
  • Traitement des contraintes PSD par décomposition matricielle par blocs
  • Preuve que u_i satisfait les conditions de réalisabilité

Résultats Théoriques Principaux

Théorème 2.2 (Borne de Convergence iGOGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(4A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Théorème 2.4 (Borne de Convergence iGFGM)

f(x_K) - f* - (1/2L)||∇f(x_K)||² ≤ L||x_0-x*||²/(2A_K) + Σ_{k=0}^{K-1} u_k||e_k||²

Caractéristiques clés:

  • Le terme d'erreur cumulée est indépendant de la condition initiale ||x_0 - x*||
  • Permet des niveaux d'erreur variables b_k le long des itérations
  • Les coefficients u_k sont explicitement calculables

Configuration Expérimentale et Résultats

Vérification Numérique

  1. Vérification de la solution: Validation numérique de l'exactitude de la solution analytique, erreur relative < 10^{-3}
  2. Analyse du compromis: Analyse du compromis entre taux de convergence et erreur cumulée pour OGM-a (α_i = (i+a)/a)
  3. Planification optimale: Comparaison de l'erreur fixe versus erreur variable optimale en complexité totale

Découvertes Clés

  • Lorsque a=4, l'erreur cumulée est de l'ordre O(b²K³/L)
  • L'augmentation de a réduit l'erreur cumulée mais diminue le taux de convergence
  • La planification d'erreur optimale peut réduire significativement la complexité η totale

Comparaison avec les Travaux Connexes

Condition d'erreurErreur variable autorisée?Complexité itérativeConditions de limitation
BIE 8×O(1/A_K + δ)Ensemble réalisable borné
IFO 12O(1/A_K + Σδ_i/A_K)Ensemble réalisable borné
IFO-q 41×O(1/K² + δ/K^{3q/2-1})Condition de sous-gradient
AE 58×O(1/K² + R̃_Kδ + Kδ²)R̃_K inconnu
Cet articleO(1/A_K + Σu_kb_k²)Aucune hypothèse supplémentaire

Planification d'Erreur Optimale

Problème d'Optimisation

min Σ_{k=0}^{K-1} η_k = Σ_{k=0}^{K-1} h^{-1}(b_k)
s.c. Σ_{k=0}^{K-1} u_kb_k² ≤ LR²/(4A_K)

Cas de Décroissance en Loi de Puissance

Pour h(η) = c₁η^{-c₂}, la solution optimale est:

b_k* = √(LR²/(4A_K)) · u_k^{1/(1+2c₂)} / (Σu_j^{1/(1+2c₂)})^{1/2}

Cas de Décroissance Exponentielle

Pour h(η) = q₁q₂^{-η}, la solution optimale est:

b_k* = √(LR²/(4KA_Ku_k))

Conclusions et Discussion

Conclusions Principales

  1. Première fourniture de bornes de convergence quantifiées et indépendantes des paramètres inconnus pour les méthodes accélérées sous conditions d'erreur absolue
  2. Le terme d'erreur cumulée est indépendant de la condition initiale, dépendant uniquement de la constante de Lipschitz et du pas
  3. La planification d'erreur optimale peut réduire significativement la complexité de calcul totale

Limitations

  1. Les résultats théoriques exigent α_k² < A_k (inégalité stricte), excluant le cas standard FGM où α_k² = A_k
  2. Les pas du meilleur algorithme manquent de structure récursive, rendant l'implémentation pratique difficile
  3. L'analyse se concentre principalement sur le cadre déterministe, le cas aléatoire nécessite une recherche supplémentaire

Directions Futures

  1. Extension aux cas fortement convexes et aux paramètres aléatoires
  2. Étude de conditions d'erreur plus générales
  3. Développement de stratégies pratiques de contrôle d'erreur adaptatif

Évaluation Approfondie

Avantages

  1. Contribution théorique significative: Comble le vide dans l'analyse des méthodes accélérées sous conditions d'erreur absolue
  2. Techniques avancées: Application innovante de la technique PEP
  3. Résultats pratiquement utiles: Fournit des bornes d'erreur calculables et des stratégies de planification optimale
  4. Analyse complète et approfondie: Combine preuves théoriques et vérification numérique

Insuffisances

  1. Applicabilité pratique limitée: La nature non-récursive de l'algorithme optimal limite l'application pratique
  2. Restrictions de conditions: La condition stricte α_k² < A_k exclut certains cas importants
  3. Expériences insuffisantes: Manque d'expériences numériques sur des problèmes d'optimisation réels

Impact

Cet article fournit une base théorique importante pour l'optimisation accélérée sous oracle inexact, avec une importance directrice pour les domaines d'application tels que l'optimisation bicouche et l'optimisation combinatoire. L'application de la technique PEP fournit également une nouvelle méthodologie pour les analyses connexes.

Scénarios Applicables

  • Problèmes d'optimisation à grande échelle où le calcul du gradient est coûteux
  • Problèmes d'optimisation bicouche et combinatoire
  • Applications nécessitant un compromis entre précision de calcul et nombre d'itérations
  • Analyse théorique des méthodes d'optimisation d'ordre zéro

Références

Les références clés incluent la théorie fondamentale du PEP de Drori & Teboulle 18, la méthode OGM de Kim & Fessler 32,33, ainsi que l'analyse d'oracle inexact de Devolder et al. 12.