2025-11-10T03:06:05.923380

Revisit First-order Methods for Geodesically Convex Optimization

Shu, Jiang, Shi et al.
In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma. In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.
academic

Revisiter les Méthodes du Premier Ordre pour l'Optimisation Géodésiquement Convexe

Informations Fondamentales

  • ID de l'article: 2504.06814
  • Titre: Revisit First-order Methods for Geodesically Convex Optimization
  • Auteurs: Yunlu Shu, Jiaxin Jiang, Lei Shi, Tianyu Wang (Université Fudan)
  • Classification: math.OC (Optimisation et Contrôle Mathématiques)
  • Date de Publication: 16 octobre 2025 (version arXiv v4)
  • Lien de l'article: https://arxiv.org/abs/2504.06814

Résumé

Cet article revisité les méthodes du premier ordre en optimisation géodésiquement convexe. Zhang et Sra ont étudié de manière exhaustive les méthodes de descente de gradient pour l'optimisation géodésiquement convexe dans leurs travaux fondateurs, en particulier en dérivant les inégalités de comparaison pour les points d'itération du processus d'optimisation. Cet article introduit le concept de quasi-linéarisation dans le domaine de l'optimisation et propose un nouveau cadre d'analyse pour l'optimisation géodésiquement convexe. En exploitant cette technique, nous établissons des taux de convergence de pointe pour les paramètres déterministes et stochastiques sous des hypothèses plus faibles qu'auparavant. La technique de quasi-linéarisation pourrait s'avérer précieuse pour d'autres problèmes d'optimisation non-euclidiens.

Contexte de Recherche et Motivation

Définition du Problème

Cet article étudie les problèmes d'optimisation sur les variétés de Hadamard: minxMf(x)\min_{x \in M} f(x) où M est une variété de Hadamard équipée d'une métrique riemannienne g.

Motivation de la Recherche

  1. Limitations des méthodes existantes: L'approche classique de Zhang et Sra repose sur deux hypothèses fortes:
    • (A1) Une borne inférieure uniforme de la courbure sectionnelle (condition CBB)
    • (A2) Une borne supérieure a priori du diamètre de la trajectoire
  2. Problèmes pratiques: De nombreuses variétés de Hadamard importantes ne satisfont pas la condition CBB, par exemple les variétés à produit déformé, dont la courbure peut tendre vers l'infini négatif.
  3. Défi central: Comment éliminer les hypothèses (A1) et (A2) tout en maintenant les taux de convergence de pointe?

Contributions Principales

  1. Introduction du cadre de quasi-linéarisation: Application pour la première fois du concept de quasi-linéarisation de Berg et Nikolaev à l'analyse des problèmes d'optimisation
  2. Élimination des hypothèses fortes: Établissement de garanties de convergence sans nécessiter de borne inférieure de courbure ni d'hypothèse de domaine borné
  3. Optimisation déterministe: Réalisation d'un taux de convergence O(1/t) pour les fonctions géodésiquement convexes
  4. Optimisation stochastique: Réalisation d'un taux de convergence Õ(1/√t) pour les fonctions géodésiquement convexes lisses
  5. Percée théorique: Fourniture d'une réponse affirmative à la Question (Q), c'est-à-dire que les taux de convergence optimaux peuvent être maintenus sous des hypothèses plus faibles

Détails de la Méthode

Produit Intérieur de Quasi-linéarisation

Pour deux segments géodésiques ordonnés arbitraires xy\overrightarrow{xy} et zw\overrightarrow{zw} sur la variété M, le produit intérieur de quasi-linéarisation est défini comme:

xy,zw=xyzwcosq(xy,zw)\langle\overrightarrow{xy}, \overrightarrow{zw}\rangle = |\overrightarrow{xy}||\overrightarrow{zw}|\cos_q(\overrightarrow{xy}, \overrightarrow{zw})

où: cosq(xy,zw)=xw2+yz2xz2yw22xyzw\cos_q(\overrightarrow{xy}, \overrightarrow{zw}) = \frac{|\overrightarrow{xw}|^2 + |\overrightarrow{yz}|^2 - |\overrightarrow{xz}|^2 - |\overrightarrow{yw}|^2}{2|\overrightarrow{xy}||\overrightarrow{zw}|}

Définition de la Quasi-convexité

Une fonction f est q-convexe si: f(x)f(y)+yExpy(gradf(y)),yx+μ2d2(x,y)f(x) \geq f(y) + \langle\overrightarrow{y\text{Exp}_y(\text{grad}f(y))}, \overrightarrow{yx}\rangle + \frac{\mu}{2}d^2(x,y)

Algorithme de Gradient Proximal

L'algorithme principal utilise une mise à jour proximale implicite: xt=Expxt+1(ηgradf(xt+1))x_t = \text{Exp}_{x_{t+1}}(\eta \text{grad}f(x_{t+1}))

équivalent à la résolution: xt+1=argminz{f(z)+12ηd(xt,z)2}x_{t+1} = \arg\min_z \left\{f(z) + \frac{1}{2\eta}d(x_t, z)^2\right\}

Analyse Théorique

Théorèmes Principaux

Théorème 1 (Cas Déterministe): Soit f une fonction géodésiquement convexe sur la variété de Hadamard M. L'algorithme de gradient proximal satisfait: f(xt)f(x)x0x2ηtf(x_t) - f(x^*) \leq \frac{|\overrightarrow{x_0x^*}|^2}{\eta t}

Théorème 2 (Cas Stochastique): Sous l'hypothèse de variance bornée, l'algorithme de gradient proximal stochastique avec pas ηt=12Lt\eta_t = \frac{1}{2L\sqrt{t}} satisfait: 1t=1Tαtt=1Tαt(EF(xt)F(x))x0x22t=1Tαt+σ2log(T+1)t=1Tαt\frac{1}{\sum_{t=1}^T \alpha_t}\sum_{t=1}^T \alpha_t(\mathbb{E}F(x_t) - F(x^*)) \leq \frac{|\overrightarrow{x_0x^*}|^2}{2\sum_{t=1}^T \alpha_t} + \frac{\sigma^2 \log(T+1)}{\sum_{t=1}^T \alpha_t}

Intuitions Techniques Clés

  1. Avantages de la quasi-linéarisation:
    • Applicable à toutes les variétés de Hadamard, sans nécessiter de borne inférieure de courbure
    • Préservation des propriétés algébriques similaires aux espaces euclidiens
    • Compatibilité naturelle avec la convexité géodésique
  2. Techniques de Preuve:
    • Utilisation du Lemme 2 pour établir la relation entre le produit intérieur de quasi-linéarisation et le produit intérieur standard
    • Traitement des inégalités d'itération par des techniques de sommation téléscopique
    • Contournement ingénieux des limitations du théorème de comparaison triangulaire traditionnel

Configuration Expérimentale et Résultats

Analyse Comparative

L'article compare les hypothèses et les taux de convergence de différentes méthodes sous forme de tableau:

MéthodeBorne de Courbure Requise?Domaine Borné Requis?Résolution d'Équation Complexe Requise?Taux de Convergence
Zhang & SraOuiOuiNonO(t⁻¹)
Liu et al.NonOuiOuiO†(t⁻²)
Méthode ProposéeNonNonNonO(t⁻¹)

Détails d'Implémentation

L'article fournit des méthodes d'implémentation efficace pour l'opérateur proximal:

  • Résolution de sous-problèmes fortement géodésiquement convexes par descente de gradient
  • Stratégie de démarrage à chaud pour améliorer l'efficacité computationnelle
  • Garantie de convergence: f(zt)f(z)(1μ4L0)t(f(z0)f(z))f(z_t) - f(z^*) \leq (1-\frac{\mu}{4L_0})^t(f(z_0) - f(z^*))

Travaux Connexes

Développement Historique

  1. Travaux Classiques: Bonnabel (2013) et Zhang & Sra (2016) ont établi le cadre d'analyse fondamental
  2. Recherches Ultérieures: Plusieurs travaux ont tenté de relâcher les hypothèses, mais aucun n'a complètement résolu la Question (Q)
  3. Trajectoire Technique: Les méthodes traditionnelles reposent sur le théorème de comparaison triangulaire de Toponogov; cet article ouvre une nouvelle voie via la quasi-linéarisation

Comparaison Technique

  • Méthodes Traditionnelles: Dépendance à la borne inférieure de courbure sectionnelle, analyse complexe
  • Méthode Proposée: Utilisation de la quasi-linéarisation, hypothèses plus faibles, analyse plus simple
  • Complexité Computationnelle: Évitement de la résolution d'équations complexes impliquant Exp⁻¹ et Γ

Conclusions et Discussion

Conclusions Principales

  1. Réponse affirmative réussie à la Question (Q) ouverte depuis dix ans
  2. Établissement des taux de convergence optimaux sous les hypothèses les plus faibles
  3. Fourniture de nouveaux outils d'analyse pour l'optimisation non-euclidienne

Limitations

  1. Nécessité toujours requise de la structure de variété de Hadamard (courbure non-positive)
  2. L'opérateur proximal peut nécessiter une résolution numérique
  3. Les facteurs constants pourraient ne pas être optimaux

Directions Futures

  1. Extension aux problèmes d'optimisation non-lisse
  2. Étude de la possibilité de méthodes accélérées
  3. Application à des problèmes spécifiques d'apprentissage automatique

Évaluation Approfondie

Points Forts

  1. Percée Théorique: Résolution d'un problème ouvert important du domaine
  2. Innovation Méthodologique: Introduction de la technique de quasi-linéarisation d'une manière novatrice
  3. Hypothèses Minimales: Réalisation des taux de convergence optimaux sous les hypothèses les moins restrictives
  4. Analyse Élégante: Les preuves sont plus directes comparées aux méthodes traditionnelles

Insuffisances

  1. Vérification Expérimentale Insuffisante: Absence d'expériences numériques validant les résultats théoriques
  2. Scénarios d'Application Limités: Accent principal sur l'analyse théorique, démonstration d'applications pratiques insuffisante
  3. Analyse des Constantes: Absence d'estimations précises des constantes de convergence

Impact

  1. Valeur Théorique: Contribution importante à la théorie de l'optimisation riemannienne
  2. Signification Méthodologique: La technique de quasi-linéarisation pourrait influencer une optimisation non-euclidienne plus large
  3. Potentiel Pratique: Fourniture de garanties théoriques plus fortes pour l'optimisation sur variétés dans les applications pratiques

Scénarios d'Application

  1. Optimisation avec contraintes de variété en apprentissage automatique
  2. Problèmes géodésiques en géométrie computationnelle
  3. Résolution d'équations aux dérivées partielles numériques
  4. Calcul d'équilibre en économie

Références

L'article cite 61 références pertinentes, incluant principalement:

  • Berg & Nikolaev (2008): Travail original sur la quasi-linéarisation
  • Zhang & Sra (2016): Analyse classique de l'optimisation géodésiquement convexe
  • Bonnabel (2013): Descente de gradient stochastique sur variétés riemanniennes
  • Plusieurs travaux récents sur l'optimisation de variétés de Hadamard

Évaluation Globale: Cet article est un travail théorique de haute qualité qui résout avec succès un problème ouvert important dans le domaine de l'optimisation géodésiquement convexe en introduisant la technique de quasi-linéarisation. Bien qu'il manque d'expériences numériques, ses contributions théoriques sont significatives et fournissent un nouveau cadre analytique et de nouveaux outils pour l'optimisation non-euclidienne.