2025-11-10T03:06:05.923380

Revisit First-order Methods for Geodesically Convex Optimization

Shu, Jiang, Shi et al.

In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma. In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.

academic

Revisiter les Méthodes du Premier Ordre pour l'Optimisation Géodésiquement Convexe

Informations Fondamentales

ID de l'article: 2504.06814
Titre: Revisit First-order Methods for Geodesically Convex Optimization
Auteurs: Yunlu Shu, Jiaxin Jiang, Lei Shi, Tianyu Wang (Université Fudan)
Classification: math.OC (Optimisation et Contrôle Mathématiques)
Date de Publication: 16 octobre 2025 (version arXiv v4)
Lien de l'article: https://arxiv.org/abs/2504.06814

Résumé

Cet article revisité les méthodes du premier ordre en optimisation géodésiquement convexe. Zhang et Sra ont étudié de manière exhaustive les méthodes de descente de gradient pour l'optimisation géodésiquement convexe dans leurs travaux fondateurs, en particulier en dérivant les inégalités de comparaison pour les points d'itération du processus d'optimisation. Cet article introduit le concept de quasi-linéarisation dans le domaine de l'optimisation et propose un nouveau cadre d'analyse pour l'optimisation géodésiquement convexe. En exploitant cette technique, nous établissons des taux de convergence de pointe pour les paramètres déterministes et stochastiques sous des hypothèses plus faibles qu'auparavant. La technique de quasi-linéarisation pourrait s'avérer précieuse pour d'autres problèmes d'optimisation non-euclidiens.

Contexte de Recherche et Motivation

Définition du Problème

Cet article étudie les problèmes d'optimisation sur les variétés de Hadamard: $\min_{x \in M} f(x)$ où M est une variété de Hadamard équipée d'une métrique riemannienne g.

Motivation de la Recherche

Limitations des méthodes existantes: L'approche classique de Zhang et Sra repose sur deux hypothèses fortes:
- (A1) Une borne inférieure uniforme de la courbure sectionnelle (condition CBB)
- (A2) Une borne supérieure a priori du diamètre de la trajectoire
Problèmes pratiques: De nombreuses variétés de Hadamard importantes ne satisfont pas la condition CBB, par exemple les variétés à produit déformé, dont la courbure peut tendre vers l'infini négatif.
Défi central: Comment éliminer les hypothèses (A1) et (A2) tout en maintenant les taux de convergence de pointe?

Contributions Principales

Introduction du cadre de quasi-linéarisation: Application pour la première fois du concept de quasi-linéarisation de Berg et Nikolaev à l'analyse des problèmes d'optimisation
Élimination des hypothèses fortes: Établissement de garanties de convergence sans nécessiter de borne inférieure de courbure ni d'hypothèse de domaine borné
Optimisation déterministe: Réalisation d'un taux de convergence O(1/t) pour les fonctions géodésiquement convexes
Optimisation stochastique: Réalisation d'un taux de convergence Õ(1/√t) pour les fonctions géodésiquement convexes lisses
Percée théorique: Fourniture d'une réponse affirmative à la Question (Q), c'est-à-dire que les taux de convergence optimaux peuvent être maintenus sous des hypothèses plus faibles

Détails de la Méthode

Produit Intérieur de Quasi-linéarisation

Pour deux segments géodésiques ordonnés arbitraires $\overrightarrow{xy}$ et $\overrightarrow{zw}$ sur la variété M, le produit intérieur de quasi-linéarisation est défini comme:

$\langle\overrightarrow{xy}, \overrightarrow{zw}\rangle = |\overrightarrow{xy}||\overrightarrow{zw}|\cos_q(\overrightarrow{xy}, \overrightarrow{zw})$

où: $\cos_q(\overrightarrow{xy}, \overrightarrow{zw}) = \frac{|\overrightarrow{xw}|^2 + |\overrightarrow{yz}|^2 - |\overrightarrow{xz}|^2 - |\overrightarrow{yw}|^2}{2|\overrightarrow{xy}||\overrightarrow{zw}|}$

Définition de la Quasi-convexité

Une fonction f est q-convexe si: $f(x) \geq f(y) + \langle\overrightarrow{y\text{Exp}_y(\text{grad}f(y))}, \overrightarrow{yx}\rangle + \frac{\mu}{2}d^2(x,y)$

Algorithme de Gradient Proximal

L'algorithme principal utilise une mise à jour proximale implicite: $x_t = \text{Exp}_{x_{t+1}}(\eta \text{grad}f(x_{t+1}))$

équivalent à la résolution: $x_{t+1} = \arg\min_z \left\{f(z) + \frac{1}{2\eta}d(x_t, z)^2\right\}$

Analyse Théorique

Théorèmes Principaux

Théorème 1 (Cas Déterministe): Soit f une fonction géodésiquement convexe sur la variété de Hadamard M. L'algorithme de gradient proximal satisfait: $f(x_t) - f(x^*) \leq \frac{|\overrightarrow{x_0x^*}|^2}{\eta t}$

Théorème 2 (Cas Stochastique): Sous l'hypothèse de variance bornée, l'algorithme de gradient proximal stochastique avec pas $\eta_t = \frac{1}{2L\sqrt{t}}$ satisfait: $\frac{1}{\sum_{t=1}^T \alpha_t}\sum_{t=1}^T \alpha_t(\mathbb{E}F(x_t) - F(x^*)) \leq \frac{|\overrightarrow{x_0x^*}|^2}{2\sum_{t=1}^T \alpha_t} + \frac{\sigma^2 \log(T+1)}{\sum_{t=1}^T \alpha_t}$

Intuitions Techniques Clés

Avantages de la quasi-linéarisation:
- Applicable à toutes les variétés de Hadamard, sans nécessiter de borne inférieure de courbure
- Préservation des propriétés algébriques similaires aux espaces euclidiens
- Compatibilité naturelle avec la convexité géodésique
Techniques de Preuve:
- Utilisation du Lemme 2 pour établir la relation entre le produit intérieur de quasi-linéarisation et le produit intérieur standard
- Traitement des inégalités d'itération par des techniques de sommation téléscopique
- Contournement ingénieux des limitations du théorème de comparaison triangulaire traditionnel

Configuration Expérimentale et Résultats

Analyse Comparative

L'article compare les hypothèses et les taux de convergence de différentes méthodes sous forme de tableau:

Méthode	Borne de Courbure Requise?	Domaine Borné Requis?	Résolution d'Équation Complexe Requise?	Taux de Convergence
Zhang & Sra	Oui	Oui	Non	O(t⁻¹)
Liu et al.	Non	Oui	Oui	O†(t⁻²)
Méthode Proposée	Non	Non	Non	O(t⁻¹)

Détails d'Implémentation

L'article fournit des méthodes d'implémentation efficace pour l'opérateur proximal:

Résolution de sous-problèmes fortement géodésiquement convexes par descente de gradient
Stratégie de démarrage à chaud pour améliorer l'efficacité computationnelle
Garantie de convergence: $f(z_t) - f(z^*) \leq (1-\frac{\mu}{4L_0})^t(f(z_0) - f(z^*))$

Travaux Connexes

Développement Historique

Travaux Classiques: Bonnabel (2013) et Zhang & Sra (2016) ont établi le cadre d'analyse fondamental
Recherches Ultérieures: Plusieurs travaux ont tenté de relâcher les hypothèses, mais aucun n'a complètement résolu la Question (Q)
Trajectoire Technique: Les méthodes traditionnelles reposent sur le théorème de comparaison triangulaire de Toponogov; cet article ouvre une nouvelle voie via la quasi-linéarisation

Comparaison Technique

Méthodes Traditionnelles: Dépendance à la borne inférieure de courbure sectionnelle, analyse complexe
Méthode Proposée: Utilisation de la quasi-linéarisation, hypothèses plus faibles, analyse plus simple
Complexité Computationnelle: Évitement de la résolution d'équations complexes impliquant Exp⁻¹ et Γ

Conclusions et Discussion

Conclusions Principales

Réponse affirmative réussie à la Question (Q) ouverte depuis dix ans
Établissement des taux de convergence optimaux sous les hypothèses les plus faibles
Fourniture de nouveaux outils d'analyse pour l'optimisation non-euclidienne

Limitations

Nécessité toujours requise de la structure de variété de Hadamard (courbure non-positive)
L'opérateur proximal peut nécessiter une résolution numérique
Les facteurs constants pourraient ne pas être optimaux

Directions Futures

Extension aux problèmes d'optimisation non-lisse
Étude de la possibilité de méthodes accélérées
Application à des problèmes spécifiques d'apprentissage automatique

Évaluation Approfondie

Points Forts

Percée Théorique: Résolution d'un problème ouvert important du domaine
Innovation Méthodologique: Introduction de la technique de quasi-linéarisation d'une manière novatrice
Hypothèses Minimales: Réalisation des taux de convergence optimaux sous les hypothèses les moins restrictives
Analyse Élégante: Les preuves sont plus directes comparées aux méthodes traditionnelles

Insuffisances

Vérification Expérimentale Insuffisante: Absence d'expériences numériques validant les résultats théoriques
Scénarios d'Application Limités: Accent principal sur l'analyse théorique, démonstration d'applications pratiques insuffisante
Analyse des Constantes: Absence d'estimations précises des constantes de convergence

Impact

Valeur Théorique: Contribution importante à la théorie de l'optimisation riemannienne
Signification Méthodologique: La technique de quasi-linéarisation pourrait influencer une optimisation non-euclidienne plus large
Potentiel Pratique: Fourniture de garanties théoriques plus fortes pour l'optimisation sur variétés dans les applications pratiques

Scénarios d'Application

Optimisation avec contraintes de variété en apprentissage automatique
Problèmes géodésiques en géométrie computationnelle
Résolution d'équations aux dérivées partielles numériques
Calcul d'équilibre en économie

Références

L'article cite 61 références pertinentes, incluant principalement:

Berg & Nikolaev (2008): Travail original sur la quasi-linéarisation
Zhang & Sra (2016): Analyse classique de l'optimisation géodésiquement convexe
Bonnabel (2013): Descente de gradient stochastique sur variétés riemanniennes
Plusieurs travaux récents sur l'optimisation de variétés de Hadamard

Évaluation Globale: Cet article est un travail théorique de haute qualité qui résout avec succès un problème ouvert important dans le domaine de l'optimisation géodésiquement convexe en introduisant la technique de quasi-linéarisation. Bien qu'il manque d'expériences numériques, ses contributions théoriques sont significatives et fournissent un nouveau cadre analytique et de nouveaux outils pour l'optimisation non-euclidienne.