2025-11-10T03:06:05.923380

Revisit First-order Methods for Geodesically Convex Optimization

Shu, Jiang, Shi et al.

In a seminal work of Zhang and Sra, gradient descent methods for geodesically convex optimization were comprehensively studied. In particular, Zhang and Sra derived a comparison inequality that relates the iterative points in the optimization process. Since their seminal work, numerous follow-ups have studied different downstream usages of their comparison lemma. In this work, we introduce the concept of quasilinearization to optimization, presenting a novel framework for analyzing geodesically convex optimization. By leveraging this technique, we establish state-of-the-art convergence rates -- for both deterministic and stochastic settings -- under weaker assumptions than previously required. The technique of quasilinearization may prove valuable for other non-Euclidean optimization problems.

academic

Revisitar Métodos de Primer Orden para Optimización Geodésicamente Convexa

Información Básica

ID del Artículo: 2504.06814
Título: Revisit First-order Methods for Geodesically Convex Optimization
Autores: Yunlu Shu, Jiaxin Jiang, Lei Shi, Tianyu Wang (Universidad de Fudan)
Clasificación: math.OC (Optimización y Control Matemático)
Fecha de Publicación: 16 de octubre de 2025 (versión v4 en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2504.06814

Resumen

Este artículo revisita los métodos de primer orden en optimización geodésicamente convexa. Zhang y Sra en su trabajo pionero estudiaron exhaustivamente los métodos de descenso de gradiente para optimización geodésicamente convexa, derivando en particular desigualdades de comparación para puntos de iteración en procesos de optimización. El artículo introduce el concepto de cuasilinealización al campo de la optimización y propone un nuevo marco para analizar la optimización geodésicamente convexa. Utilizando esta técnica, se establecen tasas de convergencia de vanguardia para configuraciones deterministas y estocásticas bajo supuestos más débiles que los anteriores. La técnica de cuasilinealización podría ser valiosa para otros problemas de optimización no euclidianos.

Antecedentes de Investigación y Motivación

Definición del Problema

El artículo estudia problemas de optimización en variedades de Hadamard: $\min_{x \in M} f(x)$ donde M es una variedad de Hadamard equipada con una métrica de Riemann g.

Motivación de la Investigación

Limitaciones de Métodos Existentes: El método clásico de Zhang y Sra depende de dos supuestos fuertes:
- (A1) Cota inferior uniforme de la curvatura seccional (condición CBB)
- (A2) Cota superior a priori del diámetro de la trayectoria
Problemas Prácticos: Muchas variedades de Hadamard importantes no satisfacen la condición CBB, como variedades de producto deformado, cuya curvatura puede tender a menos infinito.
Desafío Central: ¿Cómo eliminar los supuestos (A1) y (A2) mientras se mantienen las tasas de convergencia de vanguardia?

Contribuciones Principales

Introducción del Marco de Cuasilinealización: Primera aplicación del concepto de cuasilinealización de Berg y Nikolaev al análisis de problemas de optimización
Eliminación de Supuestos Fuertes: Establecimiento de garantías de convergencia sin necesidad de cotas inferiores de curvatura ni supuestos de dominio acotado
Optimización Determinista: Realización de tasa de convergencia O(1/t) para funciones geodésicamente convexas
Optimización Estocástica: Realización de tasa de convergencia Õ(1/√t) para funciones geodésicamente convexas suaves
Avance Teórico: Proporciona una respuesta afirmativa a la Pregunta (Q), es decir, se pueden mantener tasas de convergencia óptimas bajo supuestos más débiles

Explicación Detallada del Método

Producto Interno de Cuasilinealización

Para dos segmentos geodésicos ordenados arbitrarios $\overrightarrow{xy}$ y $\overrightarrow{zw}$ en la variedad M, el producto interno de cuasilinealización se define como:

$\langle\overrightarrow{xy}, \overrightarrow{zw}\rangle = |\overrightarrow{xy}||\overrightarrow{zw}|\cos_q(\overrightarrow{xy}, \overrightarrow{zw})$

donde: $\cos_q(\overrightarrow{xy}, \overrightarrow{zw}) = \frac{|\overrightarrow{xw}|^2 + |\overrightarrow{yz}|^2 - |\overrightarrow{xz}|^2 - |\overrightarrow{yw}|^2}{2|\overrightarrow{xy}||\overrightarrow{zw}|}$

Definición de q-Convexidad

Una función f es q-convexa si: $f(x) \geq f(y) + \langle\overrightarrow{y\text{Exp}_y(\text{grad}f(y))}, \overrightarrow{yx}\rangle + \frac{\mu}{2}d^2(x,y)$

Algoritmo de Gradiente Proximal

El algoritmo central utiliza actualización proximal implícita: $x_t = \text{Exp}_{x_{t+1}}(\eta \text{grad}f(x_{t+1}))$

equivalente a resolver: $x_{t+1} = \arg\min_z \left\{f(z) + \frac{1}{2\eta}d(x_t, z)^2\right\}$

Análisis Teórico

Teoremas Principales

Teorema 1 (Caso Determinista): Sea f una función geodésicamente convexa en la variedad de Hadamard M, el algoritmo de gradiente proximal satisface: $f(x_t) - f(x^*) \leq \frac{|\overrightarrow{x_0x^*}|^2}{\eta t}$

Teorema 2 (Caso Estocástico): Bajo el supuesto de varianza acotada, el algoritmo de gradiente proximal estocástico con tamaño de paso $\eta_t = \frac{1}{2L\sqrt{t}}$ satisface: $\frac{1}{\sum_{t=1}^T \alpha_t}\sum_{t=1}^T \alpha_t(\mathbb{E}F(x_t) - F(x^*)) \leq \frac{|\overrightarrow{x_0x^*}|^2}{2\sum_{t=1}^T \alpha_t} + \frac{\sigma^2 \log(T+1)}{\sum_{t=1}^T \alpha_t}$

Perspectivas Técnicas Clave

Ventajas de la Cuasilinealización:
- Aplicable a todas las variedades de Hadamard sin necesidad de cotas inferiores de curvatura
- Mantiene propiedades algebraicas similares a espacios euclidianos
- Compatible naturalmente con convexidad geodésica
Técnicas de Prueba:
- Utilización del Lema 2 para establecer relación entre producto interno de cuasilinealización e interno estándar
- Manejo de desigualdades iterativas mediante técnicas de suma telescópica
- Evitación ingeniosa de limitaciones del teorema de comparación triangular tradicional

Configuración Experimental y Resultados

Análisis Comparativo

El artículo compara mediante tabla los supuestos y tasas de convergencia de diferentes métodos:

Método	¿Requiere Cota de Curvatura?	¿Requiere Dominio Acotado?	¿Requiere Resolver Ecuación Compleja?	Tasa de Convergencia
Zhang & Sra	Sí	Sí	No	O(t⁻¹)
Liu et al.	No	Sí	Sí	O†(t⁻²)
Método Propuesto	No	No	No	O(t⁻¹)

Detalles de Implementación

El artículo proporciona métodos de implementación eficiente del operador proximal:

Resolución de subproblemas fuertemente geodésicamente convexos mediante descenso de gradiente
Estrategia de inicio en caliente para mejorar eficiencia computacional
Garantía de convergencia: $f(z_t) - f(z^*) \leq (1-\frac{\mu}{4L_0})^t(f(z_0) - f(z^*))$

Trabajo Relacionado

Desarrollo Histórico

Trabajos Clásicos: Bonnabel (2013) y Zhang & Sra (2016) establecieron el marco de análisis fundamental
Investigación Posterior: Múltiples trabajos intentaron relajar supuestos, pero ninguno resolvió completamente la Pregunta (Q)
Línea Técnica: Los métodos tradicionales dependen del teorema de comparación triangular de Toponogov; este artículo abre un nuevo camino mediante cuasilinealización

Comparación Técnica

Métodos Tradicionales: Dependen de cotas inferiores de curvatura seccional, análisis complejo
Método Propuesto: Utiliza cuasilinealización, supuestos más débiles, análisis más simple
Complejidad Computacional: Evita resolución de ecuaciones complejas que involucran Exp⁻¹ y Γ

Conclusiones y Discusión

Conclusiones Principales

Respuesta exitosa a la pregunta abierta de una década, Pregunta (Q)
Establecimiento de tasas de convergencia óptimas bajo supuestos más débiles
Provisión de nuevas herramientas de análisis para optimización no euclidiana

Limitaciones

Aún requiere estructura de variedad de Hadamard (curvatura no positiva)
El operador proximal puede requerir resolución numérica
Los factores constantes pueden no ser óptimos

Direcciones Futuras

Extensión a problemas de optimización no suave
Investigación de posibilidad de métodos acelerados
Aplicación a problemas específicos de aprendizaje automático

Evaluación Profunda

Fortalezas

Avance Teórico: Resolución de importante problema abierto en el campo
Innovación Metodológica: Introducción de técnica de cuasilinealización es pionera
Supuestos Mínimos: Realización de tasas de convergencia óptimas bajo supuestos mínimos
Análisis Conciso: Las pruebas son más directas comparadas con métodos tradicionales

Deficiencias

Verificación Experimental Insuficiente: Carencia de experimentos numéricos para verificar resultados teóricos
Escenarios de Aplicación Limitados: Enfoque principalmente en análisis teórico, demostración de aplicaciones prácticas insuficiente
Análisis de Constantes: Falta de estimaciones precisas de constantes de convergencia

Impacto

Valor Teórico: Contribución importante a teoría de optimización riemanniana
Significado Metodológico: Técnica de cuasilinealización puede influir en optimización no euclidiana más amplia
Potencial Práctico: Proporciona garantías teóricas más fuertes para optimización en variedades en aplicaciones prácticas

Escenarios Aplicables

Optimización con restricciones de variedad en aprendizaje automático
Problemas geodésicos en geometría computacional
Resolución de ecuaciones diferenciales parciales numéricas
Cálculo de equilibrio en economía

Referencias

El artículo cita 61 referencias relacionadas, incluyendo principalmente:

Berg & Nikolaev (2008): Trabajo original sobre cuasilinealización
Zhang & Sra (2016): Análisis clásico de optimización geodésicamente convexa
Bonnabel (2013): Descenso de gradiente estocástico en variedades de Riemann
Múltiples trabajos recientes sobre optimización en variedades de Hadamard

Evaluación General: Este es un artículo teórico de alta calidad que resuelve exitosamente un importante problema abierto en el campo de optimización geodésicamente convexa mediante la introducción de técnica de cuasilinealización. Aunque carece de experimentos numéricos, su contribución teórica es significativa, proporcionando nuevo marco de análisis y herramientas para optimización no euclidiana.