2025-11-10T02:43:53.338320

Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization

Huang

In this paper, we propose a novel extrapolation coefficient scheme within a new extrapolation term and develop an accelerated proximal gradient algorithm. We establish that the algorithm achieves a sublinear convergence rate. The proposed scheme only requires the Lipschitz constant estimate sequence to satisfy mild initial conditions, under which a key equality property can be derived to support the convergence analysis. Numerical experiments are provided to demonstrate the effectiveness and practical performance of the proposed method.

academic

Método de Gradiente Proximal Acelerado Rápido con Nuevo Término de Extrapolación para Optimización Multiobjetivo

Información Básica

ID del Artículo: 2507.06737
Título: Fast Accelerated Proximal Gradient Method with New Extrapolation Term for Multiobjective Optimization
Autor: Huang Chengzhi
Clasificación: math.OC (Optimización y Control)
Fecha de Publicación: 17 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2507.06737

Resumen

En este artículo se propone un nuevo esquema de coeficientes de extrapolación y término de extrapolación, desarrollando un algoritmo de gradiente proximal acelerado. El algoritmo logra una tasa de convergencia sublineal. El esquema propuesto solo requiere que la secuencia de estimaciones de constantes de Lipschitz satisfaga condiciones iniciales moderadas, bajo las cuales se pueden derivar propiedades de igualdad críticas para respaldar el análisis de convergencia. Los experimentos numéricos validan la efectividad y el desempeño práctico del método propuesto.

Antecedentes de Investigación y Motivación

Problema a Resolver: Problemas de optimización multiobjetivo, particularmente problemas multiobjetivo sin restricciones de estructura compuesta: $\min_{x \in \mathbb{R}^n} F(x) \equiv (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T$ donde $f_i$ son funciones convexas suaves y $g_i$ son funciones convexas (posiblemente no suaves).
Importancia del Problema: La optimización multiobjetivo existe ampliamente en aplicaciones prácticas, como recuperación de imágenes y detección comprimida. Estos problemas típicamente no tienen una única solución óptima, sino un conjunto de soluciones compuesto por soluciones óptimas de Pareto.
Limitaciones de Métodos Existentes:
- Tanabe et al. extendieron FISTA a optimización multiobjetivo, logrando una tasa de convergencia $O(1/k^2)$
- Los trabajos de Sonntag et al. y Zhang et al. presentan pruebas teóricas incompletas, cuyo análisis de convergencia depende de la no negatividad de la función auxiliar $\sigma(z) = \min_{i=1,\ldots,m} F_i(x_k) - F_i(z)$ , condición difícil de garantizar
Motivación de la Investigación: Superar los defectos en el análisis teórico de métodos existentes, proponer métodos con requisitos más moderados para estimaciones iniciales de constantes de Lipschitz, y evitar la dependencia de la no negatividad de $\sigma$ mediante igualdades clave.

Contribuciones Principales

Propuesta de Nuevo Término de Extrapolación: Adopción de la forma de extrapolación $y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1})$ , donde $\alpha \geq 3$
Establecimiento de Condiciones Iniciales Moderadas: Solo se requiere que la secuencia de estimaciones de constantes de Lipschitz satisfaga condiciones iniciales débiles
Derivación de Propiedades de Igualdad Clave: Se evita la dependencia de la no negatividad de la función auxiliar, perfeccionando el análisis teórico
Prueba de Tasa de Convergencia Sublineal: Se logra tasa de convergencia $O(1/k^2)$ en caso suave y $O(1/k)$ en caso no suave
Extensión a Caso No Suave: Manejo de problemas de optimización multiobjetivo completamente no suaves mediante técnicas de suavización

Explicación Detallada del Método

Definición de la Tarea

Considérese el problema de optimización multiobjetivo sin restricciones de estructura compuesta (MOP): $\min_{x \in \mathbb{R}^n} F(x) = (f_1(x) + g_1(x), \ldots, f_m(x) + g_m(x))^T$

Donde:

$f_i: \mathbb{R}^n \to \mathbb{R}$ son funciones convexas continuamente diferenciables
$g_i: \mathbb{R}^n \to \mathbb{R}$ son funciones convexas (posiblemente no suaves)
El objetivo es encontrar soluciones débilmente óptimas de Pareto

Arquitectura del Modelo

Algoritmo para Caso Suave (Algoritmo 1)

Subproblema Principal: $\min_{z \in \mathbb{R}^n} \phi_{L(f)}(z; x, y) = \max_{i=1,\ldots,m}[\langle\nabla f_i(y), z-y\rangle + g_i(z) + f_i(y) - F_i(x)] + \frac{L(f)}{2}\|z-y\|^2$

Pasos del Algoritmo:

Calcular punto de extrapolación: $y_k = x_k + \frac{k+\alpha-4}{k+\alpha-1}(x_k - x_{k-1})$
Resolver subproblema: $x_{k+1} = p_{s_k}(x_k, y_k)$
Actualizar parámetros: $s_{k+1} = \eta s_k$ , donde $\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)}$

Condiciones de Parámetros:

Cuando $\alpha > 3$ : $0 < \frac{\alpha-2}{\alpha-3}s_0 < \frac{1}{L(f)}$
Cuando $\alpha = 3$ : $0 < s_0 < \frac{1}{L(f)}$

Algoritmo para Caso No Suave (Algoritmo 2)

Aproximación de funciones no suaves $f_i(x)$ mediante funciones suavizadas $\tilde{f}_i(x, \mu)$ , donde la función suavizada satisface:

Diferenciabilidad continua: Para $\mu > 0$ fijo, $\tilde{f}(\cdot, \mu)$ es continuamente diferenciable
Consistencia: $\lim_{z \to x, \mu \downarrow 0} \tilde{f}(z, \mu) = f(x)$
Consistencia del gradiente: $\{\lim_{z \to x, \mu \downarrow 0} \nabla\tilde{f}(z, \mu)\} \subseteq \partial f(x)$

Puntos de Innovación Técnica

Nuevo Diseño de Coeficientes de Extrapolación: Mediante la estrategia específica de actualización de parámetros $\eta = \frac{(k+\alpha-2)^2}{(k+\alpha-1)(k+\alpha-3)}$ se asegura que $s_k < \frac{1}{L(f)}$ se mantenga siempre
Derivación de Igualdades Clave: Mediante manipulación algebraica ingeniosa y selección de parámetros, se evita la dependencia de la no negatividad de $\sigma_k(z)$
Marco Unificado: Cuando $\alpha = 3$ se degenera en métodos existentes, pero proporciona análisis teórico más completo

Configuración Experimental

Conjunto de Datos

El artículo menciona experimentos numéricos en tres problemas de optimización triobjetivo:

Problema BK1&ℓ1
Problema JOS1&ℓ1
Problema SP1&ℓ1

Métricas de Evaluación

Se utiliza la función de mérito $u_0(x) = \sup_{z \in \mathbb{R}^n} \min_{i=1,\ldots,m}[F_i(x) - F_i(z)]$ para evaluar el desempeño del algoritmo, que satisface:

$u_0(x) \geq 0$ para todo $x$
$x$ es débilmente óptimo de Pareto si y solo si $u_0(x) = 0$

Detalles de Implementación

Criterio de parada: $\|x_k - x_{k+1}\| < \varepsilon$
Para caso no suave también se requiere $\mu_k < \varepsilon$
Actualización de parámetros: $\mu_{k+1} = \frac{k+\alpha-2}{k+\alpha-1}\mu_k$ , $s_{k+1} = \frac{k+\alpha-2}{k+\alpha-3}s_k$

Resultados Experimentales

Resultados Principales

El artículo presenta gráficos del frente de Pareto para tres problemas de optimización triobjetivo, aunque los resultados numéricos específicos y datos de comparación de desempeño no están completos en el documento proporcionado.

Resultados Teóricos de Convergencia

Caso Suave (Teorema 4.3): $u_0(x_k) \leq \frac{L(f)(\alpha-1)^2}{2(k+\alpha-1)^2}R$ Se logra una tasa de convergencia $O(1/k^2)$ .

Caso No Suave (Teorema 6.2): $u_0(x_{k+1}) \leq O\left(\frac{1}{k}\right)$ Se logra una tasa de convergencia $O(1/k)$ .

Trabajo Relacionado

Extensión FISTA Multiobjetivo: Tanabe et al. extendieron por primera vez FISTA a optimización multiobjetivo, logrando tasa de convergencia $O(1/k^2)$
Variantes Monótonas: Nishimura et al. propusieron variante monótona de FISTA multiobjetivo
Marco Generalizado: Tanabe et al. generalizaron el marco introduciendo hiperparámetros al caso uniobjetivo
Esquemas de Tipo Nesterov: Sonntag et al. y Zhang et al. intentaron usar términos de extrapolación más efectivos, pero con análisis teórico incompleto
Métodos No Suaves: Gebken et al. propusieron algoritmo de descenso de subgradiente para optimización multiobjetivo no suave

Conclusiones y Discusión

Conclusiones Principales

Se propone método de gradiente proximal acelerado con nuevo término de extrapolación, aplicable a optimización multiobjetivo suave y no suave
Se establece teoría de convergencia completa, evitando defectos teóricos de métodos existentes
Se logra tasa de convergencia $O(1/k^2)$ en caso suave y $O(1/k)$ en caso no suave

Limitaciones

Parte Experimental Insuficiente: Presentación incompleta de resultados de experimentos numéricos, falta de comparaciones detalladas de desempeño
Restricciones en Selección de Parámetros: Requisitos específicos para parámetro inicial $s_0$ y $\alpha$
Tasa de Convergencia Más Lenta en Caso No Suave: Comparado con caso suave, la versión no suave tiene tasa de convergencia reducida a $O(1/k)$

Direcciones Futuras

Explorar técnicas de suavización mejoradas para aumentar tasa de convergencia en caso no suave
Investigar estrategias de selección de parámetros adaptativos
Extender a problemas de optimización multiobjetivo con restricciones

Evaluación Profunda

Fortalezas

Contribución Teórica Significativa: Resuelve defectos clave en análisis teórico de métodos existentes, proporcionando prueba de convergencia completa
Diseño de Método Ingenioso: Mediante estrategia específica de actualización de parámetros se aseguran garantías teóricas del algoritmo
Unidad del Marco: Integra casos suave y no suave en marco unificado
Rigor Matemático: Proceso de prueba detallado, lógica clara

Insuficiencias

Verificación Experimental Insuficiente: Parte de experimentos numéricos demasiado simple, falta comparación detallada con otros métodos avanzados
Análisis de Practicidad Deficiente: Falta análisis profundo de complejidad computacional del algoritmo y escenarios de aplicación práctica
Sensibilidad de Parámetros No Discutida: No se analiza impacto de selección de parámetros en desempeño del algoritmo

Impacto

Valor Teórico Alto: Proporciona base teórica más sólida para métodos acelerados en optimización multiobjetivo
Valor Práctico Pendiente de Verificación: Requiere más experimentos para verificar efectividad en problemas prácticos
Reproducibilidad Buena: Descripción clara del algoritmo, análisis teórico completo

Escenarios Aplicables

Problemas de optimización multiobjetivo con estructura compuesta
Campos de aplicación como procesamiento de imágenes y detección comprimida
Escenarios de optimización que requieren garantías teóricas

Referencias

El artículo cita literatura importante en el campo de optimización multiobjetivo, incluyendo:

Trabajo pionero de Tanabe et al. sobre FISTA multiobjetivo
Teoría relacionada de métodos acelerados de Nesterov
Literatura relacionada con técnicas de suavización
Fundamentos teóricos clásicos de optimización multiobjetivo

Evaluación General: Este es un artículo con contribución teórica destacada que resuelve exitosamente defectos teóricos en métodos de gradiente proximal acelerado multiobjetivo existentes, proporcionando análisis de convergencia completo. Sin embargo, el artículo aún tiene espacio para mejora en verificación experimental y análisis de practicidad.