2025-11-26T03:25:17.925806

An Accelerated Distributed Algorithm with Equality and Inequality Coupling Constraints

Qiu, Qian, Lin et al.

This paper studies distributed convex optimization with both affine equality and nonlinear inequality couplings through the duality analysis. We first formulate the dual of the coupling-constraint problem and reformulate it as a consensus optimization problem over a connected network. To efficiently solve this dual problem and hence the primal problem, we design an accelerated linearized algorithm that, at each round, a look-ahead linearization of the separable objective is combined with a quadratic penalty on the Laplacian constraint, a proximal step, and an aggregation of iterations. On the theory side, we prove non-ergodic rates for both the primal optimality error and the feasibility error. On the other hand, numerical experiments show a faster decrease of optimality error and feasibility residual than augmented-Lagrangian tracking and distributed subgradient baselines under the same communication budget.

academic

Un Algoritmo Distribuido Acelerado con Restricciones de Acoplamiento de Igualdad e Desigualdad

Información Básica

ID del Artículo: 2511.19708
Título: An Accelerated Distributed Algorithm with Equality and Inequality Coupling Constraints
Autores: Chenyang Qiu, Yangyang Qian, Zongli Lin, Yacov A. Shamash
Instituciones de los Autores: University of Virginia (Qiu, Qian, Lin), Stony Brook University (Shamash)
Clasificación: math.OC (Optimización y Control), cs.SY (Sistemas y Control), eess.SY (Sistemas y Control)
Fecha de Presentación: 24 de noviembre de 2025
Enlace del Artículo: https://arxiv.org/abs/2511.19708

Resumen

Este artículo estudia problemas de optimización convexa distribuida con restricciones de igualdad afín y restricciones de desigualdad no lineal. Mediante análisis dual, se transforma el problema de restricciones acopladas en un problema de optimización de consenso en una red conectada. Para resolver eficientemente el problema dual y, por lo tanto, el problema original, se diseña un algoritmo de linealización acelerado que combina en cada iteración linealización prospectiva de la función objetivo separable, términos de penalización cuadrática de la restricción Laplaciana, pasos proximales y agregación iterativa. Se demuestra teóricamente la tasa de convergencia no ergódica del error de optimalidad y del error de viabilidad del problema original. Los experimentos numéricos muestran que, bajo el mismo presupuesto de comunicación, el algoritmo supera a los algoritmos de última generación existentes en la velocidad de disminución del error de optimalidad y del residuo de viabilidad.

Antecedentes de Investigación y Motivación

1. Definición del Problema

La optimización distribuida tiene como objetivo minimizar la función objetivo global mediante computación local y comunicación en sistemas multiagente. Este artículo se enfoca en el Problema de Restricciones de Acoplamiento (Coupling-Constraint Problem, CCP), que es particularmente desafiante porque los agentes necesitan coordinar decisiones locales mientras satisfacen restricciones de acoplamiento global.

2. Importancia del Problema

Este tipo de problemas existe ampliamente en aplicaciones prácticas:

Redes Inteligentes: En problemas de despacho económico, las restricciones de igualdad afín global representan condiciones de balance de potencia (la generación total satisface la demanda total)
Asignación de Recursos: Necesidad de satisfacer simultáneamente limitaciones individuales y globales
Restricciones de Emisiones: Limitaciones de capacidad de red y otras restricciones físicas modeladas como restricciones de desigualdad acopladas

3. Limitaciones de Métodos Existentes

Tratamiento de Restricciones de Igualdad: Métodos existentes como ADMM, métodos de espejo, seguimiento de gradiente, etc., se enfocan principalmente en restricciones de igualdad
Tratamiento de Restricciones de Desigualdad: Los métodos para restricciones de desigualdad afín no son aplicables a restricciones no lineales
Problema de Tasa de Convergencia: Los algoritmos existentes que manejan restricciones de desigualdad no lineales de acoplamiento global tienen las siguientes limitaciones:
- Convergencia asintótica 13,17,18
- Tasa de convergencia ergódica: O(ln N/√N) 14, O(1/√N) 15, O(1/N) 16
- Falta de garantías de convergencia acelerada y no ergódica

4. Motivación de la Investigación

La mayoría de los algoritmos distribuidos existentes no consideran convergencia acelerada, resultando en tasas de convergencia relativamente lentas. Este artículo tiene como objetivo desarrollar un algoritmo distribuido con tasas de convergencia no ergódica acelerada comprobables, extendiendo las garantías teóricas de métodos de primer orden clásicos al marco CCP con funciones de costo generales (posiblemente no suaves).

Contribuciones Principales

Innovación Algorítmica: Se propone un nuevo algoritmo de optimización distribuida acelerado que puede manejar simultáneamente restricciones de acoplamiento de igualdad afín y restricciones de desigualdad no lineales
Avance Teórico: Se establece la tasa de convergencia no ergódica:
- Error de optimalidad del problema original: O(1/N²) + O(1/N)
- Error de violación de restricciones: O(1/N²) + O(1/N)
- Mejora significativa sobre las garantías de convergencia ergódica o asintótica de trabajos existentes
Reconstrucción Dual: Se transforma CCP en un problema dual, utilizando separabilidad para interpretarlo como un problema de optimización de consenso
Verificación Experimental: Los experimentos numéricos muestran que, bajo el mismo presupuesto de iteración, el algoritmo supera a algoritmos de última generación como ALT y subgradiente distribuido en la velocidad de disminución del error de optimalidad y residuo de viabilidad

Explicación Detallada del Método

Definición de la Tarea

Problema Original (Problema 1): $\min_{x \in X} f(x) = \sum_{i=1}^{n} f_i(x_i)$

Sujeto a:

Restricción de acoplamiento de igualdad: $\sum_{i=1}^{n} B_i x_i = \sum_{i=1}^{n} b_i$
Restricción de acoplamiento de desigualdad: $\sum_{i=1}^{n} h_i(x_i) \leq 0$
Restricción local: $x_i \in X_i \subseteq \mathbb{R}^p$

Donde:

$x = [x_1^T, x_2^T, \ldots, x_n^T]^T \in \mathbb{R}^{np}$
$B_i \in \mathbb{R}^{d \times p}$ , $b_i \in \mathbb{R}^d$
$h_i: \mathbb{R}^p \to \mathbb{R}^m$ es una función posiblemente no lineal

Supuestos Clave:

Supuesto 1: $f_i$ es una función $\mu_f$ -fuertemente convexa apropiada; $h_i$ es convexa y $l_h$ -Lipschitz continua
Supuesto 2: $X_i$ es un conjunto compacto convexo; se satisface la condición de Slater (existe un punto estrictamente factible)

Arquitectura del Modelo

Paso Uno: Construcción del Problema Dual

Se introducen multiplicadores de Lagrange $\mu \in \mathbb{R}^d$ (restricciones de igualdad) y $\delta \in \mathbb{R}_+^m$ (restricciones de desigualdad), con función Lagrangiana:

$L(x, \mu, \delta) = \sum_{i=1}^{n} \left( F_i(x_i) + \langle \mu, B_i x_i - b_i \rangle + \langle \delta, h_i(x_i) \rangle \right)$

Donde $F_i = f_i + \mathbb{1}_{X_i}$ ( $\mathbb{1}_{X_i}$ es la función indicadora).

Problema Dual: $\min_{\mu \in \mathbb{R}^d, \delta \in \mathbb{R}_+^m} \sum_{i=1}^{n} g_i(\mu, \delta)$

Donde $g_i(\mu, \delta) = -\min_{x_i} L_i(x_i, \mu, \delta)$ .

Paso Dos: Reconstrucción de Optimización de Consenso

Cada agente $i$ mantiene copias de variables duales $y_i = [\mu_i^T, \delta_i^T]^T \in Y = \mathbb{R}^d \times \mathbb{R}_+^m$ , reconstruyendo el problema dual como:

$\min_{y \in \mathcal{Y}} G(y) = \sum_{i=1}^{n} g_i(y_i)$ $\text{s.t. } y_1 = y_2 = \cdots = y_n$

Utilizando la matriz Laplaciana $H$ y $W = H \otimes I_{d+m}$ , la restricción de consenso es equivalente a $W^{1/2}y = 0$ , obteniendo la forma compacta (Problema 4):

$\min_{y \in \mathcal{Y}} G(y) \quad \text{s.t. } W^{1/2}y = 0$

Paso Tres: Método de Multiplicadores de Linealización Acelerada

Función Lagrangiana Aumentada: $\mathcal{L}_\rho(y, v) = G(y) - \langle v, W^{1/2}y \rangle + \frac{\rho}{2} \|W^{1/2}y\|^2$

Iteración del Algoritmo (Algoritmo 1):

Inicialización: ŷ_{i,1} = y_{i,1} ∈ Y, λ_{i,1} = 0

Para k = 1, 2, ..., N:
  1. Paso de Extrapolación:
     ỹ_{i,k} = (1 - α_k)ŷ_{i,k} + α_k y_{i,k}
  
  2. Optimización Local (Cálculo de Gradiente):
     x_{i,k} = argmin_x {F_i(x) + ⟨[B_i x - b_i; h_i(x)], ỹ_{i,k}⟩}
     ∇g_i(ỹ_{i,k}) = -[B_i x_{i,k} - b_i; h_i(x_{i,k})]
  
  3. Intercambio de Información:
     t_{i,k} = Σ_{j∈N_i} H_{ij}(y_{i,k} - y_{j,k})
  
  4. Actualización Proximal:
     y_{i,k+1} = P_Y{y_{i,k} - 1/η_k(∇g_i(ỹ_{i,k}) - λ_{i,k} - θ_k t_{i,k})}
  
  5. Paso de Agregación:
     ŷ_{i,k+1} = (1 - α_k)ŷ_{i,k} + α_k y_{i,k+1}
  
  6. Actualización de Variable Dual:
     λ_{i,k+1} = λ_{i,k} - β_k t_{i,k}

Configuración de Parámetros:

$\alpha_k = \frac{2}{k+1}$ (parámetro de aceleración de Nesterov)
$\theta_k = \frac{\rho N}{k}$ (penalización Laplaciana adaptativa)
$\beta_k = \frac{\rho k}{N}$ (tamaño de paso dual)
$\eta_k = \frac{2l_g + \rho N \|W\|}{k}$ (parámetro proximal)

Donde $l_g = \sqrt{\frac{2}{\mu_f^2}(\|B_i\|^2 + l_h^2)} \cdot \max\{\|B_i\|^2, l_h^2\}$ es la constante de Lipschitz de $g_i$ .

Puntos de Innovación Técnica

Mecanismo de Coordinación de Tres Variables:
- $\tilde{y}_k$ : punto de predicción extrapolado, utilizado para evaluación de gradiente, introduce efecto de momento
- $y_k$ : punto de corrección proximal, asegura estabilidad
- $\hat{y}_k$ : punto de suavizado de trayectoria, realiza análisis de convergencia óptima
Programación de Parámetros Adaptativos:
- $\theta_k$ y $\beta_k$ se ajustan adaptativamente con el número de iteraciones, equilibrando velocidad de convergencia y estabilidad
- El diseño de parámetros asegura tasa acelerada no ergódica O(1/N²)
Estrategia de Linealización:
- Linealización del término cuadrático no separable $\frac{\rho}{2}\|W^{1/2}y\|^2$
- Combinación con gradiente prospectivo $\nabla G(\tilde{y}_k)$ en lugar de gradiente en punto actual
Implementación Distribuida:
- Cada nodo solo necesita resolver un subproblema local (ecuación 14)
- Solo requiere un intercambio de información con vecinos (paso 6 en $t_{i,k}$ )
- Sin necesidad de coordinador global

Configuración Experimental

Conjunto de Datos

Problema de Optimización Sintética: $\min_{x_i \in X_i} \sum_{i=1}^{n} \left( x_i^T A_i x_i + b_i^T x_i + \|x_i\|_1 \right)$

Sujeto a:

Igualdad: $\sum_{i=1}^{n} C_i x_i = 0_p$
Desigualdad: $\sum_{i=1}^{n} \|x_i - r_i\|_1 \leq \sum_{i=1}^{n} d_i$

Configuración de Parámetros:

Número de agentes: $n = 20$
Dimensión local: $p = 5$
Restricción de caja: $x_i \in X_i = \{x \in \mathbb{R}^p | \underline{x}_i \leq x \leq \bar{x}_i\}$ $x_{i} \in X_{i} = {x \in R^{p} ∣ \underline{x}_{i} \leq x \leq \overset{x}{ˉ}_{i}}$
- $\underline{x}_i \sim U[-10, -9]$ , $\bar{x}_i \sim U[9, 10]$
Matriz $A_i = U_i \Lambda_i U_i^T$ $A_{i} = U_{i} Λ_{i} U_{i}^{T}$ :
- $U_i$ es matriz ortogonal aleatoria
- Valores propios de $\Lambda_i$ distribuidos linealmente en $[1, 100]$ (número de condición $\kappa = 100$ )
$C_i, b_i \sim \mathcal{N}(0, I_p)$
$d_i \sim U(1, 6)$

Red de Comunicación:

Grafo no dirigido conectado: cada nodo conectado a vecinos más cercanos y segundos más cercanos
Conjunto de aristas: $(i, i+1)$ para $1 \leq i \leq 19$ , más $(1, 20)$

Métricas de Evaluación

Error de Optimalidad del Problema Original: $\frac{|f(x_k) - f(x^*)|^2}{|f(x_1) - f(x^*)|^2}$
Error Absoluto de Violación de Restricciones: $\left\| \sum_{i=1}^{n} C_i x_{i,k} \right\| + \left[ \sum_{i=1}^{n} (\|x_{i,k} - r_i\|_1 - d_i) \right]_+$

Métodos de Comparación

Subgradiente Distribuido 14: Algoritmo de subgradiente distribuido
ALT (Augmented Lagrangian Tracking) 17: Algoritmo de seguimiento Lagrangiano aumentado
IPLUX (Integrated Primal-Dual Proximal) 16: Algoritmo proximal primal-dual integrado

Solución de Referencia: Se utiliza YALMIP con solucionador MOSEK para obtener la solución óptima $x^*$

Detalles de Implementación

Todos los algoritmos utilizan la misma inicialización
Número de iteraciones: $N = 1200$
Parámetros del algoritmo propuesto configurados según Teorema 1

Resultados Experimentales

Resultados Principales

Figura 1: Error de Optimalidad del Problema Original

Algoritmo Propuesto: Alcanza precisión de $10^{-6}$ en $k=1200$
ALT: Disminución monótona pero más lenta, aproximadamente $10^{-2}$ al final
Subgradiente Distribuido: Disminución más lenta, manteniéndose en rango $10^{-1}$ - $10^0$
IPLUX: Rendimiento intermedio entre ALT y algoritmo propuesto

Figura 2: Error Absoluto de Violación de Restricciones

Algoritmo Propuesto: Alcanza primero por debajo de $10^{-4}$
Otros Algoritmos: Convergencia notablemente más lenta

Hallazgos Experimentales

Velocidad de Convergencia: El algoritmo propuesto converge significativamente más rápido que todos los métodos de comparación bajo el mismo número de iteraciones
Ventaja de Precisión:
- Error de optimalidad disminuye aproximadamente 4 órdenes de magnitud (de $10^{-2}$ a $10^{-6}$ )
- Error de viabilidad disminuye aproximadamente 2 órdenes de magnitud
Efecto de Aceleración Evidente: La ventaja teórica de la tasa de convergencia no ergódica se verifica en experimentos
Robustez: El algoritmo muestra rendimiento estable con funciones objetivo no suaves (conteniendo norma $\ell_1$ ) y restricciones no lineales

Trabajo Relacionado

1. Restricciones de Acoplamiento de Igualdad

Método ADMM 6,7: Método de Dirección Alternada de Multiplicadores
Método de Espejo 8: Algoritmo distribuido basado en descenso de espejo
Seguimiento de Gradiente 9: Seguimiento de gradiente para problema dual

2. Restricciones de Acoplamiento de Desigualdad

Desigualdad Afín 10-12: Algoritmo proximal distribuido, optimización agregada
Desigualdad No Lineal 13-18:
- Método de subgradiente dual 13
- Marco de operador de división primal-dual 14
- Consenso de promediado dinámico 15
- Manejo de restricciones dispersas/densas 16
- Algoritmo ALT 17

3. Métodos Acelerados

Aceleración de Nesterov 19: Tasa O(1/N²) para optimización convexa sin restricciones
FISTA 20: Algoritmo de umbralización iterativa rápida
Método Lagrangiano Rápido 21,22: Método Lagrangiano acelerado para optimización convexa
Aceleración Distribuida 23,24: DCatalyst, ley de conservación de energía

Ventajas de Este Trabajo

Primero en extender aceleración de Nesterov a CCP distribuido con restricciones de acoplamiento de igualdad y desigualdad no lineal simultáneamente
Proporciona garantías de convergencia no ergódica (no depende de promediado), mejorando resultados ergódicos o asintóticos existentes
Aplicable a funciones objetivo no suaves

Análisis Teórico

Lema Clave (Proposición 1)

Suavidad de Lipschitz de la Función Dual: $\|\nabla g_i(z_1) - \nabla g_i(z_2)\| \leq l_g \|z_1 - z_2\|$

Donde $l_g = \sqrt{\frac{2}{\mu_f^2}(\|B_i\|^2 + l_h^2)} \cdot \max\{\|B_i\|^2, l_h^2\}$

Esquema de Prueba:

Utilizar convexidad fuerte de $F_i$ y convexidad de $h_i$
Obtener expresión de gradiente mediante teorema de Danskin
Combinar convexidad fuerte y continuidad de Lipschitz para establecer desigualdad

Teorema Principal (Teorema 1)

Tasa de Convergencia:

Error de Viabilidad: $\left\| \sum_{i=1}^{n} B_i x_{i,N+1} - b_i \right\| + \left\| \left[ \sum_{i=1}^{n} h_i(x_{i,N+1}) \right]_+ \right\| \leq \varepsilon_c$

Donde: $\varepsilon_c = \left( \frac{2l_g}{N(N+1)} + \frac{\rho}{N+1}\|W\| \right) \|y_1 - y^*\|^2 + \frac{1}{\rho(N+1)\lambda_2(W)}$

Error de Optimalidad: $-\varepsilon_p \leq f(x_{N+1}) - f(x^*) \leq \bar{\varepsilon}_p$

Donde $\varepsilon_p$ y $\bar{\varepsilon}_p$ tienen forma similar O(1/N²) + O(1/N).

Pasos Clave de Prueba:

Construcción de Función de Energía: $\Phi_k = G(\hat{y}_k) - G(y^*) - \langle \lambda, \hat{y}_k - y^* \rangle$
Desigualdad Recursiva: Utilizando convexidad y suavidad: $k(k+1)\Phi_{k+1} - k(k-1)\Phi_k \leq 2k[\text{términos telescópicos}]$
Técnica de Suma: Sumar de $k=1$ a $N$ , utilizando propiedad telescópica
Selección de Parámetros: Mediante diseño cuidadoso de $\alpha_k, \theta_k, \beta_k, \eta_k$ se realiza aceleración

Conclusiones y Discusión

Conclusiones Principales

Contribución del Algoritmo: Se propone el primer algoritmo distribuido acelerado para CCP con restricciones de acoplamiento de igualdad afín y desigualdad no lineal simultáneamente
Garantía Teórica: Se establece tasa de convergencia no ergódica O(1/N²) + O(1/N), mejorando significativamente resultados existentes
Practicidad: Cada iteración tiene computación simple (un subproblema local + una ronda de comunicación con vecinos), adecuado para despliegue a gran escala
Verificación Experimental: En conjunto de pruebas representativo, el algoritmo alcanza viabilidad más alta y errores más bajos bajo el mismo presupuesto de iteración

Limitaciones

Supuesto de Convexidad Fuerte: El algoritmo y análisis teórico dependen de convexidad fuerte de la función objetivo (Supuesto 1), limitando rango de aplicabilidad
Condición de Slater: Requiere existencia de punto estrictamente factible (Supuesto 2), que puede no satisfacerse en algunos problemas prácticos
Supuesto de Conjunto Compacto: Supuesto 2 requiere que conjunto de restricción local $X_i$ sea compacto, excluyendo restricciones no acotadas
Ajuste de Parámetros: Aunque se proporcionan parámetros teóricos, aplicación práctica puede requerir ajuste fino para problemas específicos
Complejidad de Comunicación: No se analiza explícitamente complejidad de comunicación, enfocándose solo en complejidad de iteración
Extensión No Convexa: Marco teórico y algorítmico no cubre problemas de optimización no convexa

Direcciones Futuras

Relajar Supuesto de Convexidad Fuerte: Extender a problemas convexos generales e incluso no convexos
Versión Estocástica/En Línea: Desarrollar versión de gradiente estocástico para manejar datos a gran escala
Comunicación Asincrónica: Investigar convergencia bajo protocolo de comunicación asincrónica
Red Variante en Tiempo: Extender a topología de comunicación dinámicamente variable
Aplicación Práctica: Verificar en sistemas reales como redes inteligentes, formación de drones, etc.

Evaluación Profunda

Fortalezas

Innovación Teórica Fuerte:
- Primer logro de aceleración O(1/N²) en optimización distribuida con restricciones de acoplamiento de igualdad y desigualdad no lineal simultáneamente
- Garantía de convergencia no ergódica supera resultados ergódicos o asintóticos existentes
- Prueba matemática rigurosa, lógica clara
Diseño de Algoritmo Ingenioso:
- Mecanismo de coordinación de tres variables ( $\tilde{y}_k, y_k, \hat{y}_k$ ) implementa efectivamente aceleración
- Programación de parámetros adaptativos equilibra velocidad de convergencia y estabilidad
- Estrategia de linealización mantiene separabilidad computacional
Experimentos Suficientes:
- Comparación con tres algoritmos de última generación
- Resultados experimentales demuestran claramente efecto de aceleración
- Calidad de gráficos alta, conclusiones claras
Valor Práctico Alto:
- Algoritmo completamente distribuido, adecuado para despliegue a gran escala
- Carga computacional por iteración razonable
- Aplicable a funciones objetivo no suaves
Escritura Clara:
- Estructura razonable, lógica rigurosa
- Definición de símbolos clara
- Pruebas detalladas y fáciles de entender

Insuficiencias

Supuestos Relativamente Fuertes:
- Supuesto de convexidad fuerte limita rango de aplicabilidad (muchos problemas prácticos son solo convexos o no convexos)
- Conjunto compacto y condición de Slater difíciles de verificar en algunas aplicaciones
Limitaciones Experimentales:
- Solo pruebas en datos sintéticos, falta verificación en escenarios de aplicación real
- No se prueban redes a gran escala (n=20 es relativamente pequeño)
- No se analiza gastos de comunicación y tiempo computacional
Dependencia de Parámetros:
- Rendimiento del algoritmo depende de parámetros del problema ( $\mu_f, l_h, \|B_i\|$ , etc.)
- En aplicación práctica, estos parámetros pueden ser desconocidos o difíciles de estimar
Constantes de Convergencia:
- Constantes en tasa de convergencia teórica pueden ser grandes
- No se proporciona cota inferior de tasa de convergencia o análisis de optimalidad
Análisis Faltante:
- No se discute sensibilidad del algoritmo a inicialización
- No se analiza impacto de selección de parámetros en convergencia
- Falta discusión de casos de fallo o escenarios difíciles

Impacto

Valor Académico:
- Proporciona nuevas herramientas teóricas para optimización distribuida con restricciones
- Técnica de aceleración puede inspirar diseño de otros algoritmos distribuidos
- Se espera alto número de citas en campo de optimización y control
Valor Práctico:
- Directamente aplicable a despacho económico de redes inteligentes
- Extensible a coordinación de múltiples robots, redes de sensores, etc.
- Algoritmo 1 proporciona guía de implementación clara
Reproducibilidad:
- Descripción de algoritmo detallada, fácil de implementar
- Configuración experimental clara
- Se recomienda que autores liberen código para promover aplicación

Escenarios de Aplicabilidad

Escenarios Altamente Recomendados:

Despacho económico de redes inteligentes (satisface convexidad fuerte y supuesto de conjunto compacto)
Problemas de asignación de recursos (función de costo convexa)
Aprendizaje automático distribuido (regularización fuertemente convexa)

Escenarios de Uso Cauteloso:

Problemas de optimización no convexa (teoría no aplicable)
Conjunto de restricción no acotado (viola supuesto de conjunto compacto)
Sistemas en tiempo real (número de iteraciones puede ser grande)

Escenarios Que Requieren Mejora:

Redes a gran escala (necesita verificar escalabilidad)
Ambiente variante en tiempo (necesita extender algoritmo)
Comunicación limitada (necesita considerar eficiencia de comunicación)

Referencias Bibliográficas (Referencias Clave)

6 T.-H. Chang et al., "Multi-agent distributed optimization via inexact consensus ADMM," IEEE Trans. Signal Process., 2014.

14 S. Liang and G. Yin, "Distributed dual subgradient algorithms with iterate-averaging feedback," IEEE Trans. Cybernetics, 2019.

16 X. Wu et al., "Distributed optimization with coupling constraints," IEEE Trans. Automatic Control, 2022.

17 A. Falsone and M. Prandini, "Augmented Lagrangian tracking for distributed optimization," Automatica, 2023.

19 Y. Nesterov, "A method for unconstrained convex minimization problem with the rate of convergence O(1/k²)," Dokl. Akad. Nauk. SSSR, 1983.

Evaluación General: Este es un artículo de alta calidad que realiza contribuciones importantes en el campo de optimización distribuida. El diseño del algoritmo es ingenioso, el análisis teórico es riguroso, y los resultados experimentales son convincentes. Aunque existen algunas limitaciones en los supuestos, el algoritmo tiene ventajas significativas dentro de su rango de aplicabilidad. Se recomienda verificación adicional en sistemas reales y exploración de posibilidades para relajar el supuesto de convexidad fuerte.