2025-11-16T18:43:12.898761

Partial Envelope for Optimization Problem with Nonconvex Constraints

Hu, Liu, Toh et al.

In this paper, we consider the nonlinear constrained optimization problem (NCP) with constraint set $\{x \in \mathcal{X}: c(x) = 0\}$, where $\mathcal{X}$ is a closed convex subset of $\mathbb{R}^n$. Building upon the forward-backward envelope framework for optimization over $\mathcal{X}$, we propose a forward-backward semi-envelope (FBSE) approach for solving (NCP). In the proposed semi-envelope approach, we eliminate the constraint $x \in \mathcal{X}$ through a specifically designed envelope scheme while preserving the constraint $x \in \mathcal{M} := \{x \in \mathbb{R}^n: c(x) = 0\}$. We establish that the forward-backward semi-envelope for (NCP) is well-defined and locally Lipschitz smooth over a neighborhood of $\mathcal{M}$. Furthermore, we prove that (NCP) and its corresponding forward-backward semi-envelope have the same first-order stationary points within a neighborhood of $\mathcal{X} \cap \mathcal{M}$. Consequently, our proposed forward-backward semi-envelope approach enables direct application of optimization methods over $\mathcal{M}$ while inheriting their convergence properties for (NCP). Additionally, we develop an inexact projected gradient descent method for minimizing the forward-backward semi-envelope over $\mathcal{M}$ and establish its global convergence. Preliminary numerical experiments demonstrate the practical efficiency and potential of our proposed approach.

academic

Partial Envelope for Optimization Problem with Nonconvex Constraints

基本信息

论文ID: 2510.22223
标题: Partial Envelope for Optimization Problem with Nonconvex Constraints
作者: Xiaoyin Hu, Xin Liu, Kim-Chuan Toh, Nachuan Xiao
分类: math.OC (Mathematical Optimization and Control)
提交时间: 2025年10月25日
论文链接: https://arxiv.org/abs/2510.22223v1

摘要

本文研究带有非凸约束的非线性约束优化问题(NCP)，约束集形式为 $\{x \in \mathcal{X}: c(x) = 0\}$ ，其中 $\mathcal{X}$ 是 $\mathbb{R}^n$ 的闭凸子集。基于 $\mathcal{X}$ 上的前向-后向包络框架，作者提出了前向-后向半包络(FBSE)方法。该方法通过特定设计的包络方案消除约束 $x \in \mathcal{X}$ ，同时保留约束 $x \in \mathcal{M} := \{x \in \mathbb{R}^n: c(x) = 0\}$ 。文章证明了FBSE在 $\mathcal{M}$ 邻域内是良定义且局部Lipschitz光滑的，并且NCP与FBSE在 $\mathcal{X} \cap \mathcal{M}$ 邻域内具有相同的一阶稳定点。此外，作者开发了一种非精确投影梯度下降方法，并建立了其全局收敛性和 $O(\varepsilon^{-2})$ 迭代复杂度。

研究背景与动机

要解决的问题

本文研究形式为以下的约束优化问题： $\min_{x \in \mathbb{R}^n} f(x) + I_{\mathcal{X}}(x) \quad \text{s.t.} \quad x \in \mathcal{M} := \{x \in \mathbb{R}^n: c(x) = 0\}$

其中 $I_{\mathcal{X}}(x)$ 是集合 $\mathcal{X}$ 的示性函数， $\mathcal{X}$ 是具有易于计算投影映射的紧凸子集。该问题等价于在 $\{x \in \mathcal{X}: c(x) = 0\}$ 上最小化 $f(x)$ 。

问题的重要性

这类优化问题涵盖了多个重要的优化模型：

等式和不等式约束优化
锥规划问题（如半正定规划）
流形优化问题

应用领域广泛，包括：

机器学习任务
信号处理
机械设计等

现有方法的局限性

传统包络方法的限制：

前向-后向包络（Forward-Backward Envelope）和Moreau包络依赖于约束集的凸性
当将NCP视为带示性函数 $I_{\mathcal{X} \cap \mathcal{M}}$ 的无约束问题时，由于 $\mathcal{M} \cap \mathcal{X}$ 的非凸性，导致包络函数非光滑
投影到 $\mathcal{X} \cap \mathcal{M}$ 的计算代价高昂，即使 $\Pi_{\mathcal{M}}$ 和 $\Pi_{\mathcal{X}}$ 都易于计算

约束溶解方法的局限： 最近提出的约束溶解方法（constraint dissolving approach）通过精确罚函数解耦约束： $\min_{x \in \mathcal{X}} h_{cdf}(x) := f(A(x)) + \frac{\beta}{2}\|c(x)\|^2$

但需要选择罚参数 $\beta$ ，这在实践中具有挑战性。

研究动机

作者提出核心问题：

能否为NCP形式的约束优化问题开发不引入任何罚参数的包络方法？

核心贡献

提出前向-后向半包络(FBSE)方法：一种新的包络方案，仅消除凸约束 $x \in \mathcal{X}$ ，保留非凸等式约束 $c(x) = 0$ ，且不引入罚参数
建立理论等价性：证明了在 $\mathcal{X} \cap \mathcal{M}$ 的邻域内，NCP与FBSE具有相同的一阶稳定点（对于充分小的包络参数 $\mu$ ）
证明良好的光滑性质：证明FBSE在 $\mathcal{M}$ 的邻域内是良定义的、连续可微的，且梯度具有局部Lipschitz连续性
开发高效算法：提出了一种非精确投影梯度下降方法，避免计算完整梯度中的Hessian项 $H(x)$ $H (x)$ ，并证明了：
- 全局收敛性
- $O(\varepsilon^{-2})$ 迭代复杂度
数值验证：在半正定锥约束优化问题上的实验表明，该方法在精度和效率上优于现有求解器

方法详解

任务定义

原问题(NCP)： $\min_{x \in \mathbb{R}^n} f(x) + I_{\mathcal{X}}(x) \quad \text{s.t.} \quad c(x) = 0$

关键假设（Assumption 1.1）：

$f: \mathbb{R}^n \to \mathbb{R}$ 在 $\mathbb{R}^n$ 上二次可微
$c: \mathbb{R}^n \to \mathbb{R}^p$ 二次可微，且二阶导数局部Lipschitz连续
约束非退化条件：对任意 $x \in \mathcal{K} := \mathcal{X} \cap \mathcal{M}$ ，有 $\nabla c(x)^\top \text{lin}(T_{\mathcal{X}}(x)) = \mathbb{R}^p$

核心方法架构

1. 投影映射（Projective Mapping）

定义满足以下条件的映射 $Q: \mathbb{R}^n \to \mathbb{S}^{n \times n}_+$ ：

$Q(x)$ 局部Lipschitz光滑
对任意 $x \in \mathcal{X}$ ， $\text{null}(Q(x)) = \text{range}(N_{\mathcal{X}}(x))$

约束溶解映射： $A(x) = x - Q(x)\nabla c(x)(\nabla c(x)^\top Q(x)\nabla c(x) + \tau(x)I_p)^{-1}c(x)$

其中 $\tau(x) := L_\tau(\|c(x)\|^2 + \text{dist}(x, \mathcal{X})^2)$ ， $L_\tau > 0$ 是预设参数。

2. 前向-后向半包络(FBSE)

FBSE问题： $\min_{x \in \mathbb{R}^n} \psi_\mu(x) \quad \text{s.t.} \quad x \in \mathcal{M}$

其中半包络函数定义为： $\psi_\mu(x) := \min_{w \in \mathcal{X}} f(x) + \langle J(x)\nabla f(x), w - x \rangle + \frac{1}{2\mu}\|w - x\|^2$

关键映射： $J(x) := I_n - \nabla c(x)(\nabla c(x)^\top Q(x)\nabla c(x) + \tau(x)I_p)^{-1}\nabla c(x)^\top Q(x)$

最优解： $T_\mu(x) := \arg\min_{w \in \mathcal{X}} f(x) + \langle J(x)\nabla f(x), w - x \rangle + \frac{1}{2\mu}\|w - x\|^2 = \Pi_{\mathcal{X}}(x - \mu J(x)\nabla f(x))$

3. 梯度表达式

根据Lemma 3.7， $\psi_\mu$ 的梯度为： $\nabla \psi_\mu(x) = \frac{1}{\mu}(I_n - \mu H(x))(x - T_\mu(x)) + (I_n - J(x))\nabla f(x)$

其中 $H(x) = J(x)\nabla^2 f(x) + \nabla J(x)[\nabla f(x)]$ 。

技术创新点

1. 部分包络策略

关键创新：不同于传统包络方法处理整个约束集 $\mathcal{X} \cap \mathcal{M}$ ，FBSE采用"部分包络"策略：

通过包络技术消除凸约束 $x \in \mathcal{X}$
保留非凸等式约束 $c(x) = 0$
避免了对非凸集投影的计算困难

2. 映射 $J(x)$ 的特殊性质

Lemma 3.2：对任意 $x \in \mathcal{X} \cap \mathcal{M}$ ，有 $J(x)\nabla c(x) = 0$

Lemma 3.3：对任意 $d \in \text{range}(N_{\mathcal{X}}(x))$ ，有 $J(x)d = d$

这些性质保证了：

在可行点处， $J(x)$ 将梯度投影到切空间
保持了法锥方向的信息

3. 等价性理论

Proposition 3.9：若 $x \in \mathcal{X} \cap \mathcal{M}$ 是NCP的一阶稳定点，则 $x$ 是FBSE的一阶稳定点。

Theorem 3.10（主要理论结果）：对充分小的 $\mu \leq \mu_{\max}$ ，若 $x \in \mathcal{K}_\rho$ 是FBSE的一阶稳定点，则 $x$ 是NCP的一阶稳定点。

证明关键：通过证明 $\|T_\mu(x) - x\| = 0$ ，结合 $\nabla c(x)^\top Q(T_\mu(x))\nabla c(x)$ 的正定性下界（ $\geq \sigma_Q/4$ ）。

4. 非精确梯度方法

算法设计（式3.20）： $g_k = \frac{1}{\mu}(I_n - \nabla c(x_k)\nabla c(x_k)^\dagger)(x_k - T_\mu(x_k))$ $x_{k+1} = \Pi_{\mathcal{M}}(x_k - \eta_k g_k)$

优势：

使用 $\frac{1}{\mu}(x - T_\mu(x))$ 作为 $\nabla \psi_\mu$ 的非精确评估
避免计算 $H(x)$ （涉及Hessian）
投影到 $\text{null}(\nabla c(x_k)^\top)$ （ $\mathcal{M}$ 的切空间）

Proposition 3.13：充分下降性质 $\langle (I_n - \nabla c(x)\nabla c(x)^\dagger)\nabla \psi_\mu(x), T_\mu(x) - x \rangle \leq -\frac{1}{2\mu}\left(\frac{\sigma_Q}{8M_QM_c^2 + 2\sigma_Q}\right)^2\|x - T_\mu(x)\|^2$

实验设置

数据集

实验1：半正定锥与球面约束

优化问题： $\min_{X \in \mathbb{S}^{n \times n}} \langle B, X \rangle + \frac{1}{2}\langle X, H(X) \rangle + \frac{\nu}{6}\|X\|_F^3$ $\text{s.t.} \quad \|X\|_F^2 = 1, \quad X \succeq 0, \quad \|X\|_2 \leq M$

测试规模： $n \in \{10, 20, 30, 50\}$
$B \in \mathbb{S}^{n \times n}$ 随机生成（标准正态分布）
$H: \mathbb{S}^{n \times n} \to \mathbb{S}^{n \times n}$ 为自伴随线性映射
参数： $\nu = 1.0$ ， $M = 10^6$ ， $\mu = 0.01$

实验2：半正定锥与线性约束

优化问题： $\min_{X \in \mathbb{R}^{n \times n}} \langle B_0, X \rangle + \frac{1}{2}\langle X, H(X) \rangle + \frac{\nu}{6}\|X\|_F^3$ $\text{s.t.} \quad \mathcal{B}(X) = b, \quad X \succeq 0, \quad \|X\|_2 \leq M$

测试规模： $n \in \{10, 20, 30, 50\}$
$\mathcal{B}: \mathbb{S}^{n \times n} \to \mathbb{R}^m$ 为线性映射
参数： $\nu = 1.0$ ， $\mu = 0.001$

评价指标

稳定性： $\text{dist}(0, \nabla f(y) + N_{\mathcal{X}}(y) + \text{range}(\nabla c(y)))$ ，其中 $y = \Pi_{\mathcal{X}}(x)$
可行性违反度： $\|c(\Pi_{\mathcal{X}}(x))\|$
目标函数值
迭代次数和函数评估次数
CPU时间（秒）

对比方法

PGD：本文提出的投影梯度下降方法（使用Barzilai-Borwein自适应步长和非单调线搜索）
TRCON：SciPy的信赖域约束优化器
SLSQP：SciPy的序列最小二乘规划
RGD：PyManopt的黎曼梯度下降
RCG：PyManopt的黎曼共轭梯度

实现细节

编程环境：Python 3.12.2
硬件：AMD Ryzen 7 5700 CPU，16 GB RAM
容差： $10^{-5}$
最大运行时间：300秒
投影映射（实验1）： $Q(X): Y \mapsto \Phi(X^2\Theta_M(X)^2 Y)$ 其中 $\Phi(M) = (M + M^\top)/2$ 是对称化算子

实验结果

主要结果

实验1：半正定锥与球面约束（表4）

$n$	求解器	目标值	迭代数	稳定性	可行性	CPU时间(s)
10	PGD	-9.446e-01	94	5.435e-06	0.000e+00	0.218
	TRCON	-9.446e-01	86	1.525e-05	9.864e-11	0.483
	RGD	-9.663e-01	65	1.207e-01	8.476e-02	0.308
20	PGD	-1.658e+00	94	8.917e-06	2.220e-16	0.231
	TRCON	-1.658e+00	76	4.922e-05	1.644e-12	0.728
30	PGD	-1.847e+00	84	4.833e-06	4.441e-16	0.351
	TRCON	-1.847e+00	65	8.923e-05	3.127e-11	1.299
50	PGD	-2.323e+00	91	5.830e-06	2.220e-16	1.082
	TRCON	-2.323e+00	67	1.216e-04	9.163e-11	31.039

关键发现：

高精度：PGD和TRCON都能达到 $10^{-5}$ 的容差，目标值一致
高效性：PGD在 $n=50$ 时比TRCON快28.7倍（1.082s vs 31.039s）
黎曼方法失效：RGD和RCG的稳定性指标在 $10^{-1}$ 量级，远未收敛
SLSQP失败：在 $n \geq 30$ 时超时

实验2：半正定锥与线性约束（表5）

$n$	求解器	目标值	迭代数	稳定性	可行性	CPU时间(s)
10	PGD	1.090e+03	97	3.604e-06	8.555e-13	0.205
	TRCON	1.090e+03	204	1.289e-05	1.158e-12	0.893
20	PGD	3.330e+03	274	7.954e-06	4.433e-13	0.811
	TRCON	3.330e+03	510	3.451e-05	1.592e-12	6.337
30	PGD	2.936e+04	173	7.645e-06	1.775e-12	3.350
	TRCON	2.935e+04	349	8.346e-05	7.227e-11	19.249
50	PGD	8.555e+04	262	6.413e-06	5.687e-12	7.197
	TRCON	-	-	-	-	>300

关键发现：

可扩展性：PGD在 $n=50$ 时TRCON超时，PGD仍能在7.2秒内求解
速度优势：在 $n=30$ 时，PGD比TRCON快5.7倍
SLSQP完全失败：所有测试实例都未收敛或数值不稳定

实验发现

等价性验证：实验证实了NCP与FBSE在一阶稳定点上的理论等价性（PGD和TRCON得到相同目标值）
非精确梯度的有效性：使用 $\frac{1}{\mu}(x - T_\mu(x))$ 作为近似梯度，避免计算 $H(x)$ ，仍能保证收敛
黎曼方法的局限：
- RGD/RCG在球面流形上优化，但未考虑PSD约束
- 稳定性指标差，说明未找到NCP的稳定点
通用求解器的挑战：
- SLSQP对非凸约束敏感，数值不稳定
- TRCON虽然可靠但计算代价高
FBSE的优势：
- 将非凸约束问题转化为等式约束问题
- 保持了问题的结构
- 使得高效算法设计成为可能

结论与讨论

主要结论

理论贡献：
- 建立了NCP与FBSE在一阶稳定点上的等价性（Theorem 3.10）
- 证明了 $\psi_\mu$ 的Lipschitz光滑性（Lemma 3.7）
- 给出了 $\varepsilon$ -稳定点的关系（Theorem 3.12）
算法贡献：
- 提出了避免计算Hessian的非精确投影梯度方法
- 证明了 $O(\varepsilon^{-2})$ 迭代复杂度（Theorem 3.17）
- 实验验证了算法的高效性
方法论贡献：
- "部分包络"策略：选择性地处理约束
- 无罚参数：避免了参数调优的困难
- 模块化设计：可与现有等式约束求解器结合

局限性

1. 理论假设

约束非退化条件（Assumption 1.1(3)）：要求 $\nabla c(x)^\top \text{lin}(T_{\mathcal{X}}(x)) = \mathbb{R}^p$ ，在某些应用中可能不满足
局部性质：等价性仅在 $\mathcal{K}_\rho$ 邻域内成立， $\rho$ 依赖于多个常数

2. 参数选择

包络参数 $\mu$ ：需要 $\mu \leq \mu_{\max}$ ，而 $\mu_{\max}$ 的计算涉及多个难以估计的常数（表1-2）
实践中：文章建议使用自适应估计或蒙特卡洛技术，但未详细讨论

3. 投影映射构造

依赖问题结构：需要为特定的 $\mathcal{X}$ 构造满足Assumption 1.2的 $Q(x)$
表3仅覆盖常见情况：对于复杂约束，构造 $Q(x)$ 可能非平凡

4. 数值实验

测试规模有限：最大 $n=50$ ，未测试大规模问题
问题类型单一：仅测试了SDP问题，其他应用场景未验证

未来方向

理论扩展：
- 放松约束非退化条件
- 分析全局收敛性（而非局部等价性）
- 研究二阶收敛性质
算法改进：
- 开发自适应选择 $\mu$ 的策略
- 结合二阶信息（如BFGS）加速收敛
- 设计针对特定结构的专用算法
应用拓展：
- 测试更多应用场景（如机器学习、信号处理）
- 处理大规模问题
- 扩展到不等式约束
Moreau半包络：
- 文章提到但未详细讨论 $\psi_{M,\mu}(x) := \arg\min_{y \in \mathcal{X}} f(y) + \frac{1}{2\mu}\|y - x\|^2$
- 可能适用于非光滑目标函数

深度评价

优点

1. 理论严谨性

完整的理论框架：从良定义性（Lemma 3.1）到等价性（Theorem 3.10）再到收敛性（Theorem 3.17），逻辑严密
技术引理丰富：Lemma 3.2-3.8为主要定理提供了坚实基础
常数明确：表1-2详细列出所有相关常数，便于理论分析

2. 方法创新性

部分包络思想：首次提出选择性处理约束的策略，突破了传统包络方法的局限
无罚参数设计：相比约束溶解方法，避免了罚参数调优的困难
非精确梯度技巧：巧妙利用 $\frac{1}{\mu}(x - T_\mu(x))$ ，降低计算复杂度

3. 算法实用性

易于实现：投影到 $\mathcal{M}$ 和 $\mathcal{X}$ 都有现成方法
数值稳定：实验中稳定性指标达到 $10^{-6}$ 量级
计算高效：相比TRCON有显著加速（最高28.7倍）

4. 写作清晰度

结构合理：从动机到理论再到实验，层次分明
符号规范：Section 2.1专门定义符号，避免混淆
证明详细：关键定理的证明步骤清晰

不足

1. 理论gap

$\mu_{\max}$ 的实用性：表2中 $\mu_{\max}$ 的定义涉及 $\sup$ 和 $\inf$ ，实际计算困难
全局性质缺失：未讨论算法如何进入 $\mathcal{K}_\rho$ 邻域
常数依赖性： $\rho$ 和 $\mu_{\max}$ 依赖于多个难以估计的常数，可能导致保守估计

2. 实验局限

对比不全面：
- 未与专门的SDP求解器（如SDPT3, MOSEK）比较
- 未测试增广拉格朗日方法
问题多样性不足：仅测试SDP问题，未覆盖其他应用（如流形优化、机器学习）
可扩展性未知：最大 $n=50$ ，大规模性能未验证

3. 方法适用性

投影映射构造：
- 表3仅提供4种常见约束的 $Q(x)$
- 对于复杂约束（如多个约束的交集），构造 $Q(x)$ 可能困难
假设限制：约束非退化条件在某些问题中可能不满足

4. 技术细节

步长选择：式(3.22)给出 $\eta_{\max}$ ，但实际算法使用Barzilai-Borwein步长，两者关系未明确
初始点要求：算法要求 $x_0 \in \mathcal{X} \cap \mathcal{M}$ ，但如何获得可行初始点未讨论
Moreau半包络：提到但未详细分析，是遗憾

影响力

1. 对领域的贡献

理论意义：
- 扩展了包络方法的适用范围（从凸约束到混合约束）
- 提供了新的理论工具（部分包络框架）
方法论意义：
- 启发了"选择性处理约束"的思路
- 为非凸约束优化提供了新视角

2. 实用价值

即时应用：可用于求解SDP、流形优化等问题
潜在应用：机器学习中的约束优化（如公平性约束、稀疏性约束）
软件实现：作者团队有CDOpt包的开发经验，可能推出工具包

3. 可复现性

优点：
- 算法描述清晰（式3.20）
- 实验设置详细
- 投影映射有具体公式（表3）
不足：
- 代码未公开
- 某些实现细节（如非单调线搜索的具体参数）未给出

4. 后续研究方向

短期：
- 放松理论假设
- 扩展到不等式约束
- 更多应用测试
长期：
- 发展通用的"部分包络"理论
- 与其他优化技术（如ADMM、proximal方法）结合
- 分布式/随机版本

适用场景

1. 理想场景

约束结构：
- $\mathcal{X}$ 是简单凸集（投影易计算）
- $c(x) = 0$ 是光滑等式约束
- 满足约束非退化条件
问题规模：中等规模（ $n \sim 10^2$ ）
精度要求：中等精度（ $\varepsilon \sim 10^{-5}$ ）

2. 具体应用

半正定规划：实验已验证
流形优化：如Stiefel流形上的优化
机器学习：
- 带等式约束的神经网络训练
- 公平性约束的分类问题
信号处理：带范数约束的恢复问题

3. 不适用场景

不等式约束占主导：FBSE仅处理等式约束
$\mathcal{X}$ 投影困难：如 $\mathcal{X}$ 是复杂非凸集
极高精度要求： $O(\varepsilon^{-2})$ 复杂度可能不够
超大规模问题：投影和梯度计算可能成为瓶颈

参考文献（精选）

Stella et al. (2017): Forward–backward quasi-newton methods for nonsmooth optimization problems. Computational Optimization and Applications
- 前向-后向包络的拟牛顿扩展
Xiao et al. (2023): Dissolving constraints for Riemannian optimization. Mathematics of Operations Research
- 约束溶解方法的理论基础
Xiao et al. (2025): An exact penalty approach for equality constrained optimization over a convex set. arXiv preprint
- 本文的前置工作，提出约束溶解映射
Absil et al. (2008): Optimization algorithms on matrix manifolds. Princeton University Press
- 流形优化的经典教材
Rockafellar & Wets (2009): Variational analysis. Springer
- 变分分析的理论基础，用于投影和法锥的分析

总体评价：这是一篇理论严谨、方法创新的优秀论文。"部分包络"思想为处理混合约束优化问题提供了新视角，理论分析完整，数值实验初步验证了方法的有效性。主要不足在于理论常数的实用性、实验的全面性和大规模可扩展性验证。该工作为非凸约束优化领域做出了重要贡献，具有较高的学术价值和应用潜力。建议后续工作关注理论假设的放松、更广泛的应用测试以及大规模问题的处理。