In the solving of large-scale semidefinite programs (SDPs), the symmetric Burer-Monteiro factorization (BMF) offers an economical low-rank solution of the form $XX^\top$. However, BMF turns a convex SDP into a more difficult nonconvex optimization problem in some cases, which limits the use of off-the-shelf convex optimization algorithms. To alleviate this problem, we convert symmetric BMF to its asymmetric counterpart involving $XY^\top$, and use a penalty with parameter $γ$ to encourage $X$ and $Y$ to be close. We show that the resultant asymmetric BMF is multi-convex, and thus convex optimization can again be used to solve the subproblems involving $X$ and $Y$ in an alternating manner. More importantly, to ensure that $X=Y$ on convergence, we derive theoretically sound conditions for exact $γ$ that are independent of both the application problem and underlying algorithm. Experiments demonstrate that the proposed method is more advantageous over existing related approaches.
论文ID : 1811.01198标题 : Asymmetric Burer-Monteiro Factorization with Theoretically Sound Penalty for Semidefinite Programming作者 : Enliang Hu (云南师范大学), James T. Kwok (香港科技大学)分类 : cs.LG math.OC stat.ML发表时间 : 2018年11月提交,2025年10月更新版本论文链接 : https://arxiv.org/abs/1811.01198 在求解大规模半定规划(SDPs)问题中,对称Burer-Monteiro分解(BMF)提供了形如X X ⊤ XX^\top X X ⊤ 的经济低秩解。然而,BMF将凸SDP转化为更困难的非凸优化问题,限制了现成凸优化算法的使用。为缓解此问题,本文将对称BMF转换为涉及X Y ⊤ XY^\top X Y ⊤ 的非对称形式,并使用参数γ \gamma γ 的惩罚项鼓励X X X 和Y Y Y 接近。研究表明,结果的非对称BMF是多凸的,因此可以再次使用凸优化以交替方式求解涉及X X X 和Y Y Y 的子问题。更重要的是,为确保收敛时X = Y X=Y X = Y ,文章推导了独立于应用问题和底层算法的精确γ \gamma γ 的理论充分条件。
大规模半定规划的挑战 :许多机器学习问题需要学习低秩正半定矩阵,通过求解形如min Z ∈ S n + f ( Z ) \min_{Z \in S_n^+} f(Z) min Z ∈ S n + f ( Z ) 的半定规划。对于大规模问题,传统内点法需要O ( n 3 ) O(n^3) O ( n 3 ) 时间复杂度,不具备可扩展性。Burer-Monteiro分解的局限性 :虽然对称BMF通过Z = X X ⊤ Z = XX^\top Z = X X ⊤ 分解可以自动满足正半定约束并减少变量维度,但将凸问题转化为非凸问题,限制了凸优化算法的直接应用。现有方法的不足 :对称BMF中X X X 和X ⊤ X^\top X ⊤ 不可分离,无法使用高效的分裂或交替算法 现有非对称方法的惩罚参数设置缺乏理论保证,依赖启发式调整 本文旨在通过非对称分解X Y ⊤ XY^\top X Y ⊤ 恢复凸优化算法的适用性,同时提供理论上严格的惩罚参数设置,确保方法的通用性和可靠性。
理论贡献 :首次证明了精确惩罚参数的存在性,提供了独立于应用问题和算法的理论下界方法创新 :将对称BMF转换为多凸的非对称BMF,使得凸优化算法可以交替求解子问题通用框架 :扩展了BMF到包含正则化项h ( X ) h(X) h ( X ) 的更一般形式收敛保证 :在动态惩罚参数下提供了收敛性分析,放松了现有工作对常数惩罚参数的限制原始问题 :
min Z ∈ S n + f ( Z ) \min_{Z \in S_n^+} f(Z) min Z ∈ S n + f ( Z )
其中S n + = { Z ∈ R n × n ∣ Z = Z ⊤ , Z ⪰ 0 } S_n^+ = \{Z \in \mathbb{R}^{n \times n} | Z = Z^\top, Z \succeq 0\} S n + = { Z ∈ R n × n ∣ Z = Z ⊤ , Z ⪰ 0 } 是n × n n \times n n × n 对称正半定矩阵锥。
扩展的对称BMF :
min X ∈ R n × r f ( X X ⊤ ) + h ( X ) \min_{X \in \mathbb{R}^{n \times r}} f(XX^\top) + h(X) min X ∈ R n × r f ( X X ⊤ ) + h ( X )
本文的非对称BMF :
min X , Y F ( X , Y ; γ ) ≡ f ( X Y ⊤ ) + 1 2 h ( X ) + 1 2 h ( Y ) + γ 2 ∥ X − Y ∥ F 2 \min_{X,Y} F(X,Y;\gamma) \equiv f(XY^\top) + \frac{1}{2}h(X) + \frac{1}{2}h(Y) + \frac{\gamma}{2}\|X-Y\|_F^2 min X , Y F ( X , Y ; γ ) ≡ f ( X Y ⊤ ) + 2 1 h ( X ) + 2 1 h ( Y ) + 2 γ ∥ X − Y ∥ F 2
命题1 :如果f ( Z ) f(Z) f ( Z ) 关于Z Z Z 是凸的,则F ( X , Y ; γ ) F(X,Y;\gamma) F ( X , Y ; γ ) 关于X X X 或Y Y Y 的任一子部分都是凸的。
这一性质使得可以交替优化:
X k = arg min X F ( X , Y k − 1 ; γ ) X^k = \arg\min_{X} F(X, Y^{k-1}; \gamma) X k = arg min X F ( X , Y k − 1 ; γ ) Y k = arg min Y F ( X k , Y ; γ ) Y^k = \arg\min_{Y} F(X^k, Y; \gamma) Y k = arg min Y F ( X k , Y ; γ ) 定理1 :在假设条件下,如果
γ > 1 2 tr ( ( X ˉ − Y ˉ ) ⊤ ∂ Z f ( X ˉ Y ˉ ⊤ ) ( X ˉ − Y ˉ ) ) ∥ X ˉ − Y ˉ ∥ F 2 − σ h 4 \gamma > \frac{1}{2} \frac{\text{tr}((\bar{X}-\bar{Y})^\top \partial_Z f(\bar{X}\bar{Y}^\top)(\bar{X}-\bar{Y}))}{\|\bar{X}-\bar{Y}\|_F^2} - \frac{\sigma_h}{4} γ > 2 1 ∥ X ˉ − Y ˉ ∥ F 2 tr (( X ˉ − Y ˉ ) ⊤ ∂ Z f ( X ˉ Y ˉ ⊤ ) ( X ˉ − Y ˉ )) − 4 σ h
则临界点满足X ˉ = Y ˉ \bar{X} = \bar{Y} X ˉ = Y ˉ 。
推论1 (实用形式):
γ > 1 2 ( ∥ ∂ Z f ( Z 0 ) ∥ F + L f d L f ( f ( Z 0 ) ) ) − σ h 4 \gamma > \frac{1}{2}(\|\partial_Z f(Z_0)\|_F + L_f d_{L_f}(f(Z_0))) - \frac{\sigma_h}{4} γ > 2 1 ( ∥ ∂ Z f ( Z 0 ) ∥ F + L f d L f ( f ( Z 0 ))) − 4 σ h
推论2 (强凸情况):
γ > L f σ f f ( Z 0 ) − f ( Z ˙ ) 2 − σ h 4 \gamma > \frac{L_f}{\sqrt{\sigma_f}} \sqrt{\frac{f(Z_0) - f(\dot{Z})}{2}} - \frac{\sigma_h}{4} γ > σ f L f 2 f ( Z 0 ) − f ( Z ˙ ) − 4 σ h
算法1:扩展Burer-Monteiro分解的交替优化
1. 初始化: X⁰, Y⁰, γ⁰, K
2. for k = 1, ..., K do
3. 更新 Xᵏ ≈ argmin_X F(X, Yᵏ⁻¹; γᵏ⁻¹) 通过凸算法
4. 更新 Yᵏ ≈ argmin_Y F(Xᵏ, Y; γᵏ⁻¹) 通过凸算法
5. 更新 γᵏ
6. if 停止准则满足 then return Xᵏ or Yᵏ
7. end for
支持三种交替凸算法:
交替最小化(AM) :直接求解子问题层次交替最小化(HAM) :逐列优化交替加速近端梯度法(AAPG) :结合加速和近端算子Digit1 :1500个样本,2类,维度241的人工数据ORL :400张面部图像,40个不同人员,每人10张不同角度图像COIL-20 :1440张图像,20个物体,来自哥伦比亚大学图像库**对称非负矩阵分解(SNMF)**用于聚类:
min X ∈ R n × r ∥ A − X X ⊤ ∥ F 2 + δ + ( X ) \min_{X \in \mathbb{R}^{n \times r}} \|A - XX^\top\|_F^2 + \delta_+(X) min X ∈ R n × r ∥ A − X X ⊤ ∥ F 2 + δ + ( X )
其中δ + ( X ) \delta_+(X) δ + ( X ) 是非负约束的指示函数。
AMadp/HAMadp/AAPGadp :使用文献22 的自适应策略AMagd/AAPGagd :使用文献16 的算法依赖设置AMour/HAMour/AAPGour :使用本文提出的理论设置nAPG :直接求解非凸问题的加速近端梯度法聚类准确率 :通过label ( i ) = arg max j ( Y ∗ ) i j \text{label}(i) = \arg\max_j (Y^*)_{ij} label ( i ) = arg max j ( Y ∗ ) ij 获得标签收敛性 :目标函数值变化小于10 − 4 10^{-4} 1 0 − 4 或迭代次数超过3000次计算时间 :墙钟运行时间考虑简单问题min x ∈ R 1 2 ( x 2 + a ) 2 \min_{x \in \mathbb{R}} \frac{1}{2}(x^2 + a)^2 min x ∈ R 2 1 ( x 2 + a ) 2 ,其惩罚形式为:
min x , y ∈ R F ( x , y , γ ) = 1 2 ( x y + a ) 2 + γ 2 ( x − y ) 2 \min_{x,y \in \mathbb{R}} F(x,y,\gamma) = \frac{1}{2}(xy + a)^2 + \frac{\gamma}{2}(x-y)^2 min x , y ∈ R F ( x , y , γ ) = 2 1 ( x y + a ) 2 + 2 γ ( x − y ) 2
实验表明,当γ \gamma γ 过小时,现有自适应策略可能失败(如a = 1 , y 0 = − 1 , γ 0 = 10 − 5 a=1, y_0=-1, \gamma_0=10^{-5} a = 1 , y 0 = − 1 , γ 0 = 1 0 − 5 时收敛到错误解),而本文方法能正确处理。
在三个数据集上的结果显示:
Digit1 :本文方法(AMour, HAMour, AAPGour)在大多数时间点都达到更高的聚类准确率ORL :相比对应的基线方法,本文方法收敛更快,最终准确率更高COIL-20 :类似的性能提升模式关键发现:
本文的惩罚参数更新策略比现有方法更合理,导致更快的收敛 交替凸优化比纯非凸优化(nAPG)更有效 不同算法(AM/HAM/AAPG)的选择取决于问题规模:AM复杂度O ( n 2 r + n r 2 + r 3 ) O(n^2r + nr^2 + r^3) O ( n 2 r + n r 2 + r 3 ) ,HAM复杂度O ( 2 n 2 r + n r ) O(2n^2r + nr) O ( 2 n 2 r + n r ) 引理1 :在充分下降条件和可求和条件∑ k = 1 ∞ ( γ k + 1 − γ k ) ∥ X k − Y k ∥ F 2 < ∞ \sum_{k=1}^{\infty}(\gamma_{k+1} - \gamma_k)\|X^k - Y^k\|_F^2 < \infty ∑ k = 1 ∞ ( γ k + 1 − γ k ) ∥ X k − Y k ∥ F 2 < ∞ 下,序列{ ( X k , Y k ) } \{(X^k, Y^k)\} {( X k , Y k )} 收敛到极限点( X ∞ , Y ∞ ) (X^{\infty}, Y^{\infty}) ( X ∞ , Y ∞ ) 且X ∞ = Y ∞ X^{\infty} = Y^{\infty} X ∞ = Y ∞ 。
定理2 :算法1收敛到F F F 的临界点( X ˉ , Y ˉ ) (\bar{X}, \bar{Y}) ( X ˉ , Y ˉ ) 且X ˉ = Y ˉ \bar{X} = \bar{Y} X ˉ = Y ˉ ,即X ˉ \bar{X} X ˉ (或Y ˉ \bar{Y} Y ˉ )是原问题的临界点。
传统方法 :内点法具有多项式时间复杂度但O ( n 3 ) O(n^3) O ( n 3 ) 不可扩展;投影次梯度法需要昂贵的特征分解BMF方法 :块坐标最大化、增广拉格朗日法、ADMM、预条件梯度下降等SNMF特定方法 :Zhu等45 提供了松弛的理论下界;Li等22 使用启发式自适应策略但不安全算法依赖方法 :Hu和Kwok16 仅适用于特定的加速梯度算法首次提供独立于问题和算法的精确惩罚参数理论 扩展到包含正则化项的更一般框架 支持动态惩罚参数的收敛分析 理论突破 :首次证明了精确惩罚参数的存在性,提供了计算高效的理论下界方法通用性 :框架独立于具体应用和优化算法,适用于各种SDP问题实用价值 :在对称非负矩阵分解等应用中展现了优越性能假设条件 :需要函数f f f 满足特定的凸性和光滑性假设惩罚参数调整 :虽然提供了理论下界,但实际应用中可能需要进一步调优实验范围 :主要在聚类任务上验证,其他SDP应用的效果需要更多验证扩展到更一般的非凸函数类 研究自适应惩罚参数更新策略 在更多SDP应用中验证方法的有效性 结合Kurdyka-Lojasiewicz不等式分析更强的收敛率 理论严谨性 :提供了完整的理论分析框架,惩罚参数的设置有严格的数学保证方法创新性 :巧妙地通过非对称分解恢复了凸优化的适用性通用性强 :框架独立于具体问题和算法,具有广泛的适用性实验充分 :从玩具例子到实际应用,验证了理论的正确性和方法的有效性理论条件较强 :需要多个假设条件,可能限制了方法的适用范围实验应用单一 :主要集中在SNMF聚类,缺乏其他SDP应用的验证计算开销 :需要计算sublevel set的直径等量,可能增加计算复杂度参数选择 :虽然提供了理论下界,但最优参数的选择仍需要经验调整理论贡献 :为BMF方法提供了新的理论视角,可能启发后续研究实用价值 :为大规模SDP求解提供了新的工具,特别是在机器学习应用中可复现性 :算法描述清晰,理论结果可验证,有利于方法的推广应用大规模半定规划 :特别是具有低秩结构的问题机器学习应用 :矩阵补全、稀疏PCA、核学习、多任务学习等需要凸优化保证 :当问题结构允许使用现成的凸优化算法时论文引用了46篇相关文献,涵盖了半定规划、矩阵分解、凸优化等多个领域的重要工作,为研究提供了坚实的理论基础。
总体评价 :这是一篇理论与实践并重的优秀论文,在BMF方法的理论分析方面取得了重要突破,为大规模半定规划求解提供了新的思路和工具。虽然在实验验证的广度上还有提升空间,但其理论贡献和方法创新性使其成为该领域的重要工作。