2025-11-10T02:38:56.409187

Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems

Pasechnyuk-Vilensky, Kamzolov, Takáč
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{σ_2 R^2}{T^2} + \frac{σ_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic

Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems

基本信息

  • 论文ID: 2510.08714
  • 标题: Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
  • 作者: Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, France), Martin Takáč (MBZUAI)
  • 分类: math.OC (数学优化)
  • 发表时间: 2025年10月9日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.08714

摘要

本文提出了一种随机立方正则化牛顿方法用于有限和优化问题 minxRdF(x)=1ni=1nfi(x)\min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x),该方法使用SARAH型递归方差缩减技术,配合大小为 bn1/2b \sim n^{1/2} 的小批量和指数移动平均(EMA)来估计梯度和Hessian矩阵。研究表明,该方法在非凸情况下能以 n+O~(n1/2ε3/2)n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) 的随机预言机调用次数达到 (ε,L2ε)(\varepsilon,\sqrt{L_2\varepsilon})-二阶平稳点(SOSP),在凸情况下达到 O~(LR3T2+σ2R2T2+σ1RT)\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}}) 的收敛率。

研究背景与动机

核心问题

在非凸机器学习优化中寻找二阶平稳点是一个核心挑战。深度神经网络训练、张量分解和贝叶斯推断等问题通常涉及一阶方法可能在鞍点停滞的目标函数。

问题重要性

  • 鞍点逃逸:二阶方法利用曲率信息提供了逃离鞍点的潜在途径
  • 计算瓶颈:处理精确Hessian矩阵的计算成本过高,特别是对于大规模经验风险最小化问题,复杂度为 O(nd2)O(nd^2)
  • 理论保证:立方正则化牛顿(CRN)方法为逃避优化轨迹上的鞍点提供了强收敛保证

现有方法局限性

现有的方差缩减立方牛顿方法存在以下问题:

  1. 复杂度依赖性差:某些方法在维数和目标精度上的依赖性较差
  2. 预言机复杂度不优:梯度或Hessian预言机复杂度未达到最优
  3. 实用性限制:缺乏高效的实用版本分析

研究动机

整合方差缩减技术与二阶更新,开发既有理论保证又具实用效率的算法,特别是在高维场景下避免 O(d2)O(d^2) 瓶颈。

核心贡献

  1. 算法设计:提出Re³MCN算法,结合EMA-SARAH估计器用于梯度和Hessian,以及基于Hutchinson估计器的无矩阵子问题求解器
  2. 理论保证:证明Re³MCN在非凸情况下以 O~(n+n1/2ε3/2)\tilde{O}(n+n^{1/2}\varepsilon^{-3/2}) 的预言机复杂度找到 (ε,Lε)(\varepsilon,\sqrt{L\varepsilon})-SOSP,在凸情况下达到 O~(LR3T2+σ2R2T2+σ1RT)\tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}}) 收敛率
  3. 实用效率:算法设计适用于高维问题,通过无矩阵内求解器避免 O(d2)O(d^2) 瓶颈
  4. 可实现性:进行数值实验比较现有方差缩减立方牛顿方法,作为OPTAMI包的一部分实现

方法详解

问题设定与假设

优化问题F(x)=1ni=1nfi(x)F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x)

核心假设

  • (A1) 二阶光滑性:Hessian矩阵Lipschitz连续,常数为 L2>0L_2 > 0
  • (A2) 有界性:Hessian矩阵在算法轨迹上一致有界
  • (A3-A5) 方差有界性:随机预言机具有有界方差

算法架构

Re³MCN算法核心组件

  1. EMA权重调度αt=c(t+1)1/2\alpha_t = c(t+1)^{-1/2},其中 c(0,1/2]c \in (0,1/2]
  2. SARAH更新
    • 梯度:Δgt:=1biIt[fi(xt)fi(xt1)]\Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})]
    • Hessian:ΔHt:=1biIt[2fi(xt)2fi(xt1)]\Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})]
  3. EMA聚合
    • gt(1αt)gt1+αtg^tg_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t
    • Ht(1αt)Ht1+αtH^tH_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t
  4. 立方子问题mt(s)=gtTs+12sTHts+βt2s2+M6s3m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3

技术创新点

  1. EMA-SARAH结合:首次将指数移动平均与SARAH方差缩减技术结合,实现更稳定的估计
  2. 自适应二次正则化
    • 凸情况:βt=2max{C4σ2b,C5L2R}(t+1)\beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1)
    • 非凸情况:引入固定的近端二次项改善噪声聚合
  3. 矩阵无关实现:基于Hutchinson估计器实现Hessian-向量乘积,避免显式存储Hessian矩阵

理论分析框架

一步下降界E[F(xt+1)F(xt)Gt]L28E[st3]+23M1/2E[ϵt3/2]+M1/2E[Σtop3/2]E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}]

主不等式:通过BDG不等式聚合方差项,得到: L28E[ST]ΔF+Cb3/4T9/8E[ST1/6]\frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}]

实验设置

理论验证

论文主要提供理论分析,通过以下方式验证:

  1. 复杂度分析:详细推导预言机复杂度界
  2. 收敛性证明:严格证明算法的收敛性质
  3. 参数选择:给出最优参数设置的理论指导

实现细节

批量大小b=n1/2b = \lceil n^{1/2} \rceil

时期长度

  • 无正则化:Tmax=Θ(n1/3)T_{max} = \Theta(n^{1/3})
  • 带正则化:Tmax=Θ(n3/5)T_{max} = \Theta(n^{3/5})

内求解器:使用割线二分法 + 截断共轭梯度求解立方子问题

实验结果

主要理论结果

定理8.3(非凸复杂度): 在假设(A1)-(A5)下,Re³MCN算法返回 (ε,L2ε)(\varepsilon,\sqrt{L_2\varepsilon})-SOSP,总预言机复杂度为: G=Hn+O~(n1/2ε3/2)G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2})

定理6.1(凸收敛率): 假设FF为凸函数,算法达到收敛率: E[F(xT)F]C1L2R3+Cββ0R2(T+1)2+C3σ1RT+1E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}}

复杂度比较

与现有方法相比:

  • 改进的nn依赖性:从 n5/6n^{5/6}n4/5n^{4/5} 改进到 n1/2n^{1/2}
  • 最优ε\varepsilon依赖性:达到 ε3/2\varepsilon^{-3/2} 的最优率
  • 统一框架:同时处理凸和非凸情况

相关工作

立方正则化牛顿方法

  • Nesterov & Polyak (2006):确定性CRN方法
  • 各种随机变体:SCRN方法的发展历程

方差缩减技术

  • SARAH方法:递归方差缩减的基础
  • SPIDER等方法:路径积分差分估计器

二阶随机方法

  • 方差缩减牛顿方法在强凸函数上的应用
  • 策略优化中的VR-CN应用

结论与讨论

主要结论

  1. 理论突破:首次在非凸有限和优化中实现 n+O~(n1/2ε3/2)n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) 的预言机复杂度
  2. 技术创新:EMA-SARAH结合提供了更稳定的方差缩减
  3. 实用性:Hutchinson估计器使方法适用于高维问题

局限性

  1. 理论假设:需要Hessian Lipschitz连续性和有界性假设
  2. 参数调节:多个超参数需要适当选择
  3. 实验验证:主要提供理论分析,缺乏大规模实证验证

未来方向

  1. 自适应参数选择:开发自适应选择EMA权重和正则化参数的方法
  2. 更弱假设:放松对Hessian性质的假设
  3. 实际应用:在深度学习等实际问题中验证方法效果

深度评价

优点

  1. 理论严谨性:提供了完整的收敛性分析和复杂度界
  2. 技术创新:EMA与SARAH的结合是新颖的技术贡献
  3. 实用考虑:Hutchinson估计器和快速内求解器提高了实用性
  4. 统一框架:同时处理凸和非凸情况

不足

  1. 实验缺失:缺乏与现有方法的实证比较
  2. 假设限制:某些假设在实际问题中可能不满足
  3. 常数依赖:理论界中的常数可能较大

影响力

  1. 理论贡献:在随机二阶优化理论方面取得重要进展
  2. 方法学价值:EMA-SARAH技术可能启发其他算法设计
  3. 实用潜力:为大规模非凸优化提供了新的工具

适用场景

  • 大规模机器学习:特别是需要逃离鞍点的非凸问题
  • 深度学习:神经网络训练中的二阶优化
  • 科学计算:需要高精度解的优化问题

参考文献

论文引用了15篇相关文献,涵盖了立方正则化方法、方差缩减技术和随机二阶优化的主要工作,为本研究提供了坚实的理论基础。


总体评价:这是一篇在随机二阶优化领域具有重要理论贡献的论文。通过巧妙结合EMA和SARAH技术,实现了目前最好的预言机复杂度界。虽然缺乏实验验证,但理论分析严谨,技术创新明显,对该领域的发展具有重要推动作用。