We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
论文ID : 2510.08714标题 : Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems作者 : Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, France), Martin Takáč (MBZUAI)分类 : math.OC (数学优化)发表时间 : 2025年10月9日 (arXiv预印本)论文链接 : https://arxiv.org/abs/2510.08714 本文提出了一种随机立方正则化牛顿方法用于有限和优化问题 min x ∈ R d F ( x ) = 1 n ∑ i = 1 n f i ( x ) \min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x) min x ∈ R d F ( x ) = n 1 ∑ i = 1 n f i ( x ) ,该方法使用SARAH型递归方差缩减技术,配合大小为 b ∼ n 1 / 2 b \sim n^{1/2} b ∼ n 1/2 的小批量和指数移动平均(EMA)来估计梯度和Hessian矩阵。研究表明,该方法在非凸情况下能以 n + O ~ ( n 1 / 2 ε − 3 / 2 ) n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) n + O ~ ( n 1/2 ε − 3/2 ) 的随机预言机调用次数达到 ( ε , L 2 ε ) (\varepsilon,\sqrt{L_2\varepsilon}) ( ε , L 2 ε ) -二阶平稳点(SOSP),在凸情况下达到 O ~ ( L R 3 T 2 + σ 2 R 2 T 2 + σ 1 R T ) \tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}}) O ~ ( T 2 L R 3 + T 2 σ 2 R 2 + T σ 1 R ) 的收敛率。
在非凸机器学习优化中寻找二阶平稳点是一个核心挑战。深度神经网络训练、张量分解和贝叶斯推断等问题通常涉及一阶方法可能在鞍点停滞的目标函数。
鞍点逃逸 :二阶方法利用曲率信息提供了逃离鞍点的潜在途径计算瓶颈 :处理精确Hessian矩阵的计算成本过高,特别是对于大规模经验风险最小化问题,复杂度为 O ( n d 2 ) O(nd^2) O ( n d 2 ) 理论保证 :立方正则化牛顿(CRN)方法为逃避优化轨迹上的鞍点提供了强收敛保证现有的方差缩减立方牛顿方法存在以下问题:
复杂度依赖性差 :某些方法在维数和目标精度上的依赖性较差预言机复杂度不优 :梯度或Hessian预言机复杂度未达到最优实用性限制 :缺乏高效的实用版本分析整合方差缩减技术与二阶更新,开发既有理论保证又具实用效率的算法,特别是在高维场景下避免 O ( d 2 ) O(d^2) O ( d 2 ) 瓶颈。
算法设计 :提出Re³MCN算法,结合EMA-SARAH估计器用于梯度和Hessian,以及基于Hutchinson估计器的无矩阵子问题求解器理论保证 :证明Re³MCN在非凸情况下以 O ~ ( n + n 1 / 2 ε − 3 / 2 ) \tilde{O}(n+n^{1/2}\varepsilon^{-3/2}) O ~ ( n + n 1/2 ε − 3/2 ) 的预言机复杂度找到 ( ε , L ε ) (\varepsilon,\sqrt{L\varepsilon}) ( ε , L ε ) -SOSP,在凸情况下达到 O ~ ( L R 3 T 2 + σ 2 R 2 T 2 + σ 1 R T ) \tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}}) O ~ ( T 2 L R 3 + T 2 σ 2 R 2 + T σ 1 R ) 收敛率实用效率 :算法设计适用于高维问题,通过无矩阵内求解器避免 O ( d 2 ) O(d^2) O ( d 2 ) 瓶颈可实现性 :进行数值实验比较现有方差缩减立方牛顿方法,作为OPTAMI包的一部分实现优化问题 :
F ( x ) = 1 n ∑ i = 1 n f i ( x ) F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x) F ( x ) = n 1 ∑ i = 1 n f i ( x )
核心假设 :
(A1) 二阶光滑性 :Hessian矩阵Lipschitz连续,常数为 L 2 > 0 L_2 > 0 L 2 > 0 (A2) 有界性 :Hessian矩阵在算法轨迹上一致有界(A3-A5) 方差有界性 :随机预言机具有有界方差Re³MCN算法核心组件 :
EMA权重调度 :α t = c ( t + 1 ) − 1 / 2 \alpha_t = c(t+1)^{-1/2} α t = c ( t + 1 ) − 1/2 ,其中 c ∈ ( 0 , 1 / 2 ] c \in (0,1/2] c ∈ ( 0 , 1/2 ] SARAH更新 :梯度:Δ g t : = 1 b ∑ i ∈ I t [ ∇ f i ( x t ) − ∇ f i ( x t − 1 ) ] \Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})] Δ g t := b 1 ∑ i ∈ I t [ ∇ f i ( x t ) − ∇ f i ( x t − 1 )] Hessian:Δ H t : = 1 b ∑ i ∈ I t [ ∇ 2 f i ( x t ) − ∇ 2 f i ( x t − 1 ) ] \Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})] Δ H t := b 1 ∑ i ∈ I t [ ∇ 2 f i ( x t ) − ∇ 2 f i ( x t − 1 )] EMA聚合 :g t ← ( 1 − α t ) g t − 1 + α t g ^ t g_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t g t ← ( 1 − α t ) g t − 1 + α t g ^ t H t ← ( 1 − α t ) H t − 1 + α t H ^ t H_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t H t ← ( 1 − α t ) H t − 1 + α t H ^ t 立方子问题 :
m t ( s ) = g t T s + 1 2 s T H t s + β t 2 ∥ s ∥ 2 + M 6 ∥ s ∥ 3 m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3 m t ( s ) = g t T s + 2 1 s T H t s + 2 β t ∥ s ∥ 2 + 6 M ∥ s ∥ 3 EMA-SARAH结合 :首次将指数移动平均与SARAH方差缩减技术结合,实现更稳定的估计自适应二次正则化 :凸情况:β t = 2 max { C 4 σ 2 b , C 5 L 2 R } ( t + 1 ) \beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1) β t = 2 max { b C 4 σ 2 , C 5 L 2 R } ( t + 1 ) 非凸情况:引入固定的近端二次项改善噪声聚合 矩阵无关实现 :基于Hutchinson估计器实现Hessian-向量乘积,避免显式存储Hessian矩阵一步下降界 :
E [ F ( x t + 1 ) − F ( x t ) ∣ G t ] ≤ − L 2 8 E [ ∥ s t ∥ 3 ] + 2 3 M − 1 / 2 E [ ∥ ϵ t ∥ 3 / 2 ] + M − 1 / 2 E [ ∥ Σ t ∥ o p 3 / 2 ] E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}] E [ F ( x t + 1 ) − F ( x t ) ∣ G t ] ≤ − 8 L 2 E [ ∥ s t ∥ 3 ] + 3 2 M − 1/2 E [ ∥ ϵ t ∥ 3/2 ] + M − 1/2 E [ ∥ Σ t ∥ o p 3/2 ]
主不等式 :通过BDG不等式聚合方差项,得到:
L 2 8 E [ S T ] ≤ Δ F + C ∗ b 3 / 4 T 9 / 8 E [ S T 1 / 6 ] \frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}] 8 L 2 E [ S T ] ≤ Δ F + b 3/4 C ∗ T 9/8 E [ S T 1/6 ]
论文主要提供理论分析,通过以下方式验证:
复杂度分析 :详细推导预言机复杂度界收敛性证明 :严格证明算法的收敛性质参数选择 :给出最优参数设置的理论指导批量大小 :b = ⌈ n 1 / 2 ⌉ b = \lceil n^{1/2} \rceil b = ⌈ n 1/2 ⌉
时期长度 :
无正则化:T m a x = Θ ( n 1 / 3 ) T_{max} = \Theta(n^{1/3}) T ma x = Θ ( n 1/3 ) 带正则化:T m a x = Θ ( n 3 / 5 ) T_{max} = \Theta(n^{3/5}) T ma x = Θ ( n 3/5 ) 内求解器 :使用割线二分法 + 截断共轭梯度求解立方子问题
定理8.3(非凸复杂度) :
在假设(A1)-(A5)下,Re³MCN算法返回 ( ε , L 2 ε ) (\varepsilon,\sqrt{L_2\varepsilon}) ( ε , L 2 ε ) -SOSP,总预言机复杂度为:
G = H ≤ n + O ~ ( n 1 / 2 ε − 3 / 2 ) G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) G = H ≤ n + O ~ ( n 1/2 ε − 3/2 )
定理6.1(凸收敛率) :
假设F F F 为凸函数,算法达到收敛率:
E [ F ( x T ) − F ∗ ] ≤ C 1 L 2 R 3 + C β β 0 R 2 ( T + 1 ) 2 + C 3 σ 1 R T + 1 E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}} E [ F ( x T ) − F ∗ ] ≤ ( T + 1 ) 2 C 1 L 2 R 3 + C β β 0 R 2 + T + 1 C 3 σ 1 R
与现有方法相比:
改进的n n n 依赖性 :从 n 5 / 6 n^{5/6} n 5/6 或 n 4 / 5 n^{4/5} n 4/5 改进到 n 1 / 2 n^{1/2} n 1/2 最优ε \varepsilon ε 依赖性 :达到 ε − 3 / 2 \varepsilon^{-3/2} ε − 3/2 的最优率统一框架 :同时处理凸和非凸情况Nesterov & Polyak (2006):确定性CRN方法 各种随机变体:SCRN方法的发展历程 SARAH方法:递归方差缩减的基础 SPIDER等方法:路径积分差分估计器 方差缩减牛顿方法在强凸函数上的应用 策略优化中的VR-CN应用 理论突破 :首次在非凸有限和优化中实现 n + O ~ ( n 1 / 2 ε − 3 / 2 ) n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) n + O ~ ( n 1/2 ε − 3/2 ) 的预言机复杂度技术创新 :EMA-SARAH结合提供了更稳定的方差缩减实用性 :Hutchinson估计器使方法适用于高维问题理论假设 :需要Hessian Lipschitz连续性和有界性假设参数调节 :多个超参数需要适当选择实验验证 :主要提供理论分析,缺乏大规模实证验证自适应参数选择 :开发自适应选择EMA权重和正则化参数的方法更弱假设 :放松对Hessian性质的假设实际应用 :在深度学习等实际问题中验证方法效果理论严谨性 :提供了完整的收敛性分析和复杂度界技术创新 :EMA与SARAH的结合是新颖的技术贡献实用考虑 :Hutchinson估计器和快速内求解器提高了实用性统一框架 :同时处理凸和非凸情况实验缺失 :缺乏与现有方法的实证比较假设限制 :某些假设在实际问题中可能不满足常数依赖 :理论界中的常数可能较大理论贡献 :在随机二阶优化理论方面取得重要进展方法学价值 :EMA-SARAH技术可能启发其他算法设计实用潜力 :为大规模非凸优化提供了新的工具大规模机器学习 :特别是需要逃离鞍点的非凸问题深度学习 :神经网络训练中的二阶优化科学计算 :需要高精度解的优化问题论文引用了15篇相关文献,涵盖了立方正则化方法、方差缩减技术和随机二阶优化的主要工作,为本研究提供了坚实的理论基础。
总体评价 :这是一篇在随机二阶优化领域具有重要理论贡献的论文。通过巧妙结合EMA和SARAH技术,实现了目前最好的预言机复杂度界。虽然缺乏实验验证,但理论分析严谨,技术创新明显,对该领域的发展具有重要推动作用。