We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
論文ID : 2510.08714タイトル : Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems著者 : Dmitry Pasechnyuk-Vilensky (MBZUAI)、Dmitry Kamzolov (TSE, France)、Martin Takáč (MBZUAI)分類 : math.OC (数学最適化)発表日 : 2025年10月9日 (arXivプレプリント)論文リンク : https://arxiv.org/abs/2510.08714 本論文は、有限和最適化問題 min x ∈ R d F ( x ) = 1 n ∑ i = 1 n f i ( x ) \min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x) min x ∈ R d F ( x ) = n 1 ∑ i = 1 n f i ( x ) に対する確率的立方正則化ニュートン法を提案する。本手法はSARAH型再帰的分散削減技術を採用し、サイズ b ∼ n 1 / 2 b \sim n^{1/2} b ∼ n 1/2 の小バッチと指数移動平均(EMA)を組み合わせて勾配とヘッシアン行列を推定する。研究結果は、非凸の場合に n + O ~ ( n 1 / 2 ε − 3 / 2 ) n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) n + O ~ ( n 1/2 ε − 3/2 ) の確率的オラクル呼び出し回数で ( ε , L 2 ε ) (\varepsilon,\sqrt{L_2\varepsilon}) ( ε , L 2 ε ) -二階平稳点(SOSP)に到達し、凸の場合に O ~ ( L R 3 T 2 + σ 2 R 2 T 2 + σ 1 R T ) \tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}}) O ~ ( T 2 L R 3 + T 2 σ 2 R 2 + T σ 1 R ) の収束率を達成することを示している。
非凸機械学習最適化において二階平稳点を見つけることは中心的な課題である。深層ニューラルネットワーク訓練、テンソル分解、ベイズ推論などの問題は、通常、一階法が鞍点で停滞する可能性のある目的関数を含む。
鞍点からの脱出 :二階法は曲率情報を利用して鞍点から脱出する潜在的な手段を提供する計算ボトルネック :正確なヘッシアン行列の処理は計算コストが高く、特に大規模経験リスク最小化問題では複雑度が O ( n d 2 ) O(nd^2) O ( n d 2 ) となる理論的保証 :立方正則化ニュートン(CRN)法は最適化軌跡上の鞍点回避に対して強い収束保証を提供する既存の分散削減立方ニュートン法には以下の問題がある:
複雑度依存性の悪さ :ある手法は次元と目標精度に対する依存性が良くないオラクル複雑度の非最適性 :勾配またはヘッシアンオラクル複雑度が最適に達していない実用性の制限 :効率的な実用版の分析が不足している分散削減技術と二階更新を統合し、理論的保証と実用的効率を両立するアルゴリズムを開発すること、特に高次元シナリオで O ( d 2 ) O(d^2) O ( d 2 ) ボトルネックを回避する。
アルゴリズム設計 :勾配とヘッシアンのEMA-SARAH推定器、およびHutchinson推定器に基づく行列フリー部分問題ソルバーを組み合わせたRe³MCNアルゴリズムを提案理論的保証 :Re³MCNが非凸の場合に O ~ ( n + n 1 / 2 ε − 3 / 2 ) \tilde{O}(n+n^{1/2}\varepsilon^{-3/2}) O ~ ( n + n 1/2 ε − 3/2 ) のオラクル複雑度で ( ε , L ε ) (\varepsilon,\sqrt{L\varepsilon}) ( ε , L ε ) -SOSPを見つけ、凸の場合に O ~ ( L R 3 T 2 + σ 2 R 2 T 2 + σ 1 R T ) \tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}}) O ~ ( T 2 L R 3 + T 2 σ 2 R 2 + T σ 1 R ) の収束率を達成することを証明実用的効率 :アルゴリズムは高次元問題に適用可能に設計され、行列フリー内部ソルバーにより O ( d 2 ) O(d^2) O ( d 2 ) ボトルネックを回避実装可能性 :既存の分散削減立方ニュートン法との数値実験比較を実施し、OPTAMIパッケージの一部として実装最適化問題 :
F ( x ) = 1 n ∑ i = 1 n f i ( x ) F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x) F ( x ) = n 1 ∑ i = 1 n f i ( x )
核心仮定 :
(A1) 二階平滑性 :ヘッシアン行列がLipschitz連続で、定数が L 2 > 0 L_2 > 0 L 2 > 0 (A2) 有界性 :ヘッシアン行列がアルゴリズム軌跡上で一様に有界(A3-A5) 分散有界性 :確率的オラクルが有界分散を持つRe³MCNアルゴリズムの核心成分 :
EMA重み付けスケジュール :α t = c ( t + 1 ) − 1 / 2 \alpha_t = c(t+1)^{-1/2} α t = c ( t + 1 ) − 1/2 、ここで c ∈ ( 0 , 1 / 2 ] c \in (0,1/2] c ∈ ( 0 , 1/2 ] SARAH更新 :勾配:Δ g t : = 1 b ∑ i ∈ I t [ ∇ f i ( x t ) − ∇ f i ( x t − 1 ) ] \Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})] Δ g t := b 1 ∑ i ∈ I t [ ∇ f i ( x t ) − ∇ f i ( x t − 1 )] ヘッシアン:Δ H t : = 1 b ∑ i ∈ I t [ ∇ 2 f i ( x t ) − ∇ 2 f i ( x t − 1 ) ] \Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})] Δ H t := b 1 ∑ i ∈ I t [ ∇ 2 f i ( x t ) − ∇ 2 f i ( x t − 1 )] EMA集約 :g t ← ( 1 − α t ) g t − 1 + α t g ^ t g_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t g t ← ( 1 − α t ) g t − 1 + α t g ^ t H t ← ( 1 − α t ) H t − 1 + α t H ^ t H_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t H t ← ( 1 − α t ) H t − 1 + α t H ^ t 立方部分問題 :
m t ( s ) = g t T s + 1 2 s T H t s + β t 2 ∥ s ∥ 2 + M 6 ∥ s ∥ 3 m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3 m t ( s ) = g t T s + 2 1 s T H t s + 2 β t ∥ s ∥ 2 + 6 M ∥ s ∥ 3 EMA-SARAH結合 :指数移動平均とSARAH分散削減技術を初めて組み合わせ、より安定した推定を実現適応的二次正則化 :凸の場合:β t = 2 max { C 4 σ 2 b , C 5 L 2 R } ( t + 1 ) \beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1) β t = 2 max { b C 4 σ 2 , C 5 L 2 R } ( t + 1 ) 非凸の場合:固定の近接二次項を導入してノイズ集約を改善 行列フリー実装 :Hutchinson推定器に基づいてヘッシアン-ベクトル積を実装し、ヘッシアン行列の明示的な保存を回避一ステップ下降界 :
E [ F ( x t + 1 ) − F ( x t ) ∣ G t ] ≤ − L 2 8 E [ ∥ s t ∥ 3 ] + 2 3 M − 1 / 2 E [ ∥ ϵ t ∥ 3 / 2 ] + M − 1 / 2 E [ ∥ Σ t ∥ o p 3 / 2 ] E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}] E [ F ( x t + 1 ) − F ( x t ) ∣ G t ] ≤ − 8 L 2 E [ ∥ s t ∥ 3 ] + 3 2 M − 1/2 E [ ∥ ϵ t ∥ 3/2 ] + M − 1/2 E [ ∥ Σ t ∥ o p 3/2 ]
主不等式 :BDG不等式を用いて分散項を集約し、以下を得る:
L 2 8 E [ S T ] ≤ Δ F + C ∗ b 3 / 4 T 9 / 8 E [ S T 1 / 6 ] \frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}] 8 L 2 E [ S T ] ≤ Δ F + b 3/4 C ∗ T 9/8 E [ S T 1/6 ]
論文は主に理論分析を提供し、以下の方法で検証する:
複雑度分析 :オラクル複雑度界の詳細な導出収束性証明 :アルゴリズムの収束性質の厳密な証明パラメータ選択 :最適なパラメータ設定に対する理論的指導バッチサイズ :b = ⌈ n 1 / 2 ⌉ b = \lceil n^{1/2} \rceil b = ⌈ n 1/2 ⌉
エポック長 :
正則化なし:T m a x = Θ ( n 1 / 3 ) T_{max} = \Theta(n^{1/3}) T ma x = Θ ( n 1/3 ) 正則化あり:T m a x = Θ ( n 3 / 5 ) T_{max} = \Theta(n^{3/5}) T ma x = Θ ( n 3/5 ) 内部ソルバー :割線二分法 + 打ち切り共役勾配法を用いて立方部分問題を解く
定理8.3(非凸複雑度) :
仮定(A1)-(A5)の下で、Re³MCNアルゴリズムは ( ε , L 2 ε ) (\varepsilon,\sqrt{L_2\varepsilon}) ( ε , L 2 ε ) -SOSPを返し、総オラクル複雑度は以下の通り:
G = H ≤ n + O ~ ( n 1 / 2 ε − 3 / 2 ) G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) G = H ≤ n + O ~ ( n 1/2 ε − 3/2 )
定理6.1(凸収束率) :
F F F が凸関数と仮定すると、アルゴリズムは以下の収束率を達成する:
E [ F ( x T ) − F ∗ ] ≤ C 1 L 2 R 3 + C β β 0 R 2 ( T + 1 ) 2 + C 3 σ 1 R T + 1 E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}} E [ F ( x T ) − F ∗ ] ≤ ( T + 1 ) 2 C 1 L 2 R 3 + C β β 0 R 2 + T + 1 C 3 σ 1 R
既存手法との比較:
改善された n n n 依存性 :n 5 / 6 n^{5/6} n 5/6 または n 4 / 5 n^{4/5} n 4/5 から n 1 / 2 n^{1/2} n 1/2 に改善最適な ε \varepsilon ε 依存性 :ε − 3 / 2 \varepsilon^{-3/2} ε − 3/2 の最適率を達成統一フレームワーク :凸と非凸の場合を同時に処理Nesterov & Polyak (2006):決定論的CRN法 各種確率的変種:SCRN法の発展過程 SARAH法:再帰的分散削減の基礎 SPIDER等の手法:経路積分差分推定器 強凸関数上の分散削減ニュートン法の応用 方針最適化におけるVR-CN応用 理論的突破 :非凸有限和最適化において初めて n + O ~ ( n 1 / 2 ε − 3 / 2 ) n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) n + O ~ ( n 1/2 ε − 3/2 ) のオラクル複雑度を実現技術的革新 :EMA-SARAH結合がより安定した分散削減を提供実用性 :Hutchinson推定器により高次元問題への適用が可能理論的仮定 :ヘッシアンのLipschitz連続性と有界性の仮定が必要パラメータ調整 :複数の超パラメータの適切な選択が必要実験的検証 :主に理論分析を提供し、大規模実証検証が不足適応的パラメータ選択 :EMA重みと正則化パラメータを適応的に選択する方法の開発より弱い仮定 :ヘッシアンの性質に対する仮定の緩和実際の応用 :深層学習などの実際の問題での手法の効果検証理論的厳密性 :完全な収束性分析と複雑度界を提供技術的革新 :EMAとSARAHの結合は新規な技術貢献実用的考慮 :Hutchinson推定器と高速内部ソルバーが実用性を向上統一フレームワーク :凸と非凸の場合を同時に処理実験の欠如 :既存手法との実証的比較が不足仮定の制限 :ある仮定は実際の問題では満たされない可能性定数依存性 :理論界の定数が大きい可能性理論的貢献 :確率的二階最適化理論における重要な進展方法論的価値 :EMA-SARAH技術が他のアルゴリズム設計に影響を与える可能性実用的潜在性 :大規模非凸最適化に対する新しいツールを提供大規模機械学習 :特に鞍点からの脱出が必要な非凸問題深層学習 :ニューラルネットワーク訓練における二階最適化科学計算 :高精度解が必要な最適化問題論文は立方正則化法、分散削減技術、確率的二階最適化の主要な研究を網羅する15篇の関連文献を引用し、本研究に堅実な理論的基礎を提供している。
総合評価 :これは確率的二階最適化分野における重要な理論的貢献を持つ論文である。EMAとSARAH技術を巧妙に組み合わせることで、現在最良のオラクル複雑度界を実現している。実験検証は不足しているが、理論分析は厳密で、技術的革新は明らかであり、当該分野の発展に重要な推進作用を持つ。