We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
논문 ID : 2510.08714제목 : Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems저자 : Dmitry Pasechnyuk-Vilensky (MBZUAI), Dmitry Kamzolov (TSE, France), Martin Takáč (MBZUAI)분류 : math.OC (수학 최적화)발표 시간 : 2025년 10월 9일 (arXiv 사전인쇄본)논문 링크 : https://arxiv.org/abs/2510.08714 본 논문은 유한합 최적화 문제 min x ∈ R d F ( x ) = 1 n ∑ i = 1 n f i ( x ) \min_{x\in\mathbb{R}^d} F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x) min x ∈ R d F ( x ) = n 1 ∑ i = 1 n f i ( x ) 에 대한 확률적 3차 정규화 뉴턴 방법을 제안한다. 이 방법은 SARAH형 재귀적 분산 감소 기법을 사용하며, b ∼ n 1 / 2 b \sim n^{1/2} b ∼ n 1/2 크기의 소배치와 지수 이동 평균(EMA)을 통해 기울기와 헤시안 행렬을 추정한다. 연구 결과에 따르면, 본 방법은 비볼록의 경우 n + O ~ ( n 1 / 2 ε − 3 / 2 ) n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) n + O ~ ( n 1/2 ε − 3/2 ) 의 확률적 오라클 호출 횟수로 ( ε , L 2 ε ) (\varepsilon,\sqrt{L_2\varepsilon}) ( ε , L 2 ε ) -2차 정상점(SOSP)에 도달하며, 볼록의 경우 O ~ ( L R 3 T 2 + σ 2 R 2 T 2 + σ 1 R T ) \tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2 R^2}{T^2} + \frac{\sigma_1 R}{\sqrt{T}}) O ~ ( T 2 L R 3 + T 2 σ 2 R 2 + T σ 1 R ) 의 수렴률을 달성한다.
비볼록 기계학습 최적화에서 2차 정상점을 찾는 것은 핵심 과제이다. 심층 신경망 훈련, 텐서 분해, 베이지안 추론 등의 문제는 일반적으로 1차 방법이 안장점에서 정체될 수 있는 목적 함수를 포함한다.
안장점 탈출 : 2차 방법은 곡률 정보를 활용하여 안장점에서 탈출할 수 있는 잠재적 경로를 제공한다계산 병목 : 정확한 헤시안 행렬 처리의 계산 비용이 과도하며, 특히 대규모 경험적 위험 최소화 문제에서 복잡도는 O ( n d 2 ) O(nd^2) O ( n d 2 ) 이다이론적 보장 : 3차 정규화 뉴턴(CRN) 방법은 최적화 궤적상의 안장점 회피에 대한 강력한 수렴 보장을 제공한다기존의 분산 감소 3차 뉴턴 방법은 다음과 같은 문제점을 가진다:
복잡도 의존성 부족 : 일부 방법은 차원 및 목표 정확도에 대한 의존성이 좋지 않다오라클 복잡도 최적성 부족 : 기울기 또는 헤시안 오라클 복잡도가 최적에 미치지 못한다실용성 제한 : 효율적인 실용적 버전 분석이 부족하다분산 감소 기법과 2차 업데이트를 통합하여, 이론적 보장과 실용적 효율성을 모두 갖춘 알고리즘을 개발하는 것, 특히 고차원 시나리오에서 O ( d 2 ) O(d^2) O ( d 2 ) 병목을 피하는 것이 목표이다.
알고리즘 설계 : 기울기와 헤시안을 위한 EMA-SARAH 추정기와 Hutchinson 추정기 기반의 행렬 무관 부분 문제 해결기를 결합한 Re³MCN 알고리즘 제안이론적 보장 : Re³MCN이 비볼록의 경우 O ~ ( n + n 1 / 2 ε − 3 / 2 ) \tilde{O}(n+n^{1/2}\varepsilon^{-3/2}) O ~ ( n + n 1/2 ε − 3/2 ) 의 오라클 복잡도로 ( ε , L ε ) (\varepsilon,\sqrt{L\varepsilon}) ( ε , L ε ) -SOSP를 찾으며, 볼록의 경우 O ~ ( L R 3 T 2 + σ 2 R 2 T 2 + σ 1 R T ) \tilde{O}(\frac{LR^3}{T^2} + \frac{\sigma_2R^2}{T^2} + \frac{\sigma_1R}{\sqrt{T}}) O ~ ( T 2 L R 3 + T 2 σ 2 R 2 + T σ 1 R ) 수렴률을 달성함을 증명실용적 효율성 : 알고리즘은 고차원 문제에 적용 가능하도록 설계되었으며, 행렬 무관 내부 해결기를 통해 O ( d 2 ) O(d^2) O ( d 2 ) 병목을 회피한다구현 가능성 : 기존 분산 감소 3차 뉴턴 방법과 비교하는 수치 실험을 수행하며, OPTAMI 패키지의 일부로 구현된다최적화 문제 :
F ( x ) = 1 n ∑ i = 1 n f i ( x ) F(x) = \frac{1}{n}\sum_{i=1}^n f_i(x) F ( x ) = n 1 ∑ i = 1 n f i ( x )
핵심 가정 :
(A1) 2차 평활성 : 헤시안 행렬이 립시츠 연속이며, 상수는 L 2 > 0 L_2 > 0 L 2 > 0 이다(A2) 유계성 : 헤시안 행렬이 알고리즘 궤적상에서 균일하게 유계이다(A3-A5) 분산 유계성 : 확률적 오라클이 유계 분산을 가진다Re³MCN 알고리즘 핵심 구성 요소 :
EMA 가중치 스케줄 : α t = c ( t + 1 ) − 1 / 2 \alpha_t = c(t+1)^{-1/2} α t = c ( t + 1 ) − 1/2 , 여기서 c ∈ ( 0 , 1 / 2 ] c \in (0,1/2] c ∈ ( 0 , 1/2 ] SARAH 업데이트 :기울기: Δ g t : = 1 b ∑ i ∈ I t [ ∇ f i ( x t ) − ∇ f i ( x t − 1 ) ] \Delta g_t := \frac{1}{b}\sum_{i \in I_t}[\nabla f_i(x_t) - \nabla f_i(x_{t-1})] Δ g t := b 1 ∑ i ∈ I t [ ∇ f i ( x t ) − ∇ f i ( x t − 1 )] 헤시안: Δ H t : = 1 b ∑ i ∈ I t [ ∇ 2 f i ( x t ) − ∇ 2 f i ( x t − 1 ) ] \Delta H_t := \frac{1}{b}\sum_{i \in I_t}[\nabla^2 f_i(x_t) - \nabla^2 f_i(x_{t-1})] Δ H t := b 1 ∑ i ∈ I t [ ∇ 2 f i ( x t ) − ∇ 2 f i ( x t − 1 )] EMA 집계 :g t ← ( 1 − α t ) g t − 1 + α t g ^ t g_t \leftarrow (1-\alpha_t)g_{t-1} + \alpha_t \hat{g}_t g t ← ( 1 − α t ) g t − 1 + α t g ^ t H t ← ( 1 − α t ) H t − 1 + α t H ^ t H_t \leftarrow (1-\alpha_t)H_{t-1} + \alpha_t \hat{H}_t H t ← ( 1 − α t ) H t − 1 + α t H ^ t 3차 부분 문제 :
m t ( s ) = g t T s + 1 2 s T H t s + β t 2 ∥ s ∥ 2 + M 6 ∥ s ∥ 3 m_t(s) = g_t^T s + \frac{1}{2}s^T H_t s + \frac{\beta_t}{2}\|s\|^2 + \frac{M}{6}\|s\|^3 m t ( s ) = g t T s + 2 1 s T H t s + 2 β t ∥ s ∥ 2 + 6 M ∥ s ∥ 3 EMA-SARAH 결합 : 지수 이동 평균과 SARAH 분산 감소 기법을 처음으로 결합하여 더욱 안정적인 추정을 실현적응형 2차 정규화 :볼록의 경우: β t = 2 max { C 4 σ 2 b , C 5 L 2 R } ( t + 1 ) \beta_t = 2\max\{\frac{C_4\sigma_2}{\sqrt{b}}, C_5L_2R\}(t+1) β t = 2 max { b C 4 σ 2 , C 5 L 2 R } ( t + 1 ) 비볼록의 경우: 고정된 근접 2차 항을 도입하여 노이즈 집계 개선 행렬 무관 구현 : Hutchinson 추정기 기반으로 헤시안-벡터 곱셈을 구현하여 명시적 헤시안 행렬 저장을 회피1단계 하강 경계 :
E [ F ( x t + 1 ) − F ( x t ) ∣ G t ] ≤ − L 2 8 E [ ∥ s t ∥ 3 ] + 2 3 M − 1 / 2 E [ ∥ ϵ t ∥ 3 / 2 ] + M − 1 / 2 E [ ∥ Σ t ∥ o p 3 / 2 ] E[F(x_{t+1}) - F(x_t) | \mathcal{G}_t] \leq -\frac{L_2}{8}E[\|s_t\|^3] + \frac{2}{3}M^{-1/2}E[\|\epsilon_t\|^{3/2}] + M^{-1/2}E[\|\Sigma_t\|_{op}^{3/2}] E [ F ( x t + 1 ) − F ( x t ) ∣ G t ] ≤ − 8 L 2 E [ ∥ s t ∥ 3 ] + 3 2 M − 1/2 E [ ∥ ϵ t ∥ 3/2 ] + M − 1/2 E [ ∥ Σ t ∥ o p 3/2 ]
주요 부등식 : BDG 부등식을 통해 분산 항을 집계하여 다음을 얻는다:
L 2 8 E [ S T ] ≤ Δ F + C ∗ b 3 / 4 T 9 / 8 E [ S T 1 / 6 ] \frac{L_2}{8}E[S_T] \leq \Delta F + \frac{C_*}{b^{3/4}}T^{9/8}E[S_T^{1/6}] 8 L 2 E [ S T ] ≤ Δ F + b 3/4 C ∗ T 9/8 E [ S T 1/6 ]
논문은 주로 이론 분석을 제공하며, 다음 방식으로 검증한다:
복잡도 분석 : 오라클 복잡도 경계의 상세한 유도수렴성 증명 : 알고리즘의 수렴 성질에 대한 엄밀한 증명매개변수 선택 : 최적 매개변수 설정에 대한 이론적 지침 제공배치 크기 : b = ⌈ n 1 / 2 ⌉ b = \lceil n^{1/2} \rceil b = ⌈ n 1/2 ⌉
에포크 길이 :
정규화 없음: T m a x = Θ ( n 1 / 3 ) T_{max} = \Theta(n^{1/3}) T ma x = Θ ( n 1/3 ) 정규화 포함: T m a x = Θ ( n 3 / 5 ) T_{max} = \Theta(n^{3/5}) T ma x = Θ ( n 3/5 ) 내부 해결기 : 할선 이분법 + 절단 켤레 기울기를 사용하여 3차 부분 문제 해결
정리 8.3 (비볼록 복잡도) :
가정 (A1)-(A5) 하에서, Re³MCN 알고리즘은 ( ε , L 2 ε ) (\varepsilon,\sqrt{L_2\varepsilon}) ( ε , L 2 ε ) -SOSP를 반환하며, 총 오라클 복잡도는:
G = H ≤ n + O ~ ( n 1 / 2 ε − 3 / 2 ) G = H \leq n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) G = H ≤ n + O ~ ( n 1/2 ε − 3/2 )
정리 6.1 (볼록 수렴률) :
F F F 가 볼록 함수라고 가정하면, 알고리즘은 다음 수렴률을 달성한다:
E [ F ( x T ) − F ∗ ] ≤ C 1 L 2 R 3 + C β β 0 R 2 ( T + 1 ) 2 + C 3 σ 1 R T + 1 E[F(x_T) - F^*] \leq \frac{C_1L_2R^3 + C_\beta\beta_0R^2}{(T+1)^2} + \frac{C_3\sigma_1R}{\sqrt{T+1}} E [ F ( x T ) − F ∗ ] ≤ ( T + 1 ) 2 C 1 L 2 R 3 + C β β 0 R 2 + T + 1 C 3 σ 1 R
기존 방법과 비교하면:
개선된 n n n 의존성 : n 5 / 6 n^{5/6} n 5/6 또는 n 4 / 5 n^{4/5} n 4/5 에서 n 1 / 2 n^{1/2} n 1/2 로 개선최적 ε \varepsilon ε 의존성 : ε − 3 / 2 \varepsilon^{-3/2} ε − 3/2 의 최적 율 달성통합 프레임워크 : 볼록 및 비볼록 경우를 동시에 처리Nesterov & Polyak (2006): 결정론적 CRN 방법 다양한 확률적 변형: SCRN 방법의 발전 과정 SARAH 방법: 재귀적 분산 감소의 기초 SPIDER 등의 방법: 경로 적분 차분 추정기 강볼록 함수상의 분산 감소 뉴턴 방법 적용 정책 최적화에서의 VR-CN 적용 이론적 돌파 : 비볼록 유한합 최적화에서 처음으로 n + O ~ ( n 1 / 2 ε − 3 / 2 ) n + \tilde{O}(n^{1/2}\varepsilon^{-3/2}) n + O ~ ( n 1/2 ε − 3/2 ) 의 오라클 복잡도 달성기술적 혁신 : EMA-SARAH 결합이 더욱 안정적인 분산 감소를 제공한다실용성 : Hutchinson 추정기가 고차원 문제에 방법을 적용 가능하게 한다이론적 가정 : 헤시안 립시츠 연속성 및 유계성 가정이 필요하다매개변수 조정 : 여러 초매개변수의 적절한 선택이 필요하다실험 검증 : 주로 이론 분석을 제공하며, 대규모 경험적 검증이 부족하다적응형 매개변수 선택 : EMA 가중치 및 정규화 매개변수를 적응형으로 선택하는 방법 개발더 약한 가정 : 헤시안 성질에 대한 가정 완화실제 응용 : 심층학습 등 실제 문제에서 방법 효과 검증이론적 엄밀성 : 완전한 수렴성 분석 및 복잡도 경계 제공기술적 혁신 : EMA와 SARAH의 결합은 새로운 기술적 기여이다실용적 고려 : Hutchinson 추정기 및 빠른 내부 해결기가 실용성을 높인다통합 프레임워크 : 볼록 및 비볼록 경우를 동시에 처리한다실험 부재 : 기존 방법과의 경험적 비교 부족가정 제한 : 일부 가정이 실제 문제에서 만족되지 않을 수 있다상수 의존성 : 이론적 경계의 상수가 클 수 있다이론적 기여 : 확률적 2차 최적화 이론에서 중요한 진전방법론적 가치 : EMA-SARAH 기법이 다른 알고리즘 설계에 영감을 줄 수 있다실용적 잠재력 : 대규모 비볼록 최적화를 위한 새로운 도구 제공대규모 기계학습 : 특히 안장점 탈출이 필요한 비볼록 문제심층학습 : 신경망 훈련에서의 2차 최적화과학 계산 : 고정밀 해가 필요한 최적화 문제논문은 3차 정규화 방법, 분산 감소 기법, 확률적 2차 최적화의 주요 연구를 포함하는 15개의 관련 문헌을 인용하며, 본 연구에 견고한 이론적 기초를 제공한다.
종합 평가 : 이는 확률적 2차 최적화 분야에서 중요한 이론적 기여를 하는 논문이다. EMA와 SARAH 기법을 교묘하게 결합하여 현재 최고의 오라클 복잡도 경계를 달성했다. 실험 검증이 부족하지만, 이론 분석이 엄밀하고 기술적 혁신이 명확하며, 해당 분야의 발전에 중요한 추진력을 제공한다.