Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Pasechnyuk-Vilensky, Kamzolov, TakáÄ
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic
Re³MCN: Kubischer Newton + Varianzreduktion + Momentum + Quadratische Regularisierung für endliche Summen Nicht-konvexer Probleme
Dieses Papier präsentiert eine stochastische kubisch regularisierte Newton-Methode für endliche Summen Optimierungsprobleme minx∈RdF(x)=n1∑i=1nfi(x). Die Methode nutzt SARAH-artige rekursive Varianzreduktionstechniken, kombiniert mit kleinen Batches der Größe b∼n1/2 und exponentiell gewichteten Durchschnitten (EMA) zur Schätzung von Gradienten und Hessian-Matrizen. Die Forschung zeigt, dass die Methode im nicht-konvexen Fall (ε,L2ε)-Punkte zweiter Ordnung Stationarität (SOSP) mit n+O~(n1/2ε−3/2) stochastischen Orakelaufrufen erreicht, während sie im konvexen Fall eine Konvergenzrate von O~(T2LR3+T2σ2R2+Tσ1R) erzielt.
Die Suche nach Punkten zweiter Ordnung Stationarität in nicht-konvexer Optimierung für maschinelles Lernen stellt eine zentrale Herausforderung dar. Probleme wie das Training tiefer neuronaler Netze, Tensorzerlegung und Bayessche Inferenz beinhalten typischerweise Zielfunktionen, bei denen Methoden erster Ordnung an Sattelpunkten stagnieren können.
Sattelpunkt-Flucht: Methoden zweiter Ordnung nutzen Krümmungsinformationen, um potenzielle Wege zur Flucht aus Sattelpunkten bereitzustellen
Rechnerische Engpässe: Die Verarbeitung exakter Hessian-Matrizen ist rechnerisch zu kostspielig, besonders für großskalige empirische Risikominimierungsprobleme mit Komplexität O(nd2)
Theoretische Garantien: Die kubisch regularisierte Newton-Methode (CRN) bietet starke Konvergenzgarantien für die Flucht aus Sattelpunkten auf der Optimierungsbahn
Integration von Varianzreduktionstechniken mit Aktualisierungen zweiter Ordnung zur Entwicklung von Algorithmen mit theoretischen Garantien und praktischer Effizienz, besonders in hochdimensionalen Szenarien zur Vermeidung des O(d2) Engpasses.
Algorithmusdesign: Präsentation des Re³MCN-Algorithmus, der EMA-SARAH-Schätzer für Gradienten und Hessian kombiniert, sowie einen matrixfreien Unterproblem-Löser basierend auf Hutchinson-Schätzern
Theoretische Garantien: Beweis, dass Re³MCN im nicht-konvexen Fall (ε,Lε)-SOSP mit Orakelkomplexität O~(n+n1/2ε−3/2) findet, im konvexen Fall Konvergenzrate O~(T2LR3+T2σ2R2+Tσ1R) erreicht
Implementierbarkeit: Numerische Experimente vergleichen bestehende Varianzreduktions-Kubische-Newton-Methoden, implementiert als Teil des OPTAMI-Pakets
Satz 8.3 (Nicht-konvexe Komplexität):
Unter Annahmen (A1)-(A5) gibt der Re³MCN-Algorithmus (ε,L2ε)-SOSP zurück mit Gesamtorakelkomplexität:
G=H≤n+O~(n1/2ε−3/2)
Satz 6.1 (Konvexe Konvergenzrate):
Angenommen F ist konvex, der Algorithmus erreicht Konvergenzrate:
E[F(xT)−F∗]≤(T+1)2C1L2R3+Cββ0R2+T+1C3σ1R
Das Papier zitiert 15 relevante Arbeiten, die die Hauptarbeiten in kubisch regularisierten Methoden, Varianzreduktionstechniken und stochastischer Optimierung zweiter Ordnung abdecken und eine solide theoretische Grundlage für diese Forschung bieten.
Gesamtbewertung: Dies ist ein Papier mit wichtigen theoretischen Beiträgen im Bereich der stochastischen Optimierung zweiter Ordnung. Durch geschickte Kombination von EMA und SARAH-Techniken werden derzeit beste Orakelkomplexitätsgrenzen erreicht. Obwohl experimentelle Verifikation fehlt, ist die theoretische Analyse streng, technische Innovation deutlich, und es hat wichtige Auswirkungen auf die Entwicklung dieses Feldes.