Re$^3$MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Pasechnyuk-Vilensky, Kamzolov, TakáÄ
We analyze a stochastic cubic regularized Newton method for finite sum optimization $\textstyle\min_{x\in\mathbb{R}^d} F(x) \;=\; \frac{1}{n}\sum_{i=1}^n f_i(x)$, that uses SARAH-type recursive variance reduction with mini-batches of size $b\sim n^{1/2}$ and exponential moving averages (EMA) for gradient and Hessian estimators. We show that the method achieves a $(\varepsilon,\sqrt{L_2\varepsilon})$-second-order stationary point (SOSP) with total stochastic oracle calls $n + \widetilde{\mathcal{O}}(n^{1/2}\varepsilon^{-3/2})$ in the nonconvex case (Theorem 8.3) and convergence rate $\widetilde{\mathcal{O}}(\frac{L R^3}{T^2} + \frac{Ï_2 R^2}{T^2} + \frac{Ï_1 R}{\sqrt{T}})$ in the convex case (Theorem 6.1). We also treat the matrix-free variant based on Hutchinson's estimator for Hessian and present a fast inner solver for the cubic subproblem with provable attainment of the required inexactness level.
academic
Re³MCN: Cubic Newton + Variance Reduction + Momentum + Quadratic Regularization for Finite-sum Non-convex Problems
Questo articolo propone un metodo di regolarizzazione cubica di Newton stocastico per problemi di ottimizzazione a somma finita minx∈RdF(x)=n1∑i=1nfi(x). Il metodo utilizza la tecnica di riduzione della varianza ricorsiva di tipo SARAH, combinata con mini-batch di dimensione b∼n1/2 e media mobile esponenziale (EMA) per stimare il gradiente e la matrice Hessiana. Lo studio dimostra che il metodo raggiunge un punto stazionario del secondo ordine (ε,L2ε) (SOSP) nel caso non-convesso con n+O~(n1/2ε−3/2) chiamate all'oracolo stocastico, e nel caso convesso raggiunge il tasso di convergenza O~(T2LR3+T2σ2R2+Tσ1R).
La ricerca di punti stazionari del secondo ordine nell'ottimizzazione non-convessa dell'apprendimento automatico rappresenta una sfida fondamentale. L'addestramento di reti neurali profonde, la fattorizzazione tensoriale e l'inferenza bayesiana coinvolgono tipicamente funzioni obiettivo in cui i metodi del primo ordine possono rimanere bloccati nei punti di sella.
Fuga dai Punti di Sella: I metodi del secondo ordine sfruttano l'informazione di curvatura per fornire un percorso potenziale per sfuggire ai punti di sella
Collo di Bottiglia Computazionale: Il costo computazionale della gestione della matrice Hessiana esatta è proibitivo, in particolare per problemi di minimizzazione del rischio empirico su larga scala, con complessità O(nd2)
Garanzie Teoriche: Il metodo di regolarizzazione cubica di Newton (CRN) fornisce garanzie di convergenza forti per sfuggire ai punti di sella sulla traiettoria di ottimizzazione
Integrare tecniche di riduzione della varianza con aggiornamenti del secondo ordine per sviluppare algoritmi che forniscono sia garanzie teoriche che efficienza pratica, in particolare in scenari ad alta dimensionalità per evitare il collo di bottiglia O(d2).
Progettazione dell'Algoritmo: Propone l'algoritmo Re³MCN, che combina stimatori EMA-SARAH per il gradiente e l'Hessiana, insieme a un risolutore di sottoproblemi matrix-free basato su stimatori di Hutchinson
Garanzie Teoriche: Dimostra che Re³MCN nel caso non-convesso raggiunge un punto stazionario del secondo ordine (ε,Lε)-SOSP con complessità dell'oracolo O~(n+n1/2ε−3/2), e nel caso convesso raggiunge il tasso di convergenza O~(T2LR3+T2σ2R2+Tσ1R)
Efficienza Pratica: La progettazione dell'algoritmo è adatta a problemi ad alta dimensionalità, evitando il collo di bottiglia O(d2) attraverso risolutori di sottoproblemi matrix-free
Implementabilità: Conduce esperimenti numerici confrontando i metodi cubici di Newton con riduzione della varianza esistenti, implementato come parte del pacchetto OPTAMI
Combinazione EMA-SARAH: Per la prima volta combina la media mobile esponenziale con la tecnica di riduzione della varianza SARAH, realizzando stime più stabili
Regolarizzazione Quadratica Adattiva:
Caso convesso: βt=2max{bC4σ2,C5L2R}(t+1)
Caso non-convesso: Introduce un termine quadratico prossimale fisso per migliorare l'aggregazione del rumore
Implementazione Matrix-Free: Realizza il prodotto Hessiana-vettore basato su stimatori di Hutchinson, evitando l'archiviazione esplicita della matrice Hessiana
Limite di Discesa a Un Passo:
E[F(xt+1)−F(xt)∣Gt]≤−8L2E[∥st∥3]+32M−1/2E[∥ϵt∥3/2]+M−1/2E[∥Σt∥op3/2]
Disuguaglianza Principale: Attraverso l'aggregazione dei termini di varianza utilizzando la disuguaglianza BDG, si ottiene:
8L2E[ST]≤ΔF+b3/4C∗T9/8E[ST1/6]
Teorema 8.3 (Complessità Non-Convessa):
Sotto le assunzioni (A1)-(A5), l'algoritmo Re³MCN restituisce un punto stazionario del secondo ordine (ε,L2ε)-SOSP con complessità totale dell'oracolo:
G=H≤n+O~(n1/2ε−3/2)
Teorema 6.1 (Tasso di Convergenza Convesso):
Assumendo che F sia una funzione convessa, l'algoritmo raggiunge il tasso di convergenza:
E[F(xT)−F∗]≤(T+1)2C1L2R3+Cββ0R2+T+1C3σ1R
L'articolo cita 15 lavori correlati, coprendo i principali lavori sui metodi di regolarizzazione cubica, tecniche di riduzione della varianza e ottimizzazione stocastica del secondo ordine, fornendo una base teorica solida per questa ricerca.
Valutazione Complessiva: Questo è un articolo con importanti contributi teorici nel campo dell'ottimizzazione stocastica del secondo ordine. Attraverso la combinazione ingegnosa di tecniche EMA e SARAH, realizza i migliori limiti di complessità dell'oracolo attualmente disponibili. Sebbene manchi di verifica sperimentale, l'analisi teorica è rigorosa, l'innovazione tecnica è evidente e il lavoro ha un impatto significativo sullo sviluppo di questo campo.