2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos

We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.

academic

Metodi di Gradiente Precondizionati Nonlinearmente: Analisi di Momentum e Stocastica

Informazioni Fondamentali

ID Articolo: 2510.11312
Titolo: Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
Autori: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
Classificazione: math.OC (Ottimizzazione e Controllo)
Conferenza di Pubblicazione: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
Link Articolo: https://arxiv.org/abs/2510.11312

Riassunto

Questo articolo esamina metodi di gradiente precondizionati nonlinearmente per problemi di ottimizzazione non convessa liscia, con particolare attenzione ai precondizionatori sigmoidali che essenzialmente implementano la tecnica di clipping del gradiente ampiamente utilizzata. Basandosi su questa idea, gli autori introducono un nuovo algoritmo di tipo heavy-ball e forniscono garanzie di convergenza sotto condizioni di levigatezza generalizzate più deboli dei vincoli di levigatezza Lipschitz tradizionali, coprendo così una classe di funzioni più ampia. Inoltre, gli autori sviluppano varianti stocastiche del metodo di base e studiano le loro proprietà di convergenza sotto diverse ipotesi di rumore.

Contesto di Ricerca e Motivazione

Problema da Risolvere: I metodi tradizionali di discesa del gradiente (GD) e discesa del gradiente stocastico (SGD) richiedono una sintonizzazione attenta dei parametri o strategie di ricerca lineare costose quando applicati a problemi moderni di apprendimento automatico che non soddisfano l'ipotesi globale di gradiente Lipschitz.
Importanza del Problema: La maggior parte delle funzioni di costo nelle applicazioni di deep learning moderne non soddisfa l'ipotesi tradizionale di gradiente Lipschitz, e le tecniche di clipping del gradiente sono diventate una pratica standard in compiti come i modelli linguistici per stabilizzare l'addestramento delle reti neurali.
Limitazioni dei Metodi Esistenti:
- I metodi GD/SGD standard convergono con difficoltà quando affrontano problemi che vanno oltre la levigatezza Lipschitz
- L'analisi teorica dei metodi di clipping del gradiente esistenti è principalmente limitata a condizioni di levigatezza specifiche
- Manca un'analisi dei metodi di momentum in impostazioni più generali
Motivazione della Ricerca: Unificare i metodi di clipping del gradiente all'interno di un framework di precondiziamento nonlineare ed estendere a un'analisi teorica più generale che includa varianti di momentum e stocastiche.

Contributi Principali

Estensione dei Metodi di Discesa Anisotropa: Studio delle garanzie di convergenza attraverso l'incorporazione del momentum heavy-ball nelle iterazioni di base in impostazioni non convesse generali.
Proposizione di Estensioni Stocastiche: Analisi della versione stocastica del metodo di base sotto diverse ipotesi di rumore, incluse condizioni più deboli della varianza limitata.
Contributi all'Analisi Teorica:
- Prova della convergenza dell'algoritmo di momentum sotto disuguaglianze di discesa anisotropa
- Prova di tassi di convergenza lineare sotto condizioni PL generalizzate
- Analisi di metodi stocastici sotto nuove ipotesi di rumore
Verifica Sperimentale: Dimostrazione delle buone prestazioni del metodo proposto su vari compiti di apprendimento automatico, inclusi l'addestramento di reti neurali e la fattorizzazione di matrici.

Spiegazione Dettagliata del Metodo

Definizione del Compito

Considerare il problema di minimizzazione generale: $\min_{x \in \mathbb{R}^n} f(x)$ dove $f: \mathbb{R}^n \to \mathbb{R}$ è una funzione liscia e potenzialmente non convessa.

Framework Principale: Metodi di Gradiente Precondizionati Nonlinearmente

Metodo di Base: $x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))$

dove $\phi: \mathbb{R}^n \to \mathbb{R}$ è una funzione di riferimento convessa, $\phi^*$ è il suo coniugato convesso, e $\nabla \phi^*$ genera il precondizionatore.

Idea Chiave: Selezionando una funzione di riferimento $\phi$ fortemente convessa con dominio limitato, la mappa $\nabla \phi^*$ trasforma $\mathbb{R}^n$ nella sfera unitaria $n$ -dimensionale, implementando naturalmente il clipping del gradiente.

Algoritmo 1: Metodo di Gradiente Precondizionato Nonlinearmente con Momentum (m-NPGM)

Input: Scegliere x⁰ ∈ ℝⁿ, γ, β > 0, impostare m⁻¹ = 0ⁿ
Ripetere k = 0, 1, ... fino a convergenza:
1. Calcolare mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Calcolare xᵏ⁺¹ = xᵏ - γmᵏ

Forma Equivalente: $x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})$

Disuguaglianza di Discesa Anisotropa

Definizione: Una funzione $f$ soddisfa la proprietà di discesa anisotropa rispetto a $\phi$ se per tutti $x, \bar{x} \in \mathbb{R}^n$ : $f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y})$ dove $\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))$ .

Punti di Innovazione Tecnica

Design del Momentum: A differenza dei metodi standard, il momentum in questo articolo è costituito da una combinazione convessa di gradienti precondizionati, piuttosto che aggregare prima i gradienti e poi precondizionare.
Levigatezza Generalizzata: La levigatezza anisotropa impone meno restrizioni rispetto alla levigatezza $(L_0, L_1)$ , coprendo una classe di funzioni più ampia.
Framework di Analisi Unificato: Fornisce un'analisi di convergenza unificata basata sulla convessità della funzione di riferimento $\phi$ .

Risultati Teorici

Teoremi di Convergenza Principale

Teorema 2.2: Sotto condizioni di levigatezza anisotropa, per $\beta \in [0, 0.5)$ e $\gamma = \alpha/L$ , $\alpha \leq 1$ : $\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}$

Teorema 2.4: Sotto condizioni PL generalizzate, per funzioni di riferimento omogenee di grado 2: $f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*)$ dove $\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}$ .

Analisi del Metodo Stocastico

Teorema 3.1: Sotto la condizione di rumore $\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2$ : $\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2$

Configurazione Sperimentale

Dataset

MNIST: Classificazione di cifre scritte a mano, utilizzando una rete completamente connessa a due strati
CIFAR-10/100: Classificazione di immagini, utilizzando architetture ResNet-18/34
MovieLens 100K: Problema di fattorizzazione di matrici
Recupero di Fase: Problema di ottimizzazione non convessa

Metriche di Valutazione

Velocità di convergenza della perdita di addestramento
Accuratezza di test
Norma del gradiente $\|\nabla f(x^k)\|$

Metodi di Confronto

SGD/SGDm: Discesa del gradiente stocastico standard e sua versione con momentum
Adam: Metodo con tasso di apprendimento adattivo
GD/GDm: Discesa del gradiente standard e sua versione con momentum
AdGD-accel: Variante accelerata di metodi di gradiente adattivo

Dettagli di Implementazione

Utilizzo di lunghezze di passo fisse
Discesa del Gradiente Iperbolica (HGD): $\phi(x) = \cosh(\|x\|) - 1$
Versione Separabile: $\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1$

Risultati Sperimentali

Risultati Principali

Classificazione MNIST: iHGD raggiunge rapidamente una piccola perdita di addestramento, con prestazioni superiori a SGD e Adam
Classificazione CIFAR-10: Il metodo proposto ha prestazioni comparabili a SGD e SGDm, quest'ultimo essendo lo stato dell'arte per questo problema
Fattorizzazione di Matrici: iHGDm supera significativamente gli altri metodi, mostrando maggiore stabilità su diverse inizializzazioni casuali
Recupero di Fase: sHGD ha prestazioni simili ai metodi di clipping del gradiente

Scoperte Chiave

Lunghezza di Passo Adattiva: Per funzioni di riferimento con tasso di crescita superiore al quadratico, il precondizionatore forma naturalmente una forma sigmoidale, fornendo una regola di lunghezza di passo adattiva implicita
Stabilità: Su problemi non convessi come la fattorizzazione di matrici, il metodo proposto mostra una stabilità migliore
Applicabilità Generale: Il metodo funziona bene su diversi tipi di compiti di apprendimento automatico

Lavori Correlati

Precondiziamento Duale/Discesa del Gradiente Anisotropa

Inizialmente introdotto in 32 per problemi essenzialmente lisci convessi
Disuguaglianza di discesa anisotropa introdotta in 24
Mostrato in 36 che il metodo include molti algoritmi popolari

Clipping del Gradiente e Levigatezza Generalizzata

Concetto di levigatezza $(L_0, L_1)$ introdotto in 48
Analisi di framework di clipping generale con momentum in 47
Numerosi lavori dedicati allo studio di tali metodi sotto ipotesi di rumore e levigatezza rilassate

Conclusioni e Discussione

Conclusioni Principali

Estensione riuscita dei metodi di discesa anisotropa per includere momentum heavy-ball
Fornitura di garanzie di convergenza sotto condizioni più deboli della levigatezza Lipschitz tradizionale
Sviluppo di versioni stocastiche e analisi sotto nuove ipotesi di rumore
Verifica sperimentale dell'efficacia del metodo su vari compiti di apprendimento automatico

Limitazioni

Restrizione del parametro di momentum a $\beta \in [0, 0.5)$ , impossibilità di estendere a $\beta \in [0, 1)$
L'ipotesi di continuità Lipschitz del precondizionatore è più ristretta della levigatezza anisotropa
Mancanza di analisi completa del metodo di momentum stocastico

Direzioni Future

Analisi unificata di algoritmi di momentum sotto ipotesi di funzione di riferimento rilassate
Estensione a parametri di momentum arbitrari $\beta \in [0, 1)$
Estensione di algoritmi di tipo gradiente prossimale completo per includere momentum
Rimozione della dipendenza dalla dimensione del batch per algoritmi stocastici e inclusione di momentum

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: Fornisce la prima analisi di metodi di momentum sotto condizioni di levigatezza anisotropa
Framework Unificato: Unifica metodi come il clipping del gradiente all'interno di un framework di precondiziamento nonlineare
Valore Pratico: Il metodo funziona bene su compiti di apprendimento automatico reali
Profondità di Analisi: Fornisce un'analisi teorica completa in impostazioni deterministiche e stocastiche

Carenze

Restrizioni sui Parametri: La limitazione del parametro di momentum ( $\beta < 0.5$ ) è più ristretta rispetto all'analisi standard
Forza delle Ipotesi: Alcuni risultati teorici richiedono ipotesi tecniche aggiuntive
Portata Sperimentale: Gli esperimenti si concentrano principalmente su compiti standard di apprendimento automatico, mancando di una verifica di applicazione più ampia

Impatto

Contributo Teorico: Fornisce nuovi strumenti e intuizioni per l'analisi teorica di metodi precondizionati nonlinearmente
Valore Pratico: Fornisce nuovi metodi per affrontare problemi di ottimizzazione che vanno oltre le ipotesi di levigatezza standard
Riproducibilità: Gli autori forniscono implementazioni di codice pubblicamente disponibili

Scenari di Applicazione

Addestramento di reti neurali, in particolare in scenari dove i gradienti possono essere molto grandi
Problemi di ottimizzazione non convessa, come la fattorizzazione di matrici
Applicazioni che richiedono clipping o normalizzazione del gradiente
Problemi di ottimizzazione che vanno oltre la levigatezza Lipschitz standard

Bibliografia

L'articolo contiene 48 riferimenti bibliografici che coprono lavori importanti nei campi della teoria dell'ottimizzazione, dell'apprendimento automatico e dei metodi numerici, fornendo una base teorica solida per la ricerca.