2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels

Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.

academic

Convergenza degli ottimizzatori implica filtraggio degli autovalori all'equilibrio

Informazioni Fondamentali

ID Articolo: 2510.09034
Titolo: Convergenza degli ottimizzatori implica filtraggio degli autovalori all'equilibrio
Autori: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
Classificazione: cs.LG math.DS math.OC
Data di Pubblicazione: 13 ottobre 2025
Link Articolo: https://arxiv.org/abs/2510.09034

Riassunto

Numerose evidenze empiriche dall'addestramento di reti neurali profonde suggeriscono che vari ottimizzatori tendono a trovare soluzioni prossime all'ottimo globale. Questo articolo adotta una prospettiva inversa, assumendo la convergenza a un punto arbitrario piuttosto che provarne la convergenza, concentrandosi sulle conseguenze di tale ipotesi. Da questo punto di vista, combinato con i recenti progressi nel fenomeno della stabilità marginale, gli autori sostengono che diversi ottimizzatori agiscono effettivamente come filtri di autovalori determinati dai loro iperparametri. Specificamente, i metodi di discesa del gradiente standard evitano intrinsecamente i minimi più acuti, mentre l'algoritmo di minimizzazione consapevole della nitidezza (SAM) favorisce attivamente bacini più ampi. Basandosi su questi insegnamenti, gli autori propongono due nuovi algoritmi che mostrano capacità di filtraggio degli autovalori migliorate, promuovendo efficacemente minimi più ampi. L'analisi teorica utilizza il teorema generalizzato della varietà stabile di Hadamard-Perron, applicabile a funzioni semialgebriche generali $C^2$ , senza necessità di condizioni di non degenerazione aggiuntive o ipotesi di limitatezza Lipschitz globale.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questa ricerca è comprendere il comportamento di convergenza degli algoritmi di ottimizzazione nell'apprendimento profondo, in particolare come selezionano minimi specifici nel complesso paesaggio della funzione di perdita. La ricerca tradizionale si concentra sulla dimostrazione della convergenza, mentre questo articolo adotta una prospettiva "inversa": assumendo che la convergenza sia già avvenuta, analizza come questa convergenza vincola le proprietà geometriche del punto raggiunto (in particolare gli autovalori dell'Hessiano).

Importanza

Collegamento tra Stabilità e Generalizzazione: L'addestramento stabile è correlato a bacini di attrazione ampi e minimi piatti, caratteristiche strettamente correlate alle prestazioni di generalizzazione
Fenomeno di Stabilità Marginale: Le osservazioni empiriche suggeriscono che l'addestramento standard opera tipicamente vicino al confine di stabilità
Significato Pratico: Comprendere le preferenze implicite degli ottimizzatori aiuta a progettare algoritmi di addestramento migliori

Limitazioni dei Metodi Esistenti

Le teorie esistenti richiedono tipicamente condizioni rigorose (come limitatezza Lipschitz globale, condizioni di non degenerazione)
Manca un quadro unificato per comprendere il comportamento di filtraggio degli autovalori di diversi ottimizzatori
La comprensione teorica degli algoritmi di tipo SAM è limitata

Motivazione della Ricerca

Nel corso dell'ultimo decennio, l'addestramento riuscito nel deep learning è diventato quasi norma nella pratica, il che ha spinto la prospettiva di ricerca da "quando converge" a "perché converge con successo e come gli iperparametri lo rendono possibile".

Contributi Principali

Quadro Teorico Unificato: Propone un quadro di analisi unificato basato sul teorema generalizzato della varietà stabile di Hadamard-Perron, applicabile a un'ampia categoria di algoritmi di ottimizzazione
Teoria del Filtraggio degli Autovalori: Dimostra che gli ottimizzatori che convergono con successo impongono necessariamente vincoli agli autovalori dell'Hessiano del punto raggiunto, formando un effetto di "filtraggio degli autovalori"
Analisi Algoritmica: Analizza sistematicamente le proprietà di filtraggio degli autovalori della discesa del gradiente, metodo della palla pesante, gradiente accelerato di Nesterov e USAM
Proposizione di Nuovi Algoritmi: Progetta due nuovi algoritmi, Two-step USAM e Hessian USAM, che mostrano capacità di filtraggio degli autovalori più forti
Estensione Teorica: Estende i risultati esistenti a classi di funzioni semialgebriche più generali, rimuovendo ipotesi di non degenerazione astratte

Dettagli del Metodo

Definizione del Compito

Considerare un algoritmo di ottimizzazione iterativo di forma generale: $x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots$

dove:

$D \in \mathbb{R}^{m \times m}$ è una matrice invertibile
$g: \mathbb{R}^m \to \mathbb{R}^m$ è una mappa semialgebrica continuamente differenziabile $C^1$
$\alpha > 0$ è il parametro di passo

Risultati Teorici Principali

Teorema Principale (Filtraggio degli Autovalori)

Teorema 1.1: Sia $D \in \mathbb{R}^{m \times m}$ una matrice invertibile, $g: \mathbb{R}^m \to \mathbb{R}^m$ una mappa semialgebrica $C^1$ . Per quasi tutti $x_0 \in \mathbb{R}^m$ e $\alpha > 0$ , se la sequenza $(x_k)_{k \in \mathbb{N}}$ converge a un punto $\bar{x}$ , allora il raggio spettrale dello Jacobiano di $D - \alpha g$ in $\bar{x}$ è al massimo 1: $\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1$

Estensione del Teorema della Varietà Stabile

Teorema 2.1: Esiste $\Lambda \subset \mathbb{R}_+$ il cui complemento è un insieme finito, tale che per ogni $\alpha \in \Lambda$ , l'insieme $W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ tale che } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\}$ è contenuto in un'unione numerabile di sottovarietà $C^1$ di dimensione al massimo $m-1$ .

Punti di Innovazione Tecnica

Ipotesi Semialgebrica: Utilizza la classe di funzioni semialgebriche come condizione sufficiente, includendo quasi tutte le funzioni comuni nell'apprendimento profondo
Assenza di Condizioni Globali: Non richiede limitatezza Lipschitz globale o ipotesi di non degenerazione
Quadro di Analisi Unificato: Attraverso la forma matriciale unificata $D$ e la mappa $g$ , copre molteplici algoritmi di ottimizzazione

Analisi di Algoritmi Specifici

Discesa del Gradiente

Proposizione 3.1: Per la discesa del gradiente $x_{k+1} = x_k - \alpha \nabla f(x_k)$ , se converge a $\bar{x}$ , allora tutti gli autovalori $\lambda$ di $\nabla^2f(\bar{x})$ soddisfano: $0 \leq \lambda \leq \frac{2}{\alpha}$

Metodo della Palla Pesante

Proposizione 3.2: Per il metodo della palla pesante, il vincolo degli autovalori è: $0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}$

Algoritmo USAM

Proposizione 3.4: Per l'algoritmo USAM $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k))$ , l'autovalore $\lambda$ soddisfa: $0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}$

Equivalentemente: $0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}$

Progettazione di Nuovi Algoritmi

Two-step USAM

Regola di aggiornamento: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))$

Vincolo degli autovalori: $0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}$

Hessian USAM

Regola di aggiornamento: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))$

Vincolo degli autovalori: $0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}$

Configurazione Sperimentale

Dataset

MNIST + MLP: Dimensioni strati nascosti {128, 64, 10, 10}, attivazione ReLU, perdita di entropia incrociata
Fashion-MNIST + MLP: Stessa configurazione di cui sopra
CIFAR10 + WideResNet-16-8: Architettura WideResNet senza strati di normalizzazione batch

Configurazione Esperimenti

Dimensione batch: 128
Tasso di apprendimento: $\alpha = 0.01$
Decadimento dei pesi: $5 \times 10^{-4}$
Momento: $\beta \in \{0, 0.9\}$
Parametro SAM: $\rho$ selezionato tramite ricerca in griglia

Metriche di Valutazione

Accuratezza di test
Primi tre autovalori massimi della matrice Hessiana

Risultati Sperimentali

Scoperte Principali

Verifica del Filtraggio degli Autovalori: I risultati sperimentali sono altamente coerenti con le previsioni teoriche; USAM, Two-step USAM e Hessian USAM trovano effettivamente minimi più piatti
Confronto Algoritmi:
- Discesa del gradiente standard: prestazioni di base
- USAM: riduzione significativa degli autovalori dell'Hessiano
- Two-step USAM: ulteriore miglioramento del filtraggio degli autovalori
- Hessian USAM: effetti di miglioramento simili
Dipendenza dall'Architettura:
- Architettura MLP: previsioni teoriche altamente coerenti con risultati sperimentali
- WideResNet: differenze minori, probabilmente dovute alla maggiore difficoltà di addestramento

Osservazioni Sperimentali

Requisiti di Stabilità: Two-step USAM e Hessian USAM richiedono valori di $\rho$ più piccoli per evitare fallimenti di addestramento, in accordo con i vincoli di curvatura più rigorosi previsti dalla teoria
Effetto della Normalizzazione Batch: Nelle architetture che utilizzano normalizzazione batch, l'effetto di appiattimento degli algoritmi di tipo SAM non è evidente, il che non contraddice la teoria, poiché la normalizzazione batch modifica la dinamica dell'algoritmo

Lavori Correlati

Teorema della Varietà Stabile

Risultati classici di Hadamard (1901), Perron (1929)
Applicazioni nell'ottimizzazione moderna: Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

Fenomeno di Stabilità Marginale

Cohen et al. (2021, 2022): stabilità marginale della discesa del gradiente e metodi adattivi
Andreyev & Beneventano (2024): estensione ad algoritmi stocastici

Minimizzazione Consapevole della Nitidezza

Foret et al. (2021): algoritmo SAM originale
Andriushchenko & Flammarion (2022): varianti USAM
Analisi teoriche successive: Zhou et al. (2025), Marion & Chizat (2024)

Conclusioni e Discussione

Conclusioni Principali

Prospettiva Unificata: L'addestramento degli ottimizzatori di successo è essenzialmente un processo di filtraggio degli autovalori, con diversi algoritmi che realizzano diversi gradi di filtraggio attraverso iperparametri
Estensione Teorica: Il teorema della varietà stabile generalizzato fornisce uno strumento teorico potente per comprendere gli algoritmi di ottimizzazione
Guida Pratica: I risultati teorici forniscono una guida di principio per la progettazione di nuovi algoritmi di ottimizzazione

Limitazioni

Ipotesi Semialgebrica: Sebbene copra un'ampia gamma, presenta ancora limitazioni
Costo Computazionale dei Nuovi Algoritmi: Two-step USAM e Hessian USAM hanno costi di iterazione singola più elevati
Compatibilità con Normalizzazione Batch: Il quadro teorico non copre ancora le operazioni di normalizzazione batch

Direzioni Future

Estensione a Classi di Funzioni Più Generali: Esplorare estensioni teoriche senza ipotesi semialgebrica
Teoria della Normalizzazione Batch: Estendere il quadro teorico ad architetture che includono normalizzazione batch
Ottimizzazione di Algoritmi Pratici: Ridurre il costo computazionale dei nuovi algoritmi mantenendo i vantaggi teorici

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: Fornisce una prospettiva completamente nuova per comprendere gli algoritmi di ottimizzazione, passando dalla "dimostrazione della convergenza" all'"analisi delle conseguenze della convergenza"
Quadro Unificato: Fornisce per la prima volta un quadro teorico unificato per analizzare il comportamento di filtraggio degli autovalori di molteplici algoritmi di ottimizzazione
Valore Pratico: I risultati teorici guidano direttamente la progettazione di nuovi algoritmi, verificati sperimentalmente
Rigore Tecnico: Le derivazioni matematiche sono rigorose, le ipotesi sono chiare e ragionevoli

Carenze

Scala Sperimentale Limitata: Gli esperimenti si concentrano principalmente su architetture e dataset relativamente semplici, con verifica sperimentale su larga scala insufficiente
Valutazione dei Nuovi Algoritmi: La valutazione completa delle prestazioni di Two-step USAM e Hessian USAM (inclusa la capacità di generalizzazione) richiede ancora più lavoro
Gap Teorico: Esiste un certo divario tra le prestazioni effettive dell'algoritmo SAM e le previsioni teoriche (come il problema dei punti di sella stretti)

Impatto

Contributo Teorico: Fornisce nuovi strumenti e prospettive di analisi per la teoria dell'ottimizzazione
Valore Pratico: Fornisce una guida di principio per la progettazione di algoritmi di ottimizzazione
Significato Interdisciplinare: Collega la teoria dei sistemi dinamici con la pratica dell'apprendimento automatico

Scenari Applicabili

Ottimizzazione dell'Apprendimento Profondo: Particolarmente adatto per comprendere e migliorare gli algoritmi di addestramento delle reti neurali
Ottimizzazione Non Convessa: Fornisce nuovi strumenti di analisi per problemi di ottimizzazione non convessa generale
Progettazione di Algoritmi: Guida la progettazione e l'analisi di nuovi algoritmi di ottimizzazione

Bibliografia

Questo articolo cita un gran numero di lavori correlati, principalmente includenti:

Letteratura classica della teoria dei sistemi dinamici
Progressi moderni nella teoria dell'ottimizzazione
Ricerca su stabilità e generalizzazione nell'apprendimento profondo
Lavori correlati alla minimizzazione consapevole della nitidezza
Ricerca teorica e sperimentale sul fenomeno di stabilità marginale

Valutazione Complessiva: Questo è un articolo eccellente che combina profondità teorica e valore pratico, fornendo nuovi strumenti teorici per comprendere i fenomeni di ottimizzazione nell'apprendimento profondo e dimostrando il successo della teoria nel guidare la progettazione di algoritmi. Sebbene vi sia spazio per miglioramenti nella verifica sperimentale su larga scala, il suo contributo teorico e la prospettiva innovativa lo rendono un importante progresso nel campo della teoria dell'ottimizzazione.