2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic

Convergenza degli ottimizzatori implica filtraggio degli autovalori all'equilibrio

Informazioni Fondamentali

  • ID Articolo: 2510.09034
  • Titolo: Convergenza degli ottimizzatori implica filtraggio degli autovalori all'equilibrio
  • Autori: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
  • Classificazione: cs.LG math.DS math.OC
  • Data di Pubblicazione: 13 ottobre 2025
  • Link Articolo: https://arxiv.org/abs/2510.09034

Riassunto

Numerose evidenze empiriche dall'addestramento di reti neurali profonde suggeriscono che vari ottimizzatori tendono a trovare soluzioni prossime all'ottimo globale. Questo articolo adotta una prospettiva inversa, assumendo la convergenza a un punto arbitrario piuttosto che provarne la convergenza, concentrandosi sulle conseguenze di tale ipotesi. Da questo punto di vista, combinato con i recenti progressi nel fenomeno della stabilità marginale, gli autori sostengono che diversi ottimizzatori agiscono effettivamente come filtri di autovalori determinati dai loro iperparametri. Specificamente, i metodi di discesa del gradiente standard evitano intrinsecamente i minimi più acuti, mentre l'algoritmo di minimizzazione consapevole della nitidezza (SAM) favorisce attivamente bacini più ampi. Basandosi su questi insegnamenti, gli autori propongono due nuovi algoritmi che mostrano capacità di filtraggio degli autovalori migliorate, promuovendo efficacemente minimi più ampi. L'analisi teorica utilizza il teorema generalizzato della varietà stabile di Hadamard-Perron, applicabile a funzioni semialgebriche generali C2C^2, senza necessità di condizioni di non degenerazione aggiuntive o ipotesi di limitatezza Lipschitz globale.

Contesto di Ricerca e Motivazione

Problema Centrale

Il problema centrale affrontato da questa ricerca è comprendere il comportamento di convergenza degli algoritmi di ottimizzazione nell'apprendimento profondo, in particolare come selezionano minimi specifici nel complesso paesaggio della funzione di perdita. La ricerca tradizionale si concentra sulla dimostrazione della convergenza, mentre questo articolo adotta una prospettiva "inversa": assumendo che la convergenza sia già avvenuta, analizza come questa convergenza vincola le proprietà geometriche del punto raggiunto (in particolare gli autovalori dell'Hessiano).

Importanza

  1. Collegamento tra Stabilità e Generalizzazione: L'addestramento stabile è correlato a bacini di attrazione ampi e minimi piatti, caratteristiche strettamente correlate alle prestazioni di generalizzazione
  2. Fenomeno di Stabilità Marginale: Le osservazioni empiriche suggeriscono che l'addestramento standard opera tipicamente vicino al confine di stabilità
  3. Significato Pratico: Comprendere le preferenze implicite degli ottimizzatori aiuta a progettare algoritmi di addestramento migliori

Limitazioni dei Metodi Esistenti

  • Le teorie esistenti richiedono tipicamente condizioni rigorose (come limitatezza Lipschitz globale, condizioni di non degenerazione)
  • Manca un quadro unificato per comprendere il comportamento di filtraggio degli autovalori di diversi ottimizzatori
  • La comprensione teorica degli algoritmi di tipo SAM è limitata

Motivazione della Ricerca

Nel corso dell'ultimo decennio, l'addestramento riuscito nel deep learning è diventato quasi norma nella pratica, il che ha spinto la prospettiva di ricerca da "quando converge" a "perché converge con successo e come gli iperparametri lo rendono possibile".

Contributi Principali

  1. Quadro Teorico Unificato: Propone un quadro di analisi unificato basato sul teorema generalizzato della varietà stabile di Hadamard-Perron, applicabile a un'ampia categoria di algoritmi di ottimizzazione
  2. Teoria del Filtraggio degli Autovalori: Dimostra che gli ottimizzatori che convergono con successo impongono necessariamente vincoli agli autovalori dell'Hessiano del punto raggiunto, formando un effetto di "filtraggio degli autovalori"
  3. Analisi Algoritmica: Analizza sistematicamente le proprietà di filtraggio degli autovalori della discesa del gradiente, metodo della palla pesante, gradiente accelerato di Nesterov e USAM
  4. Proposizione di Nuovi Algoritmi: Progetta due nuovi algoritmi, Two-step USAM e Hessian USAM, che mostrano capacità di filtraggio degli autovalori più forti
  5. Estensione Teorica: Estende i risultati esistenti a classi di funzioni semialgebriche più generali, rimuovendo ipotesi di non degenerazione astratte

Dettagli del Metodo

Definizione del Compito

Considerare un algoritmo di ottimizzazione iterativo di forma generale: xk+1=Gα(xk)=Dxkαg(xk),k=0,1,2,x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots

dove:

  • DRm×mD \in \mathbb{R}^{m \times m} è una matrice invertibile
  • g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m è una mappa semialgebrica continuamente differenziabile C1C^1
  • α>0\alpha > 0 è il parametro di passo

Risultati Teorici Principali

Teorema Principale (Filtraggio degli Autovalori)

Teorema 1.1: Sia DRm×mD \in \mathbb{R}^{m \times m} una matrice invertibile, g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m una mappa semialgebrica C1C^1. Per quasi tutti x0Rmx_0 \in \mathbb{R}^m e α>0\alpha > 0, se la sequenza (xk)kN(x_k)_{k \in \mathbb{N}} converge a un punto xˉ\bar{x}, allora il raggio spettrale dello Jacobiano di DαgD - \alpha g in xˉ\bar{x} è al massimo 1: ρ(JacGα(xˉ))1\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1

Estensione del Teorema della Varietà Stabile

Teorema 2.1: Esiste ΛR+\Lambda \subset \mathbb{R}_+ il cui complemento è un insieme finito, tale che per ogni αΛ\alpha \in \Lambda, l'insieme Wα={x0Rmxˉ tale che Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xkxˉ}W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ tale che } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} è contenuto in un'unione numerabile di sottovarietà C1C^1 di dimensione al massimo m1m-1.

Punti di Innovazione Tecnica

  1. Ipotesi Semialgebrica: Utilizza la classe di funzioni semialgebriche come condizione sufficiente, includendo quasi tutte le funzioni comuni nell'apprendimento profondo
  2. Assenza di Condizioni Globali: Non richiede limitatezza Lipschitz globale o ipotesi di non degenerazione
  3. Quadro di Analisi Unificato: Attraverso la forma matriciale unificata DD e la mappa gg, copre molteplici algoritmi di ottimizzazione

Analisi di Algoritmi Specifici

Discesa del Gradiente

Proposizione 3.1: Per la discesa del gradiente xk+1=xkαf(xk)x_{k+1} = x_k - \alpha \nabla f(x_k), se converge a xˉ\bar{x}, allora tutti gli autovalori λ\lambda di 2f(xˉ)\nabla^2f(\bar{x}) soddisfano: 0λ2α0 \leq \lambda \leq \frac{2}{\alpha}

Metodo della Palla Pesante

Proposizione 3.2: Per il metodo della palla pesante, il vincolo degli autovalori è: 0λ2(1+β)α0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}

Algoritmo USAM

Proposizione 3.4: Per l'algoritmo USAM xk+1=xkαf(xk+ρf(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)), l'autovalore λ\lambda soddisfa: 0λ(1+ρλ)2(1+β)α0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}

Equivalentemente: 0λ1+8(1+β)ρ/α12ρ0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}

Progettazione di Nuovi Algoritmi

Two-step USAM

Regola di aggiornamento: xk+1=xkαf(xk+ρf(xk)+ρf(xk+ρf(xk)))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))

Vincolo degli autovalori: 0λ(1+ρλ)22(1+β)α0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}

Hessian USAM

Regola di aggiornamento: xk+1=xkαf(xk+ρ2f(xk)f(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))

Vincolo degli autovalori: 0λ(1+ρλ2)2(1+β)α0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}

Configurazione Sperimentale

Dataset

  1. MNIST + MLP: Dimensioni strati nascosti {128, 64, 10, 10}, attivazione ReLU, perdita di entropia incrociata
  2. Fashion-MNIST + MLP: Stessa configurazione di cui sopra
  3. CIFAR10 + WideResNet-16-8: Architettura WideResNet senza strati di normalizzazione batch

Configurazione Esperimenti

  • Dimensione batch: 128
  • Tasso di apprendimento: α=0.01\alpha = 0.01
  • Decadimento dei pesi: 5×1045 \times 10^{-4}
  • Momento: β{0,0.9}\beta \in \{0, 0.9\}
  • Parametro SAM: ρ\rho selezionato tramite ricerca in griglia

Metriche di Valutazione

  • Accuratezza di test
  • Primi tre autovalori massimi della matrice Hessiana

Risultati Sperimentali

Scoperte Principali

  1. Verifica del Filtraggio degli Autovalori: I risultati sperimentali sono altamente coerenti con le previsioni teoriche; USAM, Two-step USAM e Hessian USAM trovano effettivamente minimi più piatti
  2. Confronto Algoritmi:
    • Discesa del gradiente standard: prestazioni di base
    • USAM: riduzione significativa degli autovalori dell'Hessiano
    • Two-step USAM: ulteriore miglioramento del filtraggio degli autovalori
    • Hessian USAM: effetti di miglioramento simili
  3. Dipendenza dall'Architettura:
    • Architettura MLP: previsioni teoriche altamente coerenti con risultati sperimentali
    • WideResNet: differenze minori, probabilmente dovute alla maggiore difficoltà di addestramento

Osservazioni Sperimentali

  1. Requisiti di Stabilità: Two-step USAM e Hessian USAM richiedono valori di ρ\rho più piccoli per evitare fallimenti di addestramento, in accordo con i vincoli di curvatura più rigorosi previsti dalla teoria
  2. Effetto della Normalizzazione Batch: Nelle architetture che utilizzano normalizzazione batch, l'effetto di appiattimento degli algoritmi di tipo SAM non è evidente, il che non contraddice la teoria, poiché la normalizzazione batch modifica la dinamica dell'algoritmo

Lavori Correlati

Teorema della Varietà Stabile

  • Risultati classici di Hadamard (1901), Perron (1929)
  • Applicazioni nell'ottimizzazione moderna: Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

Fenomeno di Stabilità Marginale

  • Cohen et al. (2021, 2022): stabilità marginale della discesa del gradiente e metodi adattivi
  • Andreyev & Beneventano (2024): estensione ad algoritmi stocastici

Minimizzazione Consapevole della Nitidezza

  • Foret et al. (2021): algoritmo SAM originale
  • Andriushchenko & Flammarion (2022): varianti USAM
  • Analisi teoriche successive: Zhou et al. (2025), Marion & Chizat (2024)

Conclusioni e Discussione

Conclusioni Principali

  1. Prospettiva Unificata: L'addestramento degli ottimizzatori di successo è essenzialmente un processo di filtraggio degli autovalori, con diversi algoritmi che realizzano diversi gradi di filtraggio attraverso iperparametri
  2. Estensione Teorica: Il teorema della varietà stabile generalizzato fornisce uno strumento teorico potente per comprendere gli algoritmi di ottimizzazione
  3. Guida Pratica: I risultati teorici forniscono una guida di principio per la progettazione di nuovi algoritmi di ottimizzazione

Limitazioni

  1. Ipotesi Semialgebrica: Sebbene copra un'ampia gamma, presenta ancora limitazioni
  2. Costo Computazionale dei Nuovi Algoritmi: Two-step USAM e Hessian USAM hanno costi di iterazione singola più elevati
  3. Compatibilità con Normalizzazione Batch: Il quadro teorico non copre ancora le operazioni di normalizzazione batch

Direzioni Future

  1. Estensione a Classi di Funzioni Più Generali: Esplorare estensioni teoriche senza ipotesi semialgebrica
  2. Teoria della Normalizzazione Batch: Estendere il quadro teorico ad architetture che includono normalizzazione batch
  3. Ottimizzazione di Algoritmi Pratici: Ridurre il costo computazionale dei nuovi algoritmi mantenendo i vantaggi teorici

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: Fornisce una prospettiva completamente nuova per comprendere gli algoritmi di ottimizzazione, passando dalla "dimostrazione della convergenza" all'"analisi delle conseguenze della convergenza"
  2. Quadro Unificato: Fornisce per la prima volta un quadro teorico unificato per analizzare il comportamento di filtraggio degli autovalori di molteplici algoritmi di ottimizzazione
  3. Valore Pratico: I risultati teorici guidano direttamente la progettazione di nuovi algoritmi, verificati sperimentalmente
  4. Rigore Tecnico: Le derivazioni matematiche sono rigorose, le ipotesi sono chiare e ragionevoli

Carenze

  1. Scala Sperimentale Limitata: Gli esperimenti si concentrano principalmente su architetture e dataset relativamente semplici, con verifica sperimentale su larga scala insufficiente
  2. Valutazione dei Nuovi Algoritmi: La valutazione completa delle prestazioni di Two-step USAM e Hessian USAM (inclusa la capacità di generalizzazione) richiede ancora più lavoro
  3. Gap Teorico: Esiste un certo divario tra le prestazioni effettive dell'algoritmo SAM e le previsioni teoriche (come il problema dei punti di sella stretti)

Impatto

  1. Contributo Teorico: Fornisce nuovi strumenti e prospettive di analisi per la teoria dell'ottimizzazione
  2. Valore Pratico: Fornisce una guida di principio per la progettazione di algoritmi di ottimizzazione
  3. Significato Interdisciplinare: Collega la teoria dei sistemi dinamici con la pratica dell'apprendimento automatico

Scenari Applicabili

  1. Ottimizzazione dell'Apprendimento Profondo: Particolarmente adatto per comprendere e migliorare gli algoritmi di addestramento delle reti neurali
  2. Ottimizzazione Non Convessa: Fornisce nuovi strumenti di analisi per problemi di ottimizzazione non convessa generale
  3. Progettazione di Algoritmi: Guida la progettazione e l'analisi di nuovi algoritmi di ottimizzazione

Bibliografia

Questo articolo cita un gran numero di lavori correlati, principalmente includenti:

  • Letteratura classica della teoria dei sistemi dinamici
  • Progressi moderni nella teoria dell'ottimizzazione
  • Ricerca su stabilità e generalizzazione nell'apprendimento profondo
  • Lavori correlati alla minimizzazione consapevole della nitidezza
  • Ricerca teorica e sperimentale sul fenomeno di stabilità marginale

Valutazione Complessiva: Questo è un articolo eccellente che combina profondità teorica e valore pratico, fornendo nuovi strumenti teorici per comprendere i fenomeni di ottimizzazione nell'apprendimento profondo e dimostrando il successo della teoria nel guidare la progettazione di algoritmi. Sebbene vi sia spazio per miglioramenti nella verifica sperimentale su larga scala, il suo contributo teorico e la prospettiva innovativa lo rendono un importante progresso nel campo della teoria dell'ottimizzazione.