2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels

Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.

academic

Konvergenz von Optimierern impliziert Eigenwertfilterung im Gleichgewicht

Grundinformationen

Paper-ID: 2510.09034
Titel: Convergence of optimizers implies eigenvalues filtering at equilibrium
Autoren: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
Klassifizierung: cs.LG math.DS math.OC
Veröffentlichungsdatum: 13. Oktober 2025
Paper-Link: https://arxiv.org/abs/2510.09034

Zusammenfassung

Umfangreiche empirische Evidenz aus dem Training tiefer neuronaler Netze zeigt, dass verschiedene Optimierer dazu neigen, Lösungen nahe des globalen Optimums zu finden. Dieser Artikel verfolgt eine gegensätzliche Perspektive, indem er die Konvergenz zu einem beliebigen Punkt annimmt, anstatt diese zu beweisen, und sich auf die Konsequenzen dieser Annahme konzentriert. Aus diesem Blickwinkel argumentieren die Autoren unter Berücksichtigung neuester Entwicklungen zum Phänomen der marginalen Stabilität, dass verschiedene Optimierer tatsächlich als Eigenwertfilter fungieren, die durch ihre Hyperparameter bestimmt werden. Konkret vermeiden Standardgradienten-Abstiegsmethoden inhärent die schärfsten Minima, während der Sharpness Aware Minimization (SAM)-Algorithmus aktiv breitere Becken bevorzugt. Basierend auf diesen Erkenntnissen präsentieren die Autoren zwei neue Algorithmen, die verbesserte Eigenwertfilterfähigkeiten aufweisen und effektiv breitere Minima fördern. Die theoretische Analyse nutzt das verallgemeinerte Hadamard-Perron-Stabilitätsmannigfaltigkeits-Theorem, das auf allgemeine semialgebraische C²-Funktionen anwendbar ist, ohne zusätzliche Nicht-Degenerationsbedingungen oder globale Lipschitz-Beschränkungsannahmen zu erfordern.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung besteht darin, das Konvergenzverhalten von Optimierungsalgorithmen beim Deep Learning zu verstehen, insbesondere wie diese spezifische Minima in der komplexen Landschaft der Verlustfunktion auswählen. Während traditionelle Forschung sich auf die Konvergenzbeweise konzentriert, verfolgt dieser Artikel eine "umgekehrte" Perspektive: Annahme, dass Konvergenz bereits stattgefunden hat, und Analyse, welche Einschränkungen diese Konvergenz auf die geometrischen Eigenschaften des erreichten Punktes (insbesondere Hessian-Eigenwerte) auferlegt.

Bedeutung

Verbindung zwischen Stabilität und Generalisierung: Stabiles Training ist mit breiten Attraktionsbecken und flachen Minima verbunden, Eigenschaften, die eng mit der Generalisierungsleistung zusammenhängen
Phänomen der marginalen Stabilität: Empirische Beobachtungen zeigen, dass standardmäßiges Training typischerweise nahe der Stabilitätsgrenze operiert
Praktische Bedeutung: Das Verständnis der impliziten Vorlieben von Optimierern hilft bei der Gestaltung besserer Trainingsalgorithmen

Einschränkungen bestehender Methoden

Bestehende Theorien erfordern typischerweise strenge Annahmebedingungen (wie globale Lipschitz-Beschränkungen, Nicht-Degenerationsbedingungen)
Mangel an einheitlichem Rahmen zum Verständnis des Eigenwertfilterverhaltens verschiedener Optimierer
Begrenzte theoretische Verständigung für SAM-ähnliche Algorithmen

Forschungsmotivation

In den letzten zehn Jahren ist erfolgreiches Training in der Deep-Learning-Praxis zur Norm geworden, was die Forschungsperspektive von "Wann konvergiert" zu "Warum konvergiert erfolgreich und wie ermöglichen Hyperparameter dies" verschoben hat.

Kernbeiträge

Einheitlicher theoretischer Rahmen: Präsentation eines einheitlichen Analyserahmens basierend auf dem verallgemeinerten Hadamard-Perron-Stabilitätsmannigfaltigkeits-Theorem, anwendbar auf eine breite Kategorie von Optimierungsalgorithmen
Eigenwertfilterungstheorie: Beweis, dass erfolgreiche Optimierer notwendigerweise Einschränkungen auf die Hessian-Eigenwerte des erreichten Punktes auferlegen, was einen "Eigenwertfilterungs"-Effekt erzeugt
Algorithmusanalyse: Systematische Analyse der Eigenwertfiltereigenschaften von Gradientenabstieg, Heavy Ball Method, Nesterov-beschleunigtem Gradientenabstieg und USAM
Neue Algorithmen: Entwurf von Two-step USAM und Hessian USAM, zwei neuen Algorithmen mit stärkeren Eigenwertfilterfähigkeiten
Theoretische Erweiterung: Erweiterung bestehender Ergebnisse auf allgemeinere semialgebraische Funktionsklassen, Entfernung abstrakter Nicht-Degenerationsbedingungen

Methodische Details

Aufgabendefinition

Betrachten Sie einen allgemeinen iterativen Optimierungsalgorithmus der Form: $x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots$

wobei:

$D \in \mathbb{R}^{m \times m}$ eine invertierbare Matrix ist
$g: \mathbb{R}^m \to \mathbb{R}^m$ eine kontinuierlich differenzierbare semialgebraische Abbildung ist
$\alpha > 0$ ein Schrittparameter ist

Zentrale theoretische Ergebnisse

Hauptsatz (Eigenwertfilterung)

Satz 1.1: Sei $D \in \mathbb{R}^{m \times m}$ eine invertierbare Matrix, $g: \mathbb{R}^m \to \mathbb{R}^m$ eine $C^1$ semialgebraische Abbildung. Für fast alle $x_0 \in \mathbb{R}^m$ und $\alpha > 0$ gilt: Wenn die Folge $(x_k)_{k \in \mathbb{N}}$ gegen einen Punkt $\bar{x}$ konvergiert, dann ist der Spektralradius der Jacobi-Matrix von $D - \alpha g$ bei $\bar{x}$ höchstens 1: $\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1$

Erweiterung des Stabilitätsmannigfaltigkeits-Theorems

Satz 2.1: Es existiert $\Lambda \subset \mathbb{R}_+$ , dessen Komplement eine endliche Menge ist, so dass für alle $\alpha \in \Lambda$ die Menge $W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.d. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\}$ in einer abzählbaren Vereinigung von höchstens $m-1$ dimensionalen $C^1$ -Untermannigfaltigkeiten enthalten ist.

Technische Innovationen

Semialgebraische Annahme: Verwendung semialgebraischer Funktionsklassen als hinreichende Bedingung, die fast alle gängigen Funktionen im Deep Learning umfasst
Keine globalen Bedingungen erforderlich: Keine Notwendigkeit für globale Lipschitz-Beschränkungen oder Nicht-Degenerationsbedingungen
Einheitlicher Analyserahmen: Durch die einheitliche Form von Matrix $D$ und Abbildung $g$ werden mehrere Optimierungsalgorithmen abgedeckt

Analyse spezifischer Algorithmen

Gradientenabstieg

Proposition 3.1: Für Gradientenabstieg $x_{k+1} = x_k - \alpha \nabla f(x_k)$ gilt: Wenn die Folge gegen $\bar{x}$ konvergiert, erfüllen alle Eigenwerte $\lambda$ von $\nabla^2f(\bar{x})$ : $0 \leq \lambda \leq \frac{2}{\alpha}$

Heavy Ball Method

Proposition 3.2: Für die Heavy Ball Method ist die Eigenwertbeschränkung: $0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}$

USAM-Algorithmus

Proposition 3.4: Für den USAM-Algorithmus $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k))$ erfüllen die Eigenwerte $\lambda$ : $0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}$

Äquivalent: $0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}$

Entwurf neuer Algorithmen

Two-step USAM

Aktualisierungsregel: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))$

Eigenwertbeschränkung: $0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}$

Hessian USAM

Aktualisierungsregel: $x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))$

Eigenwertbeschränkung: $0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}$

Experimentelle Einrichtung

Datensätze

MNIST + MLP: Verborgene Schichtdimensionen {128, 64, 10, 10}, ReLU-Aktivierung, Kreuzentropie-Verlust
Fashion-MNIST + MLP: Gleiche Einrichtung wie oben
CIFAR10 + WideResNet-16-8: WideResNet-Architektur ohne Batch-Normalisierungsschichten

Experimentelle Konfiguration

Batch-Größe: 128
Lernrate: $\alpha = 0.01$
Gewichtsabfall: $5 \times 10^{-4}$
Impuls: $\beta \in \{0, 0.9\}$
SAM-Parameter: $\rho$ durch Rastersuche ausgewählt

Bewertungsmetriken

Test-Genauigkeit
Die drei größten Eigenwerte der Hessian-Matrix

Experimentelle Ergebnisse

Hauptergebnisse

Validierung der Eigenwertfilterung: Experimentelle Ergebnisse stimmen hochgradig mit theoretischen Vorhersagen überein; USAM, Two-step USAM und Hessian USAM finden tatsächlich flachere Minima
Algorithmusvergleich:
- Standardgradienten-Abstieg: Baseline-Leistung
- USAM: Signifikante Reduktion der Hessian-Eigenwerte
- Two-step USAM: Weitere Verbesserung der Eigenwertfilterung
- Hessian USAM: Ähnliche Verbesserungseffekte
Architekturabhängigkeit:
- MLP-Architektur: Theoretische Vorhersagen und experimentelle Ergebnisse stimmen hochgradig überein
- WideResNet: Kleinere Unterschiede, möglicherweise aufgrund erhöhter Trainingsschwierigkeit

Experimentelle Beobachtungen

Stabilitätsanforderungen: Two-step USAM und Hessian USAM erfordern kleinere $\rho$ -Werte, um Trainingsausfälle zu vermeiden, was mit den theoretisch vorhergesagten strengeren Krümmungsbeschränkungen übereinstimmt
Einfluss der Batch-Normalisierung: In Architekturen mit Batch-Normalisierung ist der Abflachungseffekt von SAM-ähnlichen Algorithmen nicht offensichtlich; dies widerspricht der Theorie nicht, da Batch-Normalisierung die Algorithmusdynamik verändert

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Einheitliche Perspektive: Erfolgreiches Optimierertraining ist im Wesentlichen ein Eigenwertfilterprozess; verschiedene Algorithmen erreichen unterschiedliche Filterungsgrade durch Hyperparameter
Theoretische Erweiterung: Das verallgemeinerte Stabilitätsmannigfaltigkeits-Theorem bietet ein mächtiges theoretisches Werkzeug zum Verständnis von Optimierungsalgorithmen
Praktische Anleitung: Theoretische Ergebnisse bieten prinzipiengestützte Anleitung für den Entwurf neuer Optimierungsalgorithmen

Einschränkungen

Semialgebraische Annahme: Obwohl umfassend, hat sie noch gewisse Grenzen
Rechenkomplexität neuer Algorithmen: Two-step USAM und Hessian USAM haben höhere Kosten pro Iteration
Batch-Normalisierungs-Kompatibilität: Der theoretische Rahmen umfasst noch keine Batch-Normalisierungsoperationen

Zukünftige Richtungen

Erweiterung auf allgemeinere Funktionsklassen: Erkundung theoretischer Erweiterungen ohne semialgebraische Annahmen
Batch-Normalisierungs-Theorie: Erweiterung des theoretischen Rahmens auf Architekturen mit Batch-Normalisierung
Praktische Algorithmusoptimierung: Senkung der Rechenkomplexität neuer Algorithmen bei Beibehaltung theoretischer Vorteile

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Bietet eine völlig neue Perspektive auf das Verständnis von Optimierungsalgorithmen, Verschiebung von "Konvergenzbeweisen" zu "Konvergenzfolgenanalyse"
Einheitlicher Rahmen: Erstmalige Bereitstellung eines einheitlichen theoretischen Rahmens zur Analyse des Eigenwertfilterverhaltens mehrerer Optimierungsalgorithmen
Praktischer Wert: Theoretische Ergebnisse leiten direkt den Entwurf neuer Algorithmen an und werden durch Experimente validiert
Technische Strenge: Mathematische Ableitungen sind rigoros, Annahmebedingungen sind klar und angemessen

Mängel

Begrenzte Experimentskala: Experimente werden hauptsächlich auf relativ einfachen Architekturen und Datensätzen durchgeführt; großflächige experimentelle Validierung ist unzureichend
Bewertung neuer Algorithmen: Umfassendere Leistungsbewertung von Two-step USAM und Hessian USAM (einschließlich Generalisierungsfähigkeit) erfordert weitere Arbeit
Theoretische Lücke: Es gibt gewisse Unterschiede zwischen tatsächlicher SAM-Leistung und theoretischen Vorhersagen (z.B. strikte Sattelpunktprobleme)

Einfluss

Theoretischer Beitrag: Bietet neue Analysewerkzeuge und Perspektiven für die Optimierungstheorie
Praktischer Wert: Bietet prinzipiengestützte Anleitung für den Entwurf von Optimierungsalgorithmen
Interdisziplinäre Bedeutung: Verbindet dynamische Systemtheorie mit Machine-Learning-Praxis

Anwendungsszenarien

Deep-Learning-Optimierung: Besonders geeignet zum Verständnis und zur Verbesserung von Neuronale-Netzwerk-Trainingsalgorithmen
Nicht-konvexe Optimierung: Bietet neue Analysewerkzeuge für allgemeine nicht-konvexe Optimierungsprobleme
Algorithmusentwurf: Leitet den Entwurf und die Analyse neuartiger Optimierungsalgorithmen an

Literaturverzeichnis

Dieser Artikel zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

Klassische dynamische Systemtheorie-Literatur
Moderne Optimierungstheorie-Fortschritte
Stabilitäts- und Generalisierungsforschung im Deep Learning
Arbeiten zu Sharpness Aware Minimization
Theoretische und experimentelle Forschung zum Phänomen der marginalen Stabilität

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das theoretische Tiefe und praktischen Wert vereint und neue theoretische Werkzeuge zum Verständnis von Optimierungsphänomenen im Deep Learning bietet, während es erfolgreiche Fälle von Theorie, die Algorithmusentwurf anleitet, demonstriert. Obwohl es Raum für Verbesserungen bei der großflächigen experimentellen Validierung gibt, machen seine theoretischen Beiträge und innovative Perspektive es zu einem wichtigen Fortschritt im Bereich der Optimierungstheorie.