2025-11-21T08:19:15.669983

Convergence of optimizers implies eigenvalues filtering at equilibrium

Bolte, Le, Pauwels
Ample empirical evidence in deep neural network training suggests that a variety of optimizers tend to find nearly global optima. In this article, we adopt the reversed perspective that convergence to an arbitrary point is assumed rather than proven, focusing on the consequences of this assumption. From this viewpoint, in line with recent advances on the edge-of-stability phenomenon, we argue that different optimizers effectively act as eigenvalue filters determined by their hyperparameters. Specifically, the standard gradient descent method inherently avoids the sharpest minima, whereas Sharpness-Aware Minimization (SAM) algorithms go even further by actively favoring wider basins. Inspired by these insights, we propose two novel algorithms that exhibit enhanced eigenvalue filtering, effectively promoting wider minima. Our theoretical analysis leverages a generalized Hadamard--Perron stable manifold theorem and applies to general semialgebraic $C^2$ functions, without requiring additional non-degeneracy conditions or global Lipschitz bound assumptions. We support our conclusions with numerical experiments on feed-forward neural networks.
academic

Konvergenz von Optimierern impliziert Eigenwertfilterung im Gleichgewicht

Grundinformationen

  • Paper-ID: 2510.09034
  • Titel: Convergence of optimizers implies eigenvalues filtering at equilibrium
  • Autoren: Jérôme Bolte, Quoc-Tung Le, Edouard Pauwels
  • Klassifizierung: cs.LG math.DS math.OC
  • Veröffentlichungsdatum: 13. Oktober 2025
  • Paper-Link: https://arxiv.org/abs/2510.09034

Zusammenfassung

Umfangreiche empirische Evidenz aus dem Training tiefer neuronaler Netze zeigt, dass verschiedene Optimierer dazu neigen, Lösungen nahe des globalen Optimums zu finden. Dieser Artikel verfolgt eine gegensätzliche Perspektive, indem er die Konvergenz zu einem beliebigen Punkt annimmt, anstatt diese zu beweisen, und sich auf die Konsequenzen dieser Annahme konzentriert. Aus diesem Blickwinkel argumentieren die Autoren unter Berücksichtigung neuester Entwicklungen zum Phänomen der marginalen Stabilität, dass verschiedene Optimierer tatsächlich als Eigenwertfilter fungieren, die durch ihre Hyperparameter bestimmt werden. Konkret vermeiden Standardgradienten-Abstiegsmethoden inhärent die schärfsten Minima, während der Sharpness Aware Minimization (SAM)-Algorithmus aktiv breitere Becken bevorzugt. Basierend auf diesen Erkenntnissen präsentieren die Autoren zwei neue Algorithmen, die verbesserte Eigenwertfilterfähigkeiten aufweisen und effektiv breitere Minima fördern. Die theoretische Analyse nutzt das verallgemeinerte Hadamard-Perron-Stabilitätsmannigfaltigkeits-Theorem, das auf allgemeine semialgebraische C²-Funktionen anwendbar ist, ohne zusätzliche Nicht-Degenerationsbedingungen oder globale Lipschitz-Beschränkungsannahmen zu erfordern.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Forschung besteht darin, das Konvergenzverhalten von Optimierungsalgorithmen beim Deep Learning zu verstehen, insbesondere wie diese spezifische Minima in der komplexen Landschaft der Verlustfunktion auswählen. Während traditionelle Forschung sich auf die Konvergenzbeweise konzentriert, verfolgt dieser Artikel eine "umgekehrte" Perspektive: Annahme, dass Konvergenz bereits stattgefunden hat, und Analyse, welche Einschränkungen diese Konvergenz auf die geometrischen Eigenschaften des erreichten Punktes (insbesondere Hessian-Eigenwerte) auferlegt.

Bedeutung

  1. Verbindung zwischen Stabilität und Generalisierung: Stabiles Training ist mit breiten Attraktionsbecken und flachen Minima verbunden, Eigenschaften, die eng mit der Generalisierungsleistung zusammenhängen
  2. Phänomen der marginalen Stabilität: Empirische Beobachtungen zeigen, dass standardmäßiges Training typischerweise nahe der Stabilitätsgrenze operiert
  3. Praktische Bedeutung: Das Verständnis der impliziten Vorlieben von Optimierern hilft bei der Gestaltung besserer Trainingsalgorithmen

Einschränkungen bestehender Methoden

  • Bestehende Theorien erfordern typischerweise strenge Annahmebedingungen (wie globale Lipschitz-Beschränkungen, Nicht-Degenerationsbedingungen)
  • Mangel an einheitlichem Rahmen zum Verständnis des Eigenwertfilterverhaltens verschiedener Optimierer
  • Begrenzte theoretische Verständigung für SAM-ähnliche Algorithmen

Forschungsmotivation

In den letzten zehn Jahren ist erfolgreiches Training in der Deep-Learning-Praxis zur Norm geworden, was die Forschungsperspektive von "Wann konvergiert" zu "Warum konvergiert erfolgreich und wie ermöglichen Hyperparameter dies" verschoben hat.

Kernbeiträge

  1. Einheitlicher theoretischer Rahmen: Präsentation eines einheitlichen Analyserahmens basierend auf dem verallgemeinerten Hadamard-Perron-Stabilitätsmannigfaltigkeits-Theorem, anwendbar auf eine breite Kategorie von Optimierungsalgorithmen
  2. Eigenwertfilterungstheorie: Beweis, dass erfolgreiche Optimierer notwendigerweise Einschränkungen auf die Hessian-Eigenwerte des erreichten Punktes auferlegen, was einen "Eigenwertfilterungs"-Effekt erzeugt
  3. Algorithmusanalyse: Systematische Analyse der Eigenwertfiltereigenschaften von Gradientenabstieg, Heavy Ball Method, Nesterov-beschleunigtem Gradientenabstieg und USAM
  4. Neue Algorithmen: Entwurf von Two-step USAM und Hessian USAM, zwei neuen Algorithmen mit stärkeren Eigenwertfilterfähigkeiten
  5. Theoretische Erweiterung: Erweiterung bestehender Ergebnisse auf allgemeinere semialgebraische Funktionsklassen, Entfernung abstrakter Nicht-Degenerationsbedingungen

Methodische Details

Aufgabendefinition

Betrachten Sie einen allgemeinen iterativen Optimierungsalgorithmus der Form: xk+1=Gα(xk)=Dxkαg(xk),k=0,1,2,x_{k+1} = G_\alpha(x_k) = Dx_k - \alpha g(x_k), \quad k = 0, 1, 2, \ldots

wobei:

  • DRm×mD \in \mathbb{R}^{m \times m} eine invertierbare Matrix ist
  • g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m eine kontinuierlich differenzierbare semialgebraische Abbildung ist
  • α>0\alpha > 0 ein Schrittparameter ist

Zentrale theoretische Ergebnisse

Hauptsatz (Eigenwertfilterung)

Satz 1.1: Sei DRm×mD \in \mathbb{R}^{m \times m} eine invertierbare Matrix, g:RmRmg: \mathbb{R}^m \to \mathbb{R}^m eine C1C^1 semialgebraische Abbildung. Für fast alle x0Rmx_0 \in \mathbb{R}^m und α>0\alpha > 0 gilt: Wenn die Folge (xk)kN(x_k)_{k \in \mathbb{N}} gegen einen Punkt xˉ\bar{x} konvergiert, dann ist der Spektralradius der Jacobi-Matrix von DαgD - \alpha g bei xˉ\bar{x} höchstens 1: ρ(JacGα(xˉ))1\rho(\text{Jac}G_\alpha(\bar{x})) \leq 1

Erweiterung des Stabilitätsmannigfaltigkeits-Theorems

Satz 2.1: Es existiert ΛR+\Lambda \subset \mathbb{R}_+, dessen Komplement eine endliche Menge ist, so dass für alle αΛ\alpha \in \Lambda die Menge Wα={x0Rmxˉ s.d. Gα(xˉ)=xˉ,ρ(JacGα(xˉ))>1,xkxˉ}W_\alpha = \{x_0 \in \mathbb{R}^m | \exists \bar{x} \text{ s.d. } G_\alpha(\bar{x}) = \bar{x}, \rho(\text{Jac}G_\alpha(\bar{x})) > 1, x_k \to \bar{x}\} in einer abzählbaren Vereinigung von höchstens m1m-1 dimensionalen C1C^1-Untermannigfaltigkeiten enthalten ist.

Technische Innovationen

  1. Semialgebraische Annahme: Verwendung semialgebraischer Funktionsklassen als hinreichende Bedingung, die fast alle gängigen Funktionen im Deep Learning umfasst
  2. Keine globalen Bedingungen erforderlich: Keine Notwendigkeit für globale Lipschitz-Beschränkungen oder Nicht-Degenerationsbedingungen
  3. Einheitlicher Analyserahmen: Durch die einheitliche Form von Matrix DD und Abbildung gg werden mehrere Optimierungsalgorithmen abgedeckt

Analyse spezifischer Algorithmen

Gradientenabstieg

Proposition 3.1: Für Gradientenabstieg xk+1=xkαf(xk)x_{k+1} = x_k - \alpha \nabla f(x_k) gilt: Wenn die Folge gegen xˉ\bar{x} konvergiert, erfüllen alle Eigenwerte λ\lambda von 2f(xˉ)\nabla^2f(\bar{x}): 0λ2α0 \leq \lambda \leq \frac{2}{\alpha}

Heavy Ball Method

Proposition 3.2: Für die Heavy Ball Method ist die Eigenwertbeschränkung: 0λ2(1+β)α0 \leq \lambda \leq \frac{2(1+\beta)}{\alpha}

USAM-Algorithmus

Proposition 3.4: Für den USAM-Algorithmus xk+1=xkαf(xk+ρf(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k)) erfüllen die Eigenwerte λ\lambda: 0λ(1+ρλ)2(1+β)α0 \leq \lambda(1 + \rho\lambda) \leq \frac{2(1+\beta)}{\alpha}

Äquivalent: 0λ1+8(1+β)ρ/α12ρ0 \leq \lambda \leq \frac{\sqrt{1 + 8(1+\beta)\rho/\alpha} - 1}{2\rho}

Entwurf neuer Algorithmen

Two-step USAM

Aktualisierungsregel: xk+1=xkαf(xk+ρf(xk)+ρf(xk+ρf(xk)))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla f(x_k) + \rho \nabla f(x_k + \rho \nabla f(x_k)))

Eigenwertbeschränkung: 0λ(1+ρλ)22(1+β)α0 \leq \lambda(1 + \rho\lambda)^2 \leq \frac{2(1+\beta)}{\alpha}

Hessian USAM

Aktualisierungsregel: xk+1=xkαf(xk+ρ2f(xk)f(xk))x_{k+1} = x_k - \alpha \nabla f(x_k + \rho \nabla^2f(x_k)\nabla f(x_k))

Eigenwertbeschränkung: 0λ(1+ρλ2)2(1+β)α0 \leq \lambda(1 + \rho\lambda^2) \leq \frac{2(1+\beta)}{\alpha}

Experimentelle Einrichtung

Datensätze

  1. MNIST + MLP: Verborgene Schichtdimensionen {128, 64, 10, 10}, ReLU-Aktivierung, Kreuzentropie-Verlust
  2. Fashion-MNIST + MLP: Gleiche Einrichtung wie oben
  3. CIFAR10 + WideResNet-16-8: WideResNet-Architektur ohne Batch-Normalisierungsschichten

Experimentelle Konfiguration

  • Batch-Größe: 128
  • Lernrate: α=0.01\alpha = 0.01
  • Gewichtsabfall: 5×1045 \times 10^{-4}
  • Impuls: β{0,0.9}\beta \in \{0, 0.9\}
  • SAM-Parameter: ρ\rho durch Rastersuche ausgewählt

Bewertungsmetriken

  • Test-Genauigkeit
  • Die drei größten Eigenwerte der Hessian-Matrix

Experimentelle Ergebnisse

Hauptergebnisse

  1. Validierung der Eigenwertfilterung: Experimentelle Ergebnisse stimmen hochgradig mit theoretischen Vorhersagen überein; USAM, Two-step USAM und Hessian USAM finden tatsächlich flachere Minima
  2. Algorithmusvergleich:
    • Standardgradienten-Abstieg: Baseline-Leistung
    • USAM: Signifikante Reduktion der Hessian-Eigenwerte
    • Two-step USAM: Weitere Verbesserung der Eigenwertfilterung
    • Hessian USAM: Ähnliche Verbesserungseffekte
  3. Architekturabhängigkeit:
    • MLP-Architektur: Theoretische Vorhersagen und experimentelle Ergebnisse stimmen hochgradig überein
    • WideResNet: Kleinere Unterschiede, möglicherweise aufgrund erhöhter Trainingsschwierigkeit

Experimentelle Beobachtungen

  1. Stabilitätsanforderungen: Two-step USAM und Hessian USAM erfordern kleinere ρ\rho-Werte, um Trainingsausfälle zu vermeiden, was mit den theoretisch vorhergesagten strengeren Krümmungsbeschränkungen übereinstimmt
  2. Einfluss der Batch-Normalisierung: In Architekturen mit Batch-Normalisierung ist der Abflachungseffekt von SAM-ähnlichen Algorithmen nicht offensichtlich; dies widerspricht der Theorie nicht, da Batch-Normalisierung die Algorithmusdynamik verändert

Verwandte Arbeiten

Stabilitätsmannigfaltigkeits-Theorem

  • Klassische Ergebnisse von Hadamard (1901), Perron (1929)
  • Anwendungen in moderner Optimierung: Lee et al. (2016), Panageas & Piliouras (2017), Ahn et al. (2022)

Phänomen der marginalen Stabilität

  • Cohen et al. (2021, 2022): Marginale Stabilität von Gradientenabstieg und adaptiven Methoden
  • Andreyev & Beneventano (2024): Erweiterung auf stochastische Algorithmen

Sharpness Aware Minimization

  • Foret et al. (2021): Ursprünglicher SAM-Algorithmus
  • Andriushchenko & Flammarion (2022): USAM-Varianten
  • Nachfolgende theoretische Analysen: Zhou et al. (2025), Marion & Chizat (2024)

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Einheitliche Perspektive: Erfolgreiches Optimierertraining ist im Wesentlichen ein Eigenwertfilterprozess; verschiedene Algorithmen erreichen unterschiedliche Filterungsgrade durch Hyperparameter
  2. Theoretische Erweiterung: Das verallgemeinerte Stabilitätsmannigfaltigkeits-Theorem bietet ein mächtiges theoretisches Werkzeug zum Verständnis von Optimierungsalgorithmen
  3. Praktische Anleitung: Theoretische Ergebnisse bieten prinzipiengestützte Anleitung für den Entwurf neuer Optimierungsalgorithmen

Einschränkungen

  1. Semialgebraische Annahme: Obwohl umfassend, hat sie noch gewisse Grenzen
  2. Rechenkomplexität neuer Algorithmen: Two-step USAM und Hessian USAM haben höhere Kosten pro Iteration
  3. Batch-Normalisierungs-Kompatibilität: Der theoretische Rahmen umfasst noch keine Batch-Normalisierungsoperationen

Zukünftige Richtungen

  1. Erweiterung auf allgemeinere Funktionsklassen: Erkundung theoretischer Erweiterungen ohne semialgebraische Annahmen
  2. Batch-Normalisierungs-Theorie: Erweiterung des theoretischen Rahmens auf Architekturen mit Batch-Normalisierung
  3. Praktische Algorithmusoptimierung: Senkung der Rechenkomplexität neuer Algorithmen bei Beibehaltung theoretischer Vorteile

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Bietet eine völlig neue Perspektive auf das Verständnis von Optimierungsalgorithmen, Verschiebung von "Konvergenzbeweisen" zu "Konvergenzfolgenanalyse"
  2. Einheitlicher Rahmen: Erstmalige Bereitstellung eines einheitlichen theoretischen Rahmens zur Analyse des Eigenwertfilterverhaltens mehrerer Optimierungsalgorithmen
  3. Praktischer Wert: Theoretische Ergebnisse leiten direkt den Entwurf neuer Algorithmen an und werden durch Experimente validiert
  4. Technische Strenge: Mathematische Ableitungen sind rigoros, Annahmebedingungen sind klar und angemessen

Mängel

  1. Begrenzte Experimentskala: Experimente werden hauptsächlich auf relativ einfachen Architekturen und Datensätzen durchgeführt; großflächige experimentelle Validierung ist unzureichend
  2. Bewertung neuer Algorithmen: Umfassendere Leistungsbewertung von Two-step USAM und Hessian USAM (einschließlich Generalisierungsfähigkeit) erfordert weitere Arbeit
  3. Theoretische Lücke: Es gibt gewisse Unterschiede zwischen tatsächlicher SAM-Leistung und theoretischen Vorhersagen (z.B. strikte Sattelpunktprobleme)

Einfluss

  1. Theoretischer Beitrag: Bietet neue Analysewerkzeuge und Perspektiven für die Optimierungstheorie
  2. Praktischer Wert: Bietet prinzipiengestützte Anleitung für den Entwurf von Optimierungsalgorithmen
  3. Interdisziplinäre Bedeutung: Verbindet dynamische Systemtheorie mit Machine-Learning-Praxis

Anwendungsszenarien

  1. Deep-Learning-Optimierung: Besonders geeignet zum Verständnis und zur Verbesserung von Neuronale-Netzwerk-Trainingsalgorithmen
  2. Nicht-konvexe Optimierung: Bietet neue Analysewerkzeuge für allgemeine nicht-konvexe Optimierungsprobleme
  3. Algorithmusentwurf: Leitet den Entwurf und die Analyse neuartiger Optimierungsalgorithmen an

Literaturverzeichnis

Dieser Artikel zitiert umfangreiche verwandte Arbeiten, hauptsächlich einschließlich:

  • Klassische dynamische Systemtheorie-Literatur
  • Moderne Optimierungstheorie-Fortschritte
  • Stabilitäts- und Generalisierungsforschung im Deep Learning
  • Arbeiten zu Sharpness Aware Minimization
  • Theoretische und experimentelle Forschung zum Phänomen der marginalen Stabilität

Gesamtbewertung: Dies ist ein ausgezeichnetes Papier, das theoretische Tiefe und praktischen Wert vereint und neue theoretische Werkzeuge zum Verständnis von Optimierungsphänomenen im Deep Learning bietet, während es erfolgreiche Fälle von Theorie, die Algorithmusentwurf anleitet, demonstriert. Obwohl es Raum für Verbesserungen bei der großflächigen experimentellen Validierung gibt, machen seine theoretischen Beiträge und innovative Perspektive es zu einem wichtigen Fortschritt im Bereich der Optimierungstheorie.