2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic

Nichtlinear vorkonditionierte Gradientenmethoden: Momentum und stochastische Analyse

Grundinformationen

  • Paper-ID: 2510.11312
  • Titel: Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
  • Autoren: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
  • Klassifizierung: math.OC (Optimierung und Kontrolle)
  • Veröffentlichungskonferenz: 39. Konferenz über Neural Information Processing Systems (NeurIPS 2025)
  • Paper-Link: https://arxiv.org/abs/2510.11312

Zusammenfassung

Diese Arbeit untersucht nichtlinear vorkonditionierte Gradientenmethoden für glatte nichtkonvexe Optimierungsprobleme mit Fokus auf Sigmoid-Vorkonditionierer, die im Wesentlichen die weit verbreitete Gradient-Clipping-Technik ausführen. Basierend auf dieser Idee führen die Autoren einen neuartigen Heavy-Ball-Algorithmus ein und bieten Konvergenzgarantien unter verallgemeinerten Glattheitsbedingungen, die weniger restriktiv als traditionelle Lipschitz-Glattheit sind und somit eine breitere Funktionsklasse abdecken. Darüber hinaus entwickeln die Autoren stochastische Varianten der Basismethode und untersuchen ihre Konvergenzeigenschaften unter verschiedenen Rauschvoraussetzungen.

Forschungshintergrund und Motivation

  1. Zu lösende Probleme: Traditionelle Gradient Descent (GD) und Stochastic Gradient Descent (SGD) Methoden erfordern sorgfältige Parametereinstellung oder teure Liniensuche-Strategien bei der Behandlung moderner Machine-Learning-Anwendungen, die die globale Lipschitz-Gradienten-Annahme nicht erfüllen.
  2. Problemrelevanz: Die meisten Kostenfunktionen in modernen Deep-Learning-Anwendungen erfüllen nicht die traditionelle Lipschitz-Gradienten-Annahme, und Gradient-Clipping-Techniken sind zur Standardpraxis bei Aufgaben wie Sprachmodellen geworden, um das Neuronale-Netzwerk-Training zu stabilisieren.
  3. Einschränkungen bestehender Methoden:
    • Standard-GD/SGD-Methoden konvergieren schwierig bei Problemen, die über Lipschitz-Glattheit hinausgehen
    • Die theoretische Analyse bestehender Gradient-Clipping-Methoden ist hauptsächlich auf spezifische Glattheitsbedingungen beschränkt
    • Mangel an Momentum-Methoden-Analyse in allgemeineren Einstellungen
  4. Forschungsmotivation: Vereinigung von Gradient-Clipping-Methoden in einem nichtlinearen Vorkonditionierungs-Framework und Erweiterung auf allgemeinere theoretische Analysen, die Momentum- und stochastische Varianten einschließen.

Kernbeiträge

  1. Erweiterung anisotroper Gradientenabstiegsmethoden: Durch Einbeziehung von Heavy-Ball-Momentum in die Basis-Iteration werden Konvergenzgarantien in allgemeinen nichtkonvexen Einstellungen untersucht.
  2. Vorschlag stochastischer Erweiterungen: Analyse stochastischer Versionen der Basismethode unter verschiedenen Rauschvoraussetzungen, einschließlich weniger restriktiver Bedingungen als beschränkte Varianz.
  3. Theoretische Analysebeiträge:
    • Konvergenznachweis für Momentum-Algorithmen unter anisotropen Abstiegsungleichungen
    • Lineare Konvergenzrate unter verallgemeinerten PL-Bedingungen
    • Analyse stochastischer Methoden unter neuen Rauschvoraussetzungen
  4. Experimentelle Validierung: Demonstration der guten Leistung der vorgeschlagenen Methode auf verschiedenen Machine-Learning-Aufgaben, einschließlich Neuronale-Netzwerk-Training und Matrixfaktorisierung.

Methodische Details

Aufgabendefinition

Betrachten Sie das allgemeine Minimierungsproblem: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x) wobei f:RnRf: \mathbb{R}^n \to \mathbb{R} eine glatte und möglicherweise nichtkonvexe Funktion ist.

Kern-Framework: Nichtlinear vorkonditionierte Gradientenmethode

Basismethode: xk+1=xkγϕ(f(xk))x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))

wobei ϕ:RnR\phi: \mathbb{R}^n \to \mathbb{R} eine konvexe Referenzfunktion ist, ϕ\phi^* ihre konvexe Konjugierte ist, und ϕ\nabla \phi^* den Vorkonditionierer erzeugt.

Schlüsselidee: Durch Wahl einer stark konvexen Referenzfunktion ϕ\phi mit beschränktem Definitionsbereich bildet die Abbildung ϕ\nabla \phi^* Rn\mathbb{R}^n auf die Einheits-nn-Sphäre ab und implementiert natürlicherweise Gradient-Clipping.

Algorithmus 1: Nichtlinear vorkonditionierte Gradientenmethode mit Momentum (m-NPGM)

Eingabe: Wähle x⁰ ∈ ℝⁿ, γ, β > 0, setze m⁻¹ = 0ⁿ
Wiederhole k = 0, 1, ... bis Konvergenz:
1. Berechne mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Berechne xᵏ⁺¹ = xᵏ - γmᵏ

Äquivalente Form: xk+1=xk(1β)γϕ(f(xk))+β(xkxk1)x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})

Anisotrope Abstiegsungleichung

Definition: Eine Funktion ff erfüllt die anisotrope Abstiegseigenschaft bezüglich ϕ\phi, wenn für alle x,xˉRnx, \bar{x} \in \mathbb{R}^n gilt: f(x)f(xˉ)+1Lϕ(xyˉ)1Lϕ(xˉyˉ)f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y}) wobei yˉ=xˉ1Lϕ(f(xˉ))\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x})).

Technische Innovationen

  1. Momentum-Design: Im Gegensatz zu Standardmethoden besteht das Momentum in dieser Arbeit aus einer konvexen Kombination vorkonditionierter Gradienten, nicht aus aggregierten Gradienten, die dann vorkonditioniert werden.
  2. Verallgemeinerte Glattheit: Anisotrope Glattheit ist weniger restriktiv als (L0,L1)(L_0, L_1)-Glattheit und deckt eine breitere Funktionsklasse ab.
  3. Einheitlicher Analyserahmen: Einheitliche Konvergenzanalyse basierend auf der Konvexität der Referenzfunktion ϕ\phi.

Theoretische Ergebnisse

Hauptkonvergenzsatz

Satz 2.2: Unter anisotroper Glattheitsbedingung, für β[0,0.5)\beta \in [0, 0.5) und γ=α/L\gamma = \alpha/L, α1\alpha \leq 1: min0kKϕ(ϕ(f(xk)))L(f(x0)f)α(K+1)(12β)\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}

Satz 2.4: Unter verallgemeinerter PL-Bedingung, für 2-homogene Referenzfunktionen: f(xk)fαk(f(x0)f)f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*) wobei α=max{1γμ(β2β2),β+2β2}\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}.

Analyse stochastischer Methoden

Satz 3.1: Unter Rauschbedingung E[ϕ(ϕ(f(x))ϕ(g(x)))]σ2\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2: E[1Kk=0K1ϕ(ϕ(f(xk)))]f(x0)fγK+σ2\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2

Experimentelle Einrichtung

Datensätze

  1. MNIST: Handschriftliche Ziffernklassifizierung mit zweischichtigem vollständig verbundenem Netzwerk
  2. CIFAR-10/100: Bildklassifizierung mit ResNet-18/34-Architektur
  3. MovieLens 100K: Matrixfaktorisierungsproblem
  4. Phasenwiederherstellung: Nichtkonvexes Optimierungsproblem

Bewertungsmetriken

  • Konvergenzgeschwindigkeit des Trainingsverlusts
  • Test-Genauigkeit
  • Gradienten-Norm f(xk)\|\nabla f(x^k)\|

Vergleichsmethoden

  • SGD/SGDm: Standard-Stochastischer Gradientenabstieg und seine Momentum-Variante
  • Adam: Adaptive-Lernrate-Methode
  • GD/GDm: Standard-Gradientenabstieg und seine Momentum-Variante
  • AdGD-accel: Beschleunigte Variante adaptiver Gradientenmethoden

Implementierungsdetails

  • Verwendung fester Schrittweite
  • Hyperbolischer Gradientenabstieg (HGD): ϕ(x)=cosh(x)1\phi(x) = \cosh(\|x\|) - 1
  • Separierte Version: ϕ(x)=i=1ncosh(xi)1\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1

Experimentelle Ergebnisse

Hauptergebnisse

  1. MNIST-Klassifizierung: iHGD erreicht schnell kleine Trainingsverluste und übertrifft SGD und Adam
  2. CIFAR-10-Klassifizierung: Vorgeschlagene Methode zeigt vergleichbare Leistung mit SGD und SGDm, die für dieses Problem State-of-the-Art sind
  3. Matrixfaktorisierung: iHGDm zeigt signifikante Überlegenheit gegenüber anderen Methoden und größere Stabilität bei verschiedenen zufälligen Initialisierungen
  4. Phasenwiederherstellung: sHGD zeigt ähnliche Leistung wie Gradient-Clipping-Methoden

Wichtige Erkenntnisse

  1. Adaptive Schrittweite: Für Referenzfunktionen mit superquadratischem Wachstum bildet der Vorkonditionierer natürlicherweise eine Sigmoid-Form und bietet implizite adaptive Schrittweiten-Regeln
  2. Stabilität: Bei nichtkonvexen Problemen wie Matrixfaktorisierung zeigt die vorgeschlagene Methode bessere Stabilität
  3. Breite Anwendbarkeit: Die Methode zeigt gute Leistung bei verschiedenen Arten von Machine-Learning-Aufgaben

Verwandte Arbeiten

Duale Raum-Vorkonditionierung/Anisotroper Gradientenabstieg

  • Ursprünglich in 32 für konvexe essentiell glatte Probleme eingeführt
  • Anisotrope Abstiegsungleichung in 24 eingeführt
  • In 36 gezeigt, dass die Methode viele populäre Algorithmen enthält

Gradient-Clipping und verallgemeinerte Glattheit

  • (L0,L1)(L_0, L_1)-Glattheit-Konzept in 48 eingeführt
  • Analyse allgemeiner Clipping-Frameworks mit Momentum in 47
  • Umfangreiche Arbeiten zur Untersuchung solcher Methoden unter gelockerten Rausch- und Glattheitsvorraussetzungen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Erweiterung anisotroper Gradientenabstiegsmethoden zur Einbeziehung von Heavy-Ball-Momentum
  2. Bereitstellung von Konvergenzgarantien unter weniger restriktiven Bedingungen als traditionelle Lipschitz-Glattheit
  3. Entwicklung stochastischer Versionen und deren Analyse unter neuen Rauschvoraussetzungen
  4. Experimentelle Validierung der Methodeneffektivität auf verschiedenen Machine-Learning-Aufgaben

Einschränkungen

  1. Momentum-Parameter beschränkt auf β[0,0.5)\beta \in [0, 0.5), keine Erweiterung auf β[0,1)\beta \in [0, 1) möglich
  2. Vorkonditionierte Lipschitz-Kontinuität ist restriktiver als anisotrope Glattheit
  3. Unvollständige Analyse stochastischer Momentum-Methoden

Zukünftige Richtungen

  1. Einheitliche Analyse von Momentum-Algorithmen unter gelockerten Referenzfunktions-Voraussetzungen
  2. Erweiterung auf beliebige β[0,1)\beta \in [0, 1) Momentum-Parameter
  3. Erweiterung vollständiger proximaler Gradienten-Typ-Algorithmen zur Einbeziehung von Momentum
  4. Entfernung der Abhängigkeit von Batch-Größe für stochastische Algorithmen und Einbeziehung von Momentum

Tiefgreifende Bewertung

Stärken

  1. Theoretische Innovation: Erste Analyse von Momentum-Methoden unter anisotroper Glattheitsbedingung
  2. Einheitlicher Rahmen: Vereinigung mehrerer Methoden wie Gradient-Clipping in einem nichtlinearen Vorkonditionierungs-Framework
  3. Praktischer Wert: Methode zeigt gute Leistung bei praktischen Machine-Learning-Aufgaben
  4. Analysentiefe: Vollständige theoretische Analyse in deterministischen und stochastischen Einstellungen

Mängel

  1. Parameterbeschränkungen: Momentum-Parameter-Beschränkung (β<0.5\beta < 0.5) ist restriktiver als Standardanalyse
  2. Annahmestärke: Einige theoretische Ergebnisse erfordern zusätzliche technische Voraussetzungen
  3. Experimentumfang: Experimente konzentrieren sich hauptsächlich auf Standardaufgaben, mangelnde Validierung breiterer Anwendungen

Einfluss

  1. Theoretischer Beitrag: Neue Werkzeuge und Einsichten für theoretische Analyse nichtlinearer Vorkonditionierungsmethoden
  2. Praktischer Wert: Neue Methoden zur Behandlung von Optimierungsproblemen außerhalb standardmäßiger Glattheitsvorraussetzungen
  3. Reproduzierbarkeit: Autoren stellen öffentliche Code-Implementierung bereit

Anwendungsszenarien

  1. Neuronale-Netzwerk-Training, besonders bei Szenarien mit großen Gradienten
  2. Nichtkonvexe Optimierungsprobleme wie Matrixfaktorisierung
  3. Anwendungen, die Gradient-Clipping oder Normalisierung erfordern
  4. Optimierungsprobleme außerhalb standardmäßiger Lipschitz-Glattheit

Literaturverzeichnis

Das Paper enthält 48 Literaturverweise, die wichtige Arbeiten in Optimierungstheorie, Machine Learning und numerischen Methoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.