2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos

We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.

academic

Nichtlinear vorkonditionierte Gradientenmethoden: Momentum und stochastische Analyse

Grundinformationen

Paper-ID: 2510.11312
Titel: Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
Autoren: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
Klassifizierung: math.OC (Optimierung und Kontrolle)
Veröffentlichungskonferenz: 39. Konferenz über Neural Information Processing Systems (NeurIPS 2025)
Paper-Link: https://arxiv.org/abs/2510.11312

Zusammenfassung

Diese Arbeit untersucht nichtlinear vorkonditionierte Gradientenmethoden für glatte nichtkonvexe Optimierungsprobleme mit Fokus auf Sigmoid-Vorkonditionierer, die im Wesentlichen die weit verbreitete Gradient-Clipping-Technik ausführen. Basierend auf dieser Idee führen die Autoren einen neuartigen Heavy-Ball-Algorithmus ein und bieten Konvergenzgarantien unter verallgemeinerten Glattheitsbedingungen, die weniger restriktiv als traditionelle Lipschitz-Glattheit sind und somit eine breitere Funktionsklasse abdecken. Darüber hinaus entwickeln die Autoren stochastische Varianten der Basismethode und untersuchen ihre Konvergenzeigenschaften unter verschiedenen Rauschvoraussetzungen.

Forschungshintergrund und Motivation

Zu lösende Probleme: Traditionelle Gradient Descent (GD) und Stochastic Gradient Descent (SGD) Methoden erfordern sorgfältige Parametereinstellung oder teure Liniensuche-Strategien bei der Behandlung moderner Machine-Learning-Anwendungen, die die globale Lipschitz-Gradienten-Annahme nicht erfüllen.
Problemrelevanz: Die meisten Kostenfunktionen in modernen Deep-Learning-Anwendungen erfüllen nicht die traditionelle Lipschitz-Gradienten-Annahme, und Gradient-Clipping-Techniken sind zur Standardpraxis bei Aufgaben wie Sprachmodellen geworden, um das Neuronale-Netzwerk-Training zu stabilisieren.
Einschränkungen bestehender Methoden:
- Standard-GD/SGD-Methoden konvergieren schwierig bei Problemen, die über Lipschitz-Glattheit hinausgehen
- Die theoretische Analyse bestehender Gradient-Clipping-Methoden ist hauptsächlich auf spezifische Glattheitsbedingungen beschränkt
- Mangel an Momentum-Methoden-Analyse in allgemeineren Einstellungen
Forschungsmotivation: Vereinigung von Gradient-Clipping-Methoden in einem nichtlinearen Vorkonditionierungs-Framework und Erweiterung auf allgemeinere theoretische Analysen, die Momentum- und stochastische Varianten einschließen.

Kernbeiträge

Erweiterung anisotroper Gradientenabstiegsmethoden: Durch Einbeziehung von Heavy-Ball-Momentum in die Basis-Iteration werden Konvergenzgarantien in allgemeinen nichtkonvexen Einstellungen untersucht.
Vorschlag stochastischer Erweiterungen: Analyse stochastischer Versionen der Basismethode unter verschiedenen Rauschvoraussetzungen, einschließlich weniger restriktiver Bedingungen als beschränkte Varianz.
Theoretische Analysebeiträge:
- Konvergenznachweis für Momentum-Algorithmen unter anisotropen Abstiegsungleichungen
- Lineare Konvergenzrate unter verallgemeinerten PL-Bedingungen
- Analyse stochastischer Methoden unter neuen Rauschvoraussetzungen
Experimentelle Validierung: Demonstration der guten Leistung der vorgeschlagenen Methode auf verschiedenen Machine-Learning-Aufgaben, einschließlich Neuronale-Netzwerk-Training und Matrixfaktorisierung.

Methodische Details

Aufgabendefinition

Betrachten Sie das allgemeine Minimierungsproblem: $\min_{x \in \mathbb{R}^n} f(x)$ wobei $f: \mathbb{R}^n \to \mathbb{R}$ eine glatte und möglicherweise nichtkonvexe Funktion ist.

Kern-Framework: Nichtlinear vorkonditionierte Gradientenmethode

Basismethode: $x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))$

wobei $\phi: \mathbb{R}^n \to \mathbb{R}$ eine konvexe Referenzfunktion ist, $\phi^*$ ihre konvexe Konjugierte ist, und $\nabla \phi^*$ den Vorkonditionierer erzeugt.

Schlüsselidee: Durch Wahl einer stark konvexen Referenzfunktion $\phi$ mit beschränktem Definitionsbereich bildet die Abbildung $\nabla \phi^*$ $\mathbb{R}^n$ auf die Einheits- $n$ -Sphäre ab und implementiert natürlicherweise Gradient-Clipping.

Algorithmus 1: Nichtlinear vorkonditionierte Gradientenmethode mit Momentum (m-NPGM)

Eingabe: Wähle x⁰ ∈ ℝⁿ, γ, β > 0, setze m⁻¹ = 0ⁿ
Wiederhole k = 0, 1, ... bis Konvergenz:
1. Berechne mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ))
2. Berechne xᵏ⁺¹ = xᵏ - γmᵏ

Äquivalente Form: $x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})$

Anisotrope Abstiegsungleichung

Definition: Eine Funktion $f$ erfüllt die anisotrope Abstiegseigenschaft bezüglich $\phi$ , wenn für alle $x, \bar{x} \in \mathbb{R}^n$ gilt: $f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y})$ wobei $\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))$ .

Technische Innovationen

Momentum-Design: Im Gegensatz zu Standardmethoden besteht das Momentum in dieser Arbeit aus einer konvexen Kombination vorkonditionierter Gradienten, nicht aus aggregierten Gradienten, die dann vorkonditioniert werden.
Verallgemeinerte Glattheit: Anisotrope Glattheit ist weniger restriktiv als $(L_0, L_1)$ -Glattheit und deckt eine breitere Funktionsklasse ab.
Einheitlicher Analyserahmen: Einheitliche Konvergenzanalyse basierend auf der Konvexität der Referenzfunktion $\phi$ .

Theoretische Ergebnisse

Hauptkonvergenzsatz

Satz 2.2: Unter anisotroper Glattheitsbedingung, für $\beta \in [0, 0.5)$ und $\gamma = \alpha/L$ , $\alpha \leq 1$ : $\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}$

Satz 2.4: Unter verallgemeinerter PL-Bedingung, für 2-homogene Referenzfunktionen: $f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*)$ wobei $\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}$ .

Analyse stochastischer Methoden

Satz 3.1: Unter Rauschbedingung $\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2$ : $\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2$

Experimentelle Einrichtung

Datensätze

MNIST: Handschriftliche Ziffernklassifizierung mit zweischichtigem vollständig verbundenem Netzwerk
CIFAR-10/100: Bildklassifizierung mit ResNet-18/34-Architektur
MovieLens 100K: Matrixfaktorisierungsproblem
Phasenwiederherstellung: Nichtkonvexes Optimierungsproblem

Bewertungsmetriken

Konvergenzgeschwindigkeit des Trainingsverlusts
Test-Genauigkeit
Gradienten-Norm $\|\nabla f(x^k)\|$

Vergleichsmethoden

SGD/SGDm: Standard-Stochastischer Gradientenabstieg und seine Momentum-Variante
Adam: Adaptive-Lernrate-Methode
GD/GDm: Standard-Gradientenabstieg und seine Momentum-Variante
AdGD-accel: Beschleunigte Variante adaptiver Gradientenmethoden

Implementierungsdetails

Verwendung fester Schrittweite
Hyperbolischer Gradientenabstieg (HGD): $\phi(x) = \cosh(\|x\|) - 1$
Separierte Version: $\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1$

Experimentelle Ergebnisse

Hauptergebnisse

MNIST-Klassifizierung: iHGD erreicht schnell kleine Trainingsverluste und übertrifft SGD und Adam
CIFAR-10-Klassifizierung: Vorgeschlagene Methode zeigt vergleichbare Leistung mit SGD und SGDm, die für dieses Problem State-of-the-Art sind
Matrixfaktorisierung: iHGDm zeigt signifikante Überlegenheit gegenüber anderen Methoden und größere Stabilität bei verschiedenen zufälligen Initialisierungen
Phasenwiederherstellung: sHGD zeigt ähnliche Leistung wie Gradient-Clipping-Methoden

Wichtige Erkenntnisse

Adaptive Schrittweite: Für Referenzfunktionen mit superquadratischem Wachstum bildet der Vorkonditionierer natürlicherweise eine Sigmoid-Form und bietet implizite adaptive Schrittweiten-Regeln
Stabilität: Bei nichtkonvexen Problemen wie Matrixfaktorisierung zeigt die vorgeschlagene Methode bessere Stabilität
Breite Anwendbarkeit: Die Methode zeigt gute Leistung bei verschiedenen Arten von Machine-Learning-Aufgaben

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Erweiterung anisotroper Gradientenabstiegsmethoden zur Einbeziehung von Heavy-Ball-Momentum
Bereitstellung von Konvergenzgarantien unter weniger restriktiven Bedingungen als traditionelle Lipschitz-Glattheit
Entwicklung stochastischer Versionen und deren Analyse unter neuen Rauschvoraussetzungen
Experimentelle Validierung der Methodeneffektivität auf verschiedenen Machine-Learning-Aufgaben

Einschränkungen

Momentum-Parameter beschränkt auf $\beta \in [0, 0.5)$ , keine Erweiterung auf $\beta \in [0, 1)$ möglich
Vorkonditionierte Lipschitz-Kontinuität ist restriktiver als anisotrope Glattheit
Unvollständige Analyse stochastischer Momentum-Methoden

Zukünftige Richtungen

Einheitliche Analyse von Momentum-Algorithmen unter gelockerten Referenzfunktions-Voraussetzungen
Erweiterung auf beliebige $\beta \in [0, 1)$ Momentum-Parameter
Erweiterung vollständiger proximaler Gradienten-Typ-Algorithmen zur Einbeziehung von Momentum
Entfernung der Abhängigkeit von Batch-Größe für stochastische Algorithmen und Einbeziehung von Momentum

Tiefgreifende Bewertung

Stärken

Theoretische Innovation: Erste Analyse von Momentum-Methoden unter anisotroper Glattheitsbedingung
Einheitlicher Rahmen: Vereinigung mehrerer Methoden wie Gradient-Clipping in einem nichtlinearen Vorkonditionierungs-Framework
Praktischer Wert: Methode zeigt gute Leistung bei praktischen Machine-Learning-Aufgaben
Analysentiefe: Vollständige theoretische Analyse in deterministischen und stochastischen Einstellungen

Mängel

Parameterbeschränkungen: Momentum-Parameter-Beschränkung ( $\beta < 0.5$ ) ist restriktiver als Standardanalyse
Annahmestärke: Einige theoretische Ergebnisse erfordern zusätzliche technische Voraussetzungen
Experimentumfang: Experimente konzentrieren sich hauptsächlich auf Standardaufgaben, mangelnde Validierung breiterer Anwendungen

Einfluss

Theoretischer Beitrag: Neue Werkzeuge und Einsichten für theoretische Analyse nichtlinearer Vorkonditionierungsmethoden
Praktischer Wert: Neue Methoden zur Behandlung von Optimierungsproblemen außerhalb standardmäßiger Glattheitsvorraussetzungen
Reproduzierbarkeit: Autoren stellen öffentliche Code-Implementierung bereit

Anwendungsszenarien

Neuronale-Netzwerk-Training, besonders bei Szenarien mit großen Gradienten
Nichtkonvexe Optimierungsprobleme wie Matrixfaktorisierung
Anwendungen, die Gradient-Clipping oder Normalisierung erfordern
Optimierungsprobleme außerhalb standardmäßiger Lipschitz-Glattheit

Literaturverzeichnis

Das Paper enthält 48 Literaturverweise, die wichtige Arbeiten in Optimierungstheorie, Machine Learning und numerischen Methoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.