Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic
Nichtlinear vorkonditionierte Gradientenmethoden: Momentum und stochastische Analyse
Diese Arbeit untersucht nichtlinear vorkonditionierte Gradientenmethoden für glatte nichtkonvexe Optimierungsprobleme mit Fokus auf Sigmoid-Vorkonditionierer, die im Wesentlichen die weit verbreitete Gradient-Clipping-Technik ausführen. Basierend auf dieser Idee führen die Autoren einen neuartigen Heavy-Ball-Algorithmus ein und bieten Konvergenzgarantien unter verallgemeinerten Glattheitsbedingungen, die weniger restriktiv als traditionelle Lipschitz-Glattheit sind und somit eine breitere Funktionsklasse abdecken. Darüber hinaus entwickeln die Autoren stochastische Varianten der Basismethode und untersuchen ihre Konvergenzeigenschaften unter verschiedenen Rauschvoraussetzungen.
Zu lösende Probleme: Traditionelle Gradient Descent (GD) und Stochastic Gradient Descent (SGD) Methoden erfordern sorgfältige Parametereinstellung oder teure Liniensuche-Strategien bei der Behandlung moderner Machine-Learning-Anwendungen, die die globale Lipschitz-Gradienten-Annahme nicht erfüllen.
Problemrelevanz: Die meisten Kostenfunktionen in modernen Deep-Learning-Anwendungen erfüllen nicht die traditionelle Lipschitz-Gradienten-Annahme, und Gradient-Clipping-Techniken sind zur Standardpraxis bei Aufgaben wie Sprachmodellen geworden, um das Neuronale-Netzwerk-Training zu stabilisieren.
Einschränkungen bestehender Methoden:
Standard-GD/SGD-Methoden konvergieren schwierig bei Problemen, die über Lipschitz-Glattheit hinausgehen
Die theoretische Analyse bestehender Gradient-Clipping-Methoden ist hauptsächlich auf spezifische Glattheitsbedingungen beschränkt
Mangel an Momentum-Methoden-Analyse in allgemeineren Einstellungen
Forschungsmotivation: Vereinigung von Gradient-Clipping-Methoden in einem nichtlinearen Vorkonditionierungs-Framework und Erweiterung auf allgemeinere theoretische Analysen, die Momentum- und stochastische Varianten einschließen.
Erweiterung anisotroper Gradientenabstiegsmethoden: Durch Einbeziehung von Heavy-Ball-Momentum in die Basis-Iteration werden Konvergenzgarantien in allgemeinen nichtkonvexen Einstellungen untersucht.
Vorschlag stochastischer Erweiterungen: Analyse stochastischer Versionen der Basismethode unter verschiedenen Rauschvoraussetzungen, einschließlich weniger restriktiver Bedingungen als beschränkte Varianz.
Theoretische Analysebeiträge:
Konvergenznachweis für Momentum-Algorithmen unter anisotropen Abstiegsungleichungen
Lineare Konvergenzrate unter verallgemeinerten PL-Bedingungen
Analyse stochastischer Methoden unter neuen Rauschvoraussetzungen
Experimentelle Validierung: Demonstration der guten Leistung der vorgeschlagenen Methode auf verschiedenen Machine-Learning-Aufgaben, einschließlich Neuronale-Netzwerk-Training und Matrixfaktorisierung.
wobei ϕ:Rn→R eine konvexe Referenzfunktion ist, ϕ∗ ihre konvexe Konjugierte ist, und ∇ϕ∗ den Vorkonditionierer erzeugt.
Schlüsselidee: Durch Wahl einer stark konvexen Referenzfunktion ϕ mit beschränktem Definitionsbereich bildet die Abbildung ∇ϕ∗Rn auf die Einheits-n-Sphäre ab und implementiert natürlicherweise Gradient-Clipping.
Definition: Eine Funktion f erfüllt die anisotrope Abstiegseigenschaft bezüglich ϕ, wenn für alle x,xˉ∈Rn gilt:
f(x)≤f(xˉ)+L1⋆ϕ(x−yˉ)−L1⋆ϕ(xˉ−yˉ)
wobei yˉ=xˉ−L1∇ϕ∗(∇f(xˉ)).
Momentum-Design: Im Gegensatz zu Standardmethoden besteht das Momentum in dieser Arbeit aus einer konvexen Kombination vorkonditionierter Gradienten, nicht aus aggregierten Gradienten, die dann vorkonditioniert werden.
Verallgemeinerte Glattheit: Anisotrope Glattheit ist weniger restriktiv als (L0,L1)-Glattheit und deckt eine breitere Funktionsklasse ab.
Einheitlicher Analyserahmen: Einheitliche Konvergenzanalyse basierend auf der Konvexität der Referenzfunktion ϕ.
MNIST-Klassifizierung: iHGD erreicht schnell kleine Trainingsverluste und übertrifft SGD und Adam
CIFAR-10-Klassifizierung: Vorgeschlagene Methode zeigt vergleichbare Leistung mit SGD und SGDm, die für dieses Problem State-of-the-Art sind
Matrixfaktorisierung: iHGDm zeigt signifikante Überlegenheit gegenüber anderen Methoden und größere Stabilität bei verschiedenen zufälligen Initialisierungen
Phasenwiederherstellung: sHGD zeigt ähnliche Leistung wie Gradient-Clipping-Methoden
Adaptive Schrittweite: Für Referenzfunktionen mit superquadratischem Wachstum bildet der Vorkonditionierer natürlicherweise eine Sigmoid-Form und bietet implizite adaptive Schrittweiten-Regeln
Stabilität: Bei nichtkonvexen Problemen wie Matrixfaktorisierung zeigt die vorgeschlagene Methode bessere Stabilität
Breite Anwendbarkeit: Die Methode zeigt gute Leistung bei verschiedenen Arten von Machine-Learning-Aufgaben
Das Paper enthält 48 Literaturverweise, die wichtige Arbeiten in Optimierungstheorie, Machine Learning und numerischen Methoden abdecken und eine solide theoretische Grundlage für die Forschung bieten.