2025-11-19T10:07:13.697330

Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis

Oikonomidis, Quan, Patrinos
We study nonlinearly preconditioned gradient methods for smooth nonconvex optimization problems, focusing on sigmoid preconditioners that inherently perform a form of gradient clipping akin to the widely used gradient clipping technique. Building upon this idea, we introduce a novel heavy ball-type algorithm and provide convergence guarantees under a generalized smoothness condition that is less restrictive than traditional Lipschitz smoothness, thus covering a broader class of functions. Additionally, we develop a stochastic variant of the base method and study its convergence properties under different noise assumptions. We compare the proposed algorithms with baseline methods on diverse tasks from machine learning including neural network training.
academic

अरैखिक पूर्वशर्तित ग्रेडिएंट विधियाँ: संवेग और स्टोकेस्टिक विश्लेषण

मूल जानकारी

  • पेपर ID: 2510.11312
  • शीर्षक: Nonlinearly Preconditioned Gradient Methods: Momentum and Stochastic Analysis
  • लेखक: Konstantinos Oikonomidis, Jan Quan, Panagiotis Patrinos (KU Leuven)
  • वर्गीकरण: math.OC (अनुकूलन और नियंत्रण)
  • प्रकाशन सम्मेलन: 39th Conference on Neural Information Processing Systems (NeurIPS 2025)
  • पेपर लिंक: https://arxiv.org/abs/2510.11312

सारांश

यह पेपर चिकनी अ-उत्तल अनुकूलन समस्याओं के लिए अरैखिक पूर्वशर्तित ग्रेडिएंट विधियों का अध्ययन करता है, जो मुख्य रूप से सिग्मॉइड पूर्वशर्तकर्ता पर ध्यान केंद्रित करता है जो व्यापक रूप से उपयोग की जाने वाली ग्रेडिएंट क्लिपिंग तकनीक के समान कार्य करता है। इस विचार के आधार पर, लेखकों ने एक नई भारी गेंद प्रकार की एल्गोरिथ्म प्रस्तुत की है और पारंपरिक Lipschitz चिकनाई प्रतिबंधों की तुलना में अधिक शिथिल सामान्यीकृत चिकनाई शर्तों के तहत अभिसरण गारंटी प्रदान की है, जो कार्यों की व्यापक श्रेणी को कवर करती है। इसके अतिरिक्त, लेखकों ने मूल विधि के स्टोकेस्टिक वेरिएंट विकसित किए हैं और विभिन्न शोर मान्यताओं के तहत इसके अभिसरण गुणों का अध्ययन किया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

  1. समस्या को हल करना: पारंपरिक ग्रेडिएंट डिसेंट (GD) और स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) विधियों को आधुनिक मशीन लर्निंग अनुप्रयोगों में सावधानीपूर्वक पैरामीटर ट्यूनिंग या महंगी लाइन सर्च रणनीतियों की आवश्यकता होती है जो वैश्विक Lipschitz ग्रेडिएंट मान्यता को संतुष्ट नहीं करते हैं।
  2. समस्या की महत्ता: आधुनिक गहन शिक्षण अनुप्रयोगों में अधिकांश लागत कार्य पारंपरिक Lipschitz ग्रेडिएंट मान्यता को संतुष्ट नहीं करते हैं, और ग्रेडिएंट क्लिपिंग तकनीक भाषा मॉडल जैसे कार्यों के लिए तंत्रिका नेटवर्क प्रशिक्षण को स्थिर करने के लिए मानक अभ्यास बन गई है।
  3. मौजूदा विधियों की सीमाएं:
    • मानक GD/SGD विधियों को Lipschitz चिकनाई से परे समस्याओं को संभालने में अभिसरण कठिनाई होती है
    • मौजूदा ग्रेडिएंट क्लिपिंग विधियों का सैद्धांतिक विश्लेषण मुख्य रूप से विशिष्ट चिकनाई शर्तों तक सीमित है
    • अधिक सामान्य सेटिंग में संवेग विधियों के विश्लेषण की कमी है
  4. अनुसंधान प्रेरणा: ग्रेडिएंट क्लिपिंग विधियों को अरैखिक पूर्वशर्तन ढांचे में एकीकृत करना और संवेग और स्टोकेस्टिक वेरिएंट सहित अधिक सामान्य सैद्धांतिक विश्लेषण तक विस्तार करना।

मुख्य योगदान

  1. विषमदैशिक ग्रेडिएंट डिसेंट विधियों का विस्तार: मूल पुनरावृत्ति में भारी गेंद संवेग को शामिल करके, सामान्य अ-उत्तल सेटिंग में अभिसरण गारंटी का अध्ययन किया।
  2. स्टोकेस्टिक विस्तार प्रस्तुत किया: विभिन्न शोर मान्यताओं के तहत मूल विधि के स्टोकेस्टिक संस्करण का विश्लेषण किया, जिसमें बंधित विचरण की तुलना में अधिक शिथिल शर्तें शामिल हैं।
  3. सैद्धांतिक विश्लेषण योगदान:
    • विषमदैशिक डिसेंट असमानता के तहत संवेग एल्गोरिथ्म की अभिसरण सिद्ध की
    • सामान्यीकृत PL शर्त के तहत रैखिक अभिसरण दर सिद्ध की
    • नई शोर मान्यताओं के तहत स्टोकेस्टिक विधियों का विश्लेषण किया
  4. प्रायोगिक सत्यापन: तंत्रिका नेटवर्क प्रशिक्षण और मैट्रिक्स गुणनखंडन सहित विभिन्न मशीन लर्निंग कार्यों पर प्रस्तावित विधि के अच्छे प्रदर्शन को प्रदर्शित किया।

विधि विवरण

कार्य परिभाषा

सामान्य न्यूनीकरण समस्या पर विचार करें: minxRnf(x)\min_{x \in \mathbb{R}^n} f(x) जहाँ f:RnRf: \mathbb{R}^n \to \mathbb{R} एक चिकना और संभवतः अ-उत्तल कार्य है।

मुख्य ढांचा: अरैखिक पूर्वशर्तित ग्रेडिएंट विधि

मूल विधि: xk+1=xkγϕ(f(xk))x^{k+1} = x^k - \gamma \nabla \phi^*(\nabla f(x^k))

जहाँ ϕ:RnR\phi: \mathbb{R}^n \to \mathbb{R} एक उत्तल संदर्भ कार्य है, ϕ\phi^* इसका उत्तल संयुग्म है, और ϕ\nabla \phi^* पूर्वशर्तकर्ता उत्पन्न करता है।

मुख्य विचार: दृढ़ता से उत्तल और सीमित डोमेन वाले संदर्भ कार्य ϕ\phi का चयन करके, मानचित्र ϕ\nabla \phi^* को Rn\mathbb{R}^n को इकाई nn-गोले में मैप करता है, जो स्वाभाविक रूप से ग्रेडिएंट क्लिपिंग को लागू करता है।

एल्गोरिथ्म 1: संवेग के साथ अरैखिक पूर्वशर्तित ग्रेडिएंट विधि (m-NPGM)

इनपुट: x⁰ ∈ ℝⁿ, γ, β > 0 चुनें, m⁻¹ = 0ⁿ सेट करें
दोहराएं k = 0, 1, ... जब तक अभिसरण न हो:
1. mᵏ = βmᵏ⁻¹ + (1-β)∇φ*(∇f(xᵏ)) की गणना करें
2. xᵏ⁺¹ = xᵏ - γmᵏ की गणना करें

समतुल्य रूप: xk+1=xk(1β)γϕ(f(xk))+β(xkxk1)x^{k+1} = x^k - (1-\beta)\gamma\nabla\phi^*(\nabla f(x^k)) + \beta(x^k - x^{k-1})

विषमदैशिक डिसेंट असमानता

परिभाषा: कार्य ff ϕ\phi के सापेक्ष विषमदैशिक डिसेंट गुण को संतुष्ट करता है, यदि सभी x,xˉRnx, \bar{x} \in \mathbb{R}^n के लिए: f(x)f(xˉ)+1Lϕ(xyˉ)1Lϕ(xˉyˉ)f(x) \leq f(\bar{x}) + \frac{1}{L} \star \phi(x - \bar{y}) - \frac{1}{L} \star \phi(\bar{x} - \bar{y}) जहाँ yˉ=xˉ1Lϕ(f(xˉ))\bar{y} = \bar{x} - \frac{1}{L}\nabla\phi^*(\nabla f(\bar{x}))

तकनीकी नवाचार बिंदु

  1. संवेग डिजाइन: मानक विधियों के विपरीत, इस पेपर का संवेग अनुमान पूर्वशर्तित ग्रेडिएंट के उत्तल संयोजन से बना है, न कि पहले ग्रेडिएंट को एकत्रित करके फिर पूर्वशर्तन करके।
  2. सामान्यीकृत चिकनाई: विषमदैशिक चिकनाई (L0,L1)(L_0, L_1)-चिकनाई प्रतिबंधों की तुलना में कम प्रतिबंधक है, कार्यों की व्यापक श्रेणी को कवर करती है।
  3. एकीकृत विश्लेषण ढांचा: संदर्भ कार्य ϕ\phi की उत्तलता के आधार पर एकीकृत अभिसरण विश्लेषण प्रदान करता है।

सैद्धांतिक परिणाम

मुख्य अभिसरण प्रमेय

प्रमेय 2.2: विषमदैशिक चिकनाई शर्त के तहत, β[0,0.5)\beta \in [0, 0.5) और γ=α/L\gamma = \alpha/L, α1\alpha \leq 1 के लिए: min0kKϕ(ϕ(f(xk)))L(f(x0)f)α(K+1)(12β)\min_{0 \leq k \leq K} \phi(\nabla\phi^*(\nabla f(x^k))) \leq \frac{L(f(x^0) - f^*)}{α(K+1)(1-2\beta)}

प्रमेय 2.4: सामान्यीकृत PL शर्त के तहत, 2-डिग्री सजातीय संदर्भ कार्य के लिए: f(xk)fαk(f(x0)f)f(x^k) - f^* \leq \alpha^k(f(x^0) - f^*) जहाँ α=max{1γμ(β2β2),β+2β2}\alpha = \max\{1 - \gamma\mu(\beta - 2\beta^2), \beta + 2\beta^2\}

स्टोकेस्टिक विधि विश्लेषण

प्रमेय 3.1: शोर शर्त E[ϕ(ϕ(f(x))ϕ(g(x)))]σ2\mathbb{E}[\phi(\nabla\phi^*(\nabla f(x)) - \nabla\phi^*(g(x)))] \leq \sigma^2 के तहत: E[1Kk=0K1ϕ(ϕ(f(xk)))]f(x0)fγK+σ2\mathbb{E}\left[\frac{1}{K}\sum_{k=0}^{K-1} \phi(\nabla\phi^*(\nabla f(x^k)))\right] \leq \frac{f(x^0) - f^*}{\gamma K} + \sigma^2

प्रायोगिक सेटअप

डेटासेट

  1. MNIST: हस्तलिखित अंक वर्गीकरण, दो-परत पूर्ण-संयोजित नेटवर्क का उपयोग करके
  2. CIFAR-10/100: छवि वर्गीकरण, ResNet-18/34 आर्किटेक्चर का उपयोग करके
  3. MovieLens 100K: मैट्रिक्स गुणनखंडन समस्या
  4. चरण पुनः प्राप्ति: अ-उत्तल अनुकूलन समस्या

मूल्यांकन मेट्रिक्स

  • प्रशिक्षण हानि अभिसरण गति
  • परीक्षण सटीकता
  • ग्रेडिएंट मानदंड f(xk)\|\nabla f(x^k)\|

तुलना विधियाँ

  • SGD/SGDm: मानक स्टोकेस्टिक ग्रेडिएंट डिसेंट और इसके संवेग संस्करण
  • Adam: अनुकूली शिक्षण दर विधि
  • GD/GDm: मानक ग्रेडिएंट डिसेंट और इसके संवेग संस्करण
  • AdGD-accel: अनुकूली ग्रेडिएंट विधि का त्वरित वेरिएंट

कार्यान्वयन विवरण

  • निश्चित चरण लंबाई का उपयोग करें
  • हाइपरबोलिक ग्रेडिएंट डिसेंट (HGD): ϕ(x)=cosh(x)1\phi(x) = \cosh(\|x\|) - 1
  • पृथक संस्करण: ϕ(x)=i=1ncosh(xi)1\phi(x) = \sum_{i=1}^n \cosh(x_i) - 1

प्रायोगिक परिणाम

मुख्य परिणाम

  1. MNIST वर्गीकरण: iHGD तेजी से छोटी प्रशिक्षण हानि तक पहुंचता है, SGD और Adam से बेहतर प्रदर्शन करता है
  2. CIFAR-10 वर्गीकरण: प्रस्तावित विधि SGD और SGDm के साथ तुलनीय प्रदर्शन करती है, जो इस समस्या के लिए अत्याधुनिक हैं
  3. मैट्रिक्स गुणनखंडन: iHGDm अन्य विधियों से काफी बेहतर प्रदर्शन करता है, विभिन्न यादृच्छिक आरंभीकरण के तहत अधिक स्थिर है
  4. चरण पुनः प्राप्ति: sHGD ग्रेडिएंट क्लिपिंग विधियों के समान प्रदर्शन करता है

मुख्य निष्कर्ष

  1. अनुकूली चरण लंबाई: द्विघात से अधिक वृद्धि दर वाले संदर्भ कार्यों के लिए, पूर्वशर्तकर्ता स्वाभाविक रूप से सिग्मॉइड आकार बनाता है, जो निहित अनुकूली चरण लंबाई नियम प्रदान करता है
  2. स्थिरता: मैट्रिक्स गुणनखंडन जैसी अ-उत्तल समस्याओं पर, प्रस्तावित विधि बेहतर स्थिरता प्रदर्शित करती है
  3. व्यापक प्रयोज्यता: विधि विभिन्न प्रकार के मशीन लर्निंग कार्यों पर अच्छा प्रदर्शन करती है

संबंधित कार्य

द्वि-स्थान पूर्वशर्तन/विषमदैशिक ग्रेडिएंट डिसेंट

  • मूल रूप से 32 में उत्तल अनिवार्य रूप से चिकनी समस्याओं के लिए प्रस्तुत
  • 24 में विषमदैशिक डिसेंट असमानता प्रस्तुत की गई
  • 36 में दिखाया गया कि विधि कई लोकप्रिय एल्गोरिथ्म को शामिल करती है

ग्रेडिएंट क्लिपिंग और सामान्यीकृत चिकनाई

  • 48 में (L0,L1)(L_0, L_1)-चिकनाई अवधारणा प्रस्तुत की गई
  • 47 में संवेग के साथ सामान्य क्लिपिंग ढांचे का विश्लेषण किया गया
  • बड़ी संख्या में कार्य शिथिल शोर और चिकनाई मान्यताओं के तहत इस तरह की विधियों का अध्ययन करने के लिए समर्पित हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. विषमदैशिक ग्रेडिएंट डिसेंट विधियों को भारी गेंद संवेग को शामिल करने के लिए सफलतापूर्वक विस्तारित किया
  2. पारंपरिक Lipschitz चिकनाई की तुलना में अधिक शिथिल शर्तों के तहत अभिसरण गारंटी प्रदान की
  3. स्टोकेस्टिक संस्करण विकसित किए और नई शोर मान्यताओं के तहत विश्लेषण किया
  4. विभिन्न मशीन लर्निंग कार्यों पर विधि की प्रभावशीलता का प्रायोगिक सत्यापन किया

सीमाएं

  1. संवेग पैरामीटर β[0,0.5)\beta \in [0, 0.5) तक सीमित है, β[0,1)\beta \in [0, 1) तक विस्तार नहीं किया जा सकता
  2. पूर्वशर्तित Lipschitz निरंतरता मान्यता विषमदैशिक चिकनाई से अधिक कठोर है
  3. स्टोकेस्टिक संवेग विधि का पूर्ण विश्लेषण प्रदान नहीं किया गया

भविष्य की दिशाएं

  1. शिथिल संदर्भ कार्य मान्यताओं के तहत संवेग एल्गोरिथ्म का एकीकृत विश्लेषण
  2. मनमानी β[0,1)\beta \in [0, 1) संवेग पैरामीटर तक विस्तार
  3. संवेग को शामिल करने के लिए पूर्ण निकट ग्रेडिएंट-प्रकार एल्गोरिथ्म का विस्तार
  4. स्टोकेस्टिक एल्गोरिथ्म के लिए बैच आकार पर निर्भरता को हटाना और संवेग को शामिल करना

गहन मूल्यांकन

लाभ

  1. सैद्धांतिक नवाचार: विषमदैशिक चिकनाई शर्त के तहत संवेग विधि का पहला विश्लेषण प्रदान करता है
  2. एकीकृत ढांचा: ग्रेडिएंट क्लिपिंग जैसी कई विधियों को अरैखिक पूर्वशर्तन ढांचे में एकीकृत करता है
  3. व्यावहारिक मूल्य: विधि वास्तविक मशीन लर्निंग कार्यों में अच्छा प्रदर्शन करती है
  4. विश्लेषण गहराई: निश्चित और स्टोकेस्टिक सेटिंग में पूर्ण सैद्धांतिक विश्लेषण प्रदान करता है

कमियाँ

  1. पैरामीटर प्रतिबंध: संवेग पैरामीटर का प्रतिबंध (β<0.5\beta < 0.5) मानक विश्लेषण की तुलना में अधिक कठोर है
  2. मान्यता शक्ति: कुछ सैद्धांतिक परिणामों के लिए अतिरिक्त तकनीकी मान्यताओं की आवश्यकता है
  3. प्रायोगिक श्रेणी: प्रयोग मुख्य रूप से मानक मशीन लर्निंग कार्यों पर केंद्रित हैं, अधिक व्यापक अनुप्रयोग सत्यापन की कमी है

प्रभाव

  1. सैद्धांतिक योगदान: अरैखिक पूर्वशर्तन विधियों के सैद्धांतिक विश्लेषण के लिए नए उपकरण और अंतर्दृष्टि प्रदान करता है
  2. व्यावहारिक मूल्य: मानक चिकनाई मान्यता से परे अनुकूलन समस्याओं को संभालने के लिए नई विधि प्रदान करता है
  3. पुनरुत्पादनीयता: लेखक सार्वजनिक कोड कार्यान्वयन प्रदान करते हैं

प्रयोज्य परिदृश्य

  1. तंत्रिका नेटवर्क प्रशिक्षण, विशेष रूप से ऐसे परिदृश्य जहाँ ग्रेडिएंट बहुत बड़े हो सकते हैं
  2. अ-उत्तल अनुकूलन समस्याएं, जैसे मैट्रिक्स गुणनखंडन
  3. ग्रेडिएंट क्लिपिंग या सामान्यीकरण की आवश्यकता वाले अनुप्रयोग
  4. मानक Lipschitz चिकनाई से परे अनुकूलन समस्याएं

संदर्भ

पेपर में 48 संदर्भ शामिल हैं, जो अनुकूलन सिद्धांत, मशीन लर्निंग और संख्यात्मक विधियों आदि संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को कवर करते हैं, जो अनुसंधान के लिए एक मजबूत सैद्धांतिक आधार प्रदान करते हैं।