Gradient clipping has long been considered essential for ensuring the convergence of Stochastic Gradient Descent (SGD) in the presence of heavy-tailed gradient noise. In this paper, we revisit this belief and explore whether gradient normalization can serve as an effective alternative or complement. We prove that, under individual smoothness assumptions, gradient normalization alone is sufficient to guarantee convergence of the nonconvex SGD. Moreover, when combined with clipping, it yields far better rates of convergence under more challenging noise distributions. We provide a unifying theory describing normalization-only, clipping-only, and combined approaches. Moving forward, we investigate existing variance-reduced algorithms, establishing that, in such a setting, normalization alone is sufficient for convergence. Finally, we present an accelerated variant that under second-order smoothness improves convergence. Our results provide theoretical insights and practical guidance for using normalization and clipping in nonconvex optimization with heavy-tailed noise.
पेपर ID : 2410.16561शीर्षक : Revisiting Gradient Normalization and Clipping for Nonconvex SGD under Heavy-Tailed Noise: Necessity, Sufficiency, and Accelerationलेखक : Tao Sun (राष्ट्रीय रक्षा प्रौद्योगिकी विश्वविद्यालय), Xinwang Liu (राष्ट्रीय रक्षा प्रौद्योगिकी विश्वविद्यालय), Kun Yuan (पीकिंग विश्वविद्यालय)वर्गीकरण : cs.LG, math.OC, stat.MLप्रकाशन समय/सम्मेलन : Journal of Machine Learning Research 26 (2025) 1-42, प्रस्तुत 11/24; संशोधित 9/25; प्रकाशित 11/25पेपर लिंक : https://arxiv.org/abs/2410.16561v4 यह पेपर भारी-पूंछ वाले शोर के तहत स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) के अभिसरण गारंटी में ग्रेडिएंट क्लिपिंग की आवश्यकता के प्रश्न का पुनर्विचार करता है। पारंपरिक दृष्टिकोण मानता है कि भारी-पूंछ वाले ग्रेडिएंट शोर को संभालने के लिए ग्रेडिएंट क्लिपिंग महत्वपूर्ण है, लेकिन यह पेपर साबित करता है: व्यक्तिगत समरूपता की धारणा के तहत, ग्रेडिएंट सामान्यीकरण (gradient normalization) अकेले गैर-उत्तल SGD के अभिसरण को सुनिश्चित कर सकता है । इसके अलावा, जब सामान्यीकरण को क्लिपिंग के साथ जोड़ा जाता है, तो अधिक चुनौतीपूर्ण शोर वितरण के तहत बेहतर अभिसरण दर प्राप्त होती है। पेपर एक एकीकृत सैद्धांतिक ढांचा प्रदान करता है जो केवल सामान्यीकरण, केवल क्लिपिंग और संयुक्त विधियों के प्रदर्शन का वर्णन करता है। अनुसंधान विचरण-कम किए गए एल्गोरिदम तक विस्तारित होता है, यह साबित करते हुए कि सामान्यीकरण अकेले अभिसरण को सुनिश्चित करने के लिए पर्याप्त है, और दूसरे-क्रम समरूपता की धारणा के तहत अभिसरण में सुधार के लिए त्वरित वेरिएंट प्रस्तावित करता है।
मशीन लर्निंग अनुकूलन में, SGD गैर-उत्तल अनुकूलन समस्याओं को हल करने के लिए मुख्य एल्गोरिदम है:
min w ∈ R d f ( w ) : = E ξ ∼ D [ f ( w ; ξ ) ] \min_{w \in \mathbb{R}^d} f(w) := \mathbb{E}_{\xi \sim \mathcal{D}}[f(w; \xi)] min w ∈ R d f ( w ) := E ξ ∼ D [ f ( w ; ξ )]
पारंपरिक SGD विश्लेषण मानता है कि ग्रेडिएंट शोर में बंधा हुआ विचरण है: E ∥ g t − ∇ f ( w t ) ∥ 2 ≤ σ 2 \mathbb{E}\|g_t - \nabla f(w_t)\|^2 \leq \sigma^2 E ∥ g t − ∇ f ( w t ) ∥ 2 ≤ σ 2 । हालांकि, हाल के अनुसंधान (Zhang et al., 2020; Nguyen et al., 2019) से पता चलता है कि तंत्रिका नेटवर्क प्रशिक्षण (विशेष रूप से भाषा मॉडल) के दौरान, यह धारणा अवास्तविक है। व्यावहार में ग्रेडिएंट शोर भारी-पूंछ वाले वितरण की विशेषताएं प्रदर्शित करता है।
धारणा 1 (भारी-पूंछ वाला शोर) : स्थिरांक σ > 0 \sigma > 0 σ > 0 और p ∈ ( 1 , 2 ] p \in (1, 2] p ∈ ( 1 , 2 ] मौजूद हैं जैसे:
sup w ∈ R d { E ξ ∼ D ∥ ∇ f ( w ; ξ ) − ∇ f ( w ) ∥ p } ≤ σ p \sup_{w \in \mathbb{R}^d} \{\mathbb{E}_{\xi \sim \mathcal{D}}\|\nabla f(w; \xi) - \nabla f(w)\|^p\} \leq \sigma^p sup w ∈ R d { E ξ ∼ D ∥∇ f ( w ; ξ ) − ∇ f ( w ) ∥ p } ≤ σ p
जब p = 2 p = 2 p = 2 हो तो यह मानक बंधे हुए विचरण की धारणा में विकृत हो जाता है। जब 1 < p < 2 1 < p < 2 1 < p < 2 हो तो Zhang et al. (2020) साबित करते हैं कि मानक SGD अभिसरण में विफल होता है, जो समस्या की गंभीरता को उजागर करता है।
मुख्यधारा के समाधान :
SGDC (Zhang et al., 2020): ग्रेडिएंट क्लिपिंग का उपयोग करता है Clip h ( w ) : = min { 1 , h ∥ w ∥ } w \text{Clip}_h(w) := \min\{1, \frac{h}{\|w\|}\}w Clip h ( w ) := min { 1 , ∥ w ∥ h } w NSGDC (Cutkosky & Mehta, 2021): ग्रेडिएंट सामान्यीकरण और क्लिपिंग को जोड़ता हैNSGDC-VR (Liu et al., 2023): विचरण-कम किया गया संस्करणसीमाएं :
ग्रेडिएंट क्लिपिंग की आवश्यकता पर पर्याप्त सवाल नहीं उठाया गया : सभी मौजूदा विधियां क्लिपिंग का उपयोग करती हैं, लेकिन क्या यह वास्तव में आवश्यक है?संयुक्त विधि के लाभ स्पष्ट नहीं हैं : NSGDC का अभिसरण दर SGDC के समान है (Liu et al., 2023), संयोजन के सैद्धांतिक लाभ को साबित नहीं करताहाइपरपैरामीटर ट्यूनिंग जटिल है : क्लिपिंग अतिरिक्त हाइपरपैरामीटर h h h का परिचय देता है, ट्यूनिंग बोझ बढ़ाता हैयह पेपर तीन बुनियादी प्रश्न (Q1-Q3) प्रस्तावित करता है:
Q1 : क्या ग्रेडिएंट क्लिपिंग वास्तव में अपरिहार्य है? क्या ग्रेडिएंट सामान्यीकरण अकेले अभिसरण को सुनिश्चित कर सकता है?
Q2 : क्या सामान्यीकरण और क्लिपिंग का संयोजन किसी भी तकनीक को अकेले उपयोग करने से बेहतर है?
Q3 : क्या NSGDC भारी-पूंछ वाले शोर के तहत त्वरित अभिसरण प्राप्त कर सकता है?
इस पेपर के मुख्य योगदान हैं:
ग्रेडिएंट सामान्यीकरण की पर्याप्तता साबित करना (Q1 का उत्तर) :व्यक्तिगत Lipschitz धारणा के तहत, साबित करता है कि ग्रेडिएंट सामान्यीकरण अकेले उपयोग SGD के अभिसरण को सुनिश्चित कर सकता है NSGD और NSGD-VR एल्गोरिदम प्रस्तावित करता है, क्लिपिंग हाइपरपैरामीटर की आवश्यकता नहीं NSGDC/NSGDC-VR के अभिसरण दर में सुधार (Q2 का उत्तर) :पिछले परिणामों में लॉगरिदमिक कारक ln T \ln T ln T को हटाता है साबित करता है कि संयुक्त विधि σ → 0 \sigma \to 0 σ → 0 के समय केवल क्लिपिंग विधि से काफी बेहतर है अपेक्षा के अर्थ में इष्टतम अभिसरण दर O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) प्राप्त करता है त्वरित एल्गोरिदम प्रस्तावित करना (Q3 का उत्तर) :A-NSGDC एल्गोरिदम डिजाइन करता है, दूसरे-क्रम समरूपता का उपयोग करता है अभिसरण दर O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) से O ( T − 2 p − 2 4 p − 1 ) O(T^{-\frac{2p-2}{4p-1}}) O ( T − 4 p − 1 2 p − 2 ) तक सुधारता है एकीकृत सैद्धांतिक ढांचा :सामान्यीकरण, क्लिपिंग, संयुक्त विधियों को कवर करने वाला एकीकृत विश्लेषण प्रदान करता है प्रत्येक विधि के लागू दृश्य और प्रदर्शन सीमाओं को स्पष्ट करता है मिनी-बैच आवश्यकता नहीं :सभी परिणामों को बड़े बैच की धारणा की आवश्यकता नहीं है, सामान्यीकरण प्रदर्शन के लिए अनुकूल है अनुकूलन समस्या :
min w ∈ R d f ( w ) = E ξ ∼ D [ f ( w ; ξ ) ] \min_{w \in \mathbb{R}^d} f(w) = \mathbb{E}_{\xi \sim \mathcal{D}}[f(w; \xi)] min w ∈ R d f ( w ) = E ξ ∼ D [ f ( w ; ξ )]
लक्ष्य : भारी-पूंछ वाले शोर (धारणा 1) के तहत, ϵ \epsilon ϵ -अनुमानित प्रथम-क्रम स्थिर बिंदु खोजें, अर्थात् ∥ ∇ f ( w ) ∥ ≤ ϵ \|\nabla f(w)\| \leq \epsilon ∥∇ f ( w ) ∥ ≤ ϵ ।
अभिसरण मेट्रिक : 1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥
एल्गोरिदम 4 (NSGD) :
आरंभीकरण: w₀ = w₁, m₀ = 0
t = 1, 2, ... के लिए:
नमूना ξₜ ~ D
mₜ = θmₜ₋₁ + (1-θ)∇f(wₜ; ξₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
मुख्य विशेषताएं :
सामान्यीकरण m t ∥ m t ∥ \frac{m_t}{\|m_t\|} ∥ m t ∥ m t के माध्यम से अपडेट स्टेप आकार को नियंत्रित करता है क्लिपिंग हाइपरपैरामीटर h h h की आवश्यकता नहीं गति पैरामीटर θ \theta θ ग्रेडिएंट अनुमान को सुचारू करता है एल्गोरिदम 5 (NSGD-VR) :
आरंभीकरण: w₀ = w₁, m₀ = 0
t = 1, 2, ... के लिए:
नमूना ξₜ ~ D
mₜ = θmₜ₋₁ + ∇f(wₜ; ξₜ) - θ∇f(wₜ₋₁; ξₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
विचरण-कम करने की व्यवस्था :
समान नमूना ξ t \xi_t ξ t का उपयोग करके ∇ f ( w t ; ξ t ) \nabla f(w_t; \xi_t) ∇ f ( w t ; ξ t ) और ∇ f ( w t − 1 ; ξ t ) \nabla f(w_{t-1}; \xi_t) ∇ f ( w t − 1 ; ξ t ) की गणना करता है अंतर पद ∇ f ( w t ; ξ t ) − θ ∇ f ( w t − 1 ; ξ t ) \nabla f(w_t; \xi_t) - \theta\nabla f(w_{t-1}; \xi_t) ∇ f ( w t ; ξ t ) − θ ∇ f ( w t − 1 ; ξ t ) विचरण को कम करता है एल्गोरिदम 2 (NSGDC) :
आरंभीकरण: w₀ = w₁, m₀ = 0
t = 1, 2, ... के लिए:
निष्पक्ष यादृच्छिक ग्रेडिएंट gₜ नमूना करें
mₜ = θmₜ₋₁ + (1-θ)Clipₕ(gₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
क्लिपिंग फ़ंक्शन : Clip h ( w ) = min { 1 , h ∥ w ∥ } w \text{Clip}_h(w) = \min\{1, \frac{h}{\|w\|}\}w Clip h ( w ) = min { 1 , ∥ w ∥ h } w
एल्गोरिदम 6 (A-NSGDC) :
आरंभीकरण: w₀ = w₁, m₀ = 0
t = 1, 2, ... के लिए:
vₜ = wₜ + ζ(wₜ - wₜ₋₁) # एक्सट्रापोलेशन स्टेप
नमूना gₜ जैसे कि 𝔼gₜ = ∇f(vₜ)
mₜ = θmₜ₋₁ + (1-θ)Clipₕ(gₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
त्वरण तंत्र :
एक्सट्रापोलेशन बिंदु v t v_t v t गति ζ = θ 1 − θ \zeta = \frac{\theta}{1-\theta} ζ = 1 − θ θ का उपयोग करता है दूसरे-क्रम Lipschitz धारणा की आवश्यकता है (Hessian निरंतरता) लेम्मा 7 (क्लिप किए गए ग्रेडिएंट का नियंत्रण): यदि h ≥ 2 ( ∥ ∇ f ( w 0 ) ∥ + L γ T ) h \geq 2(\|\nabla f(w_0)\| + L\gamma T) h ≥ 2 ( ∥∇ f ( w 0 ) ∥ + L γ T ) , तो:
E ∥ Clip h ( g t ) − E Clip h ( g t ) ∥ 2 ≤ 10 h 2 − p σ p \mathbb{E}\|\text{Clip}_h(g_t) - \mathbb{E}\text{Clip}_h(g_t)\|^2 \leq 10h^{2-p}\sigma^p E ∥ Clip h ( g t ) − E Clip h ( g t ) ∥ 2 ≤ 10 h 2 − p σ p ∥ E Clip h ( g t ) − ∇ f ( w t ) ∥ ≤ 2 σ p h − ( p − 1 ) \|\mathbb{E}\text{Clip}_h(g_t) - \nabla f(w_t)\| \leq 2\sigma^p h^{-(p-1)} ∥ E Clip h ( g t ) − ∇ f ( w t ) ∥ ≤ 2 σ p h − ( p − 1 )
लेम्मा 8 (सामान्यीकृत ग्रेडिएंट का नियंत्रण): व्यक्तिगत Lipschitz के तहत:
E ξ t ∥ ∇ f ( w t ; ξ t ) − ∇ f ( w t ) ∥ 2 ≤ 4 ( B + L γ T ) 2 − p σ p \mathbb{E}_{\xi_t}\|\nabla f(w_t; \xi_t) - \nabla f(w_t)\|^2 \leq 4(B + L\gamma T)^{2-p}\sigma^p E ξ t ∥∇ f ( w t ; ξ t ) − ∇ f ( w t ) ∥ 2 ≤ 4 ( B + L γ T ) 2 − p σ p
जहां B = sup ξ ∥ ∇ f ( w 0 ; ξ ) ∥ B = \sup_{\xi}\|\nabla f(w_0; \xi)\| B = sup ξ ∥∇ f ( w 0 ; ξ ) ∥ (प्रारंभिक बिंदु का ग्रेडिएंट बाउंड)।
पारंपरिक विधि की कठिनाई : E ∥ Clip h ( g t ) − ∇ f ( w t ) ∥ 2 \mathbb{E}\|\text{Clip}_h(g_t) - \nabla f(w_t)\|^2 E ∥ Clip h ( g t ) − ∇ f ( w t ) ∥ 2 को सीधे नियंत्रित करना अत्यंत जटिल है, जिससे उच्च संभावना विश्लेषण और लॉगरिदमिक कारक होते हैं।
इस पेपर की सफलता :
सामान्यीकरण के निहित बाउंड का उपयोग करता है: ∥ ∇ f ( w t ) ∥ ≤ ∥ ∇ f ( w 0 ) ∥ + L γ T \|\nabla f(w_t)\| \leq \|\nabla f(w_0)\| + L\gamma T ∥∇ f ( w t ) ∥ ≤ ∥∇ f ( w 0 ) ∥ + L γ T h ≥ 2 ( ∥ ∇ f ( w 0 ) ∥ + L γ T ) h \geq 2(\|\nabla f(w_0)\| + L\gamma T) h ≥ 2 ( ∥∇ f ( w 0 ) ∥ + L γ T ) सेट करता है यह सुनिश्चित करने के लिए कि ∥ ∇ f ( w t ) ∥ ≤ h 2 \|\nabla f(w_t)\| \leq \frac{h}{2} ∥∇ f ( w t ) ∥ ≤ 2 h अपेक्षा विश्लेषण में सरलीकृत करता है, जटिल उच्च संभावना तकनीकों से बचता है धारणा 2 (व्यक्तिगत Lipschitz) :
∥ ∇ f ( y ; ξ ) − ∇ f ( x ; ξ ) ∥ ≤ L ∥ y − x ∥ , ∀ ξ \|\nabla f(y; \xi) - \nabla f(x; \xi)\| \leq L\|y - x\|, \quad \forall \xi ∥∇ f ( y ; ξ ) − ∇ f ( x ; ξ ) ∥ ≤ L ∥ y − x ∥ , ∀ ξ
धारणा 2' (वैश्विक Lipschitz) :
∥ ∇ f ( y ) − ∇ f ( x ) ∥ ≤ L ∥ y − x ∥ \|\nabla f(y) - \nabla f(x)\| \leq L\|y - x\| ∥∇ f ( y ) − ∇ f ( x ) ∥ ≤ L ∥ y − x ∥
संबंध : व्यक्तिगत Lipschitz ⇒ \Rightarrow ⇒ वैश्विक Lipschitz (विपरीत सत्य नहीं है)
प्रभाव :
NSGD/NSGD-VR को व्यक्तिगत Lipschitz की आवश्यकता है (∥ ∇ f ( w t ; ξ t ) ∥ \|\nabla f(w_t; \xi_t)\| ∥∇ f ( w t ; ξ t ) ∥ को बाउंड करने के लिए) NSGDC/A-NSGDC को केवल वैश्विक Lipschitz की आवश्यकता है (क्लिपिंग अतिरिक्त नियंत्रण प्रदान करता है) धारणा 1-2 के तहत, सेट करें:
1 − θ = min { max { ( L Δ ) 1 / 2 , 1 } σ 4 p − 4 3 p − 2 T p 3 p − 2 , 1 } 1 - \theta = \min\{\frac{\max\{(L\Delta)^{1/2}, 1\}}{\sigma^{\frac{4p-4}{3p-2}}T^{\frac{p}{3p-2}}}, 1\} 1 − θ = min { σ 3 p − 2 4 p − 4 T 3 p − 2 p m a x {( L Δ ) 1/2 , 1 } , 1 } γ = Δ L 1 − θ T \gamma = \sqrt{\frac{\Delta}{L}}\frac{\sqrt{1-\theta}}{\sqrt{T}} γ = L Δ T 1 − θ तब:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( ( L Δ ) 1 / 4 σ 2 p − 2 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{(L\Delta)^{1/4}\sigma^{\frac{2p-2}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 3 p − 2 p − 1 ( L Δ ) 1/4 σ 3 p − 2 2 p − 2 + T 1/2 1 )
मुख्य अंतर्दृष्टि :
प्रमुख पद O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) NSGDC के समान है गौण पद O ( T − 1 / 2 ) O(T^{-1/2}) O ( T − 1/2 ) σ = 0 \sigma = 0 σ = 0 के समय GD गति को पुनः प्राप्त करता है क्लिपिंग हाइपरपैरामीटर की आवश्यकता नहीं धारणा 1-2 के तहत, सेट करें:
1 − θ = min { 1 σ p 2 p − 1 T p 2 p − 1 , 1 } 1 - \theta = \min\{\frac{1}{\sigma^{\frac{p}{2p-1}}T^{\frac{p}{2p-1}}}, 1\} 1 − θ = min { σ 2 p − 1 p T 2 p − 1 p 1 , 1 } γ = 4 1 − θ L T \gamma = \frac{4\sqrt{1-\theta}}{L\sqrt{T}} γ = L T 4 1 − θ तब:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( σ p 2 p − 1 T p − 1 2 p − 1 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{\sigma^{\frac{p}{2p-1}}}{T^{\frac{p-1}{2p-1}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 2 p − 1 p − 1 σ 2 p − 1 p + T 1/2 1 )
सुधार :
घातांक p − 1 2 p − 1 > p − 1 3 p − 2 \frac{p-1}{2p-1} > \frac{p-1}{3p-2} 2 p − 1 p − 1 > 3 p − 2 p − 1 (विचरण-कम करने वाला त्वरण) जब p = 2 p=2 p = 2 : 1 3 \frac{1}{3} 3 1 बनाम 1 4 \frac{1}{4} 4 1 (मानक बनाम विचरण-कम) निचली सीमा से मेल खाता है (Arjevani et al., 2023) धारणा 1, 2' के तहत, उपयुक्त हाइपरपैरामीटर सेट करें:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( ( L Δ ) p − 1 3 p − 2 σ p 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{(L\Delta)^{\frac{p-1}{3p-2}}\sigma^{\frac{p}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 3 p − 2 p − 1 ( L Δ ) 3 p − 2 p − 1 σ 3 p − 2 p + T 1/2 1 )
पिछले काम के साथ तुलना :
लॉगरिदमिक कारक को हटाता है : Liu et al. (2023) के पास ln T \ln T ln T पद है, यह नहींशोर निर्भरता में सुधार : σ p 3 p − 2 \sigma^{\frac{p}{3p-2}} σ 3 p − 2 p बनाम σ \sigma σ (जब p < 2 p < 2 p < 2 तो पहला छोटा है)निर्धारक मामले को पुनः प्राप्त करता है : σ = 0 \sigma = 0 σ = 0 के समय O ( T − 1 / 2 ) O(T^{-1/2}) O ( T − 1/2 ) धारणा 1, 2', 3 (दूसरे-क्रम Lipschitz) के तहत:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( σ 4 / 7 T 2 p − 2 4 p − 1 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{\sigma^{4/7}}{T^{\frac{2p-2}{4p-1}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 4 p − 1 2 p − 2 σ 4/7 + T 1/2 1 )
त्वरण प्रभाव :
घातांक 2 p − 2 4 p − 1 > p − 1 3 p − 2 \frac{2p-2}{4p-1} > \frac{p-1}{3p-2} 4 p − 1 2 p − 2 > 3 p − 2 p − 1 जब p = 2 p=2 p = 2 : 2 7 \frac{2}{7} 7 2 बनाम 1 4 \frac{1}{4} 4 1 (त्वरित बनाम मानक) Hessian Lipschitz निरंतरता की आवश्यकता है एल्गोरिदम पेपर अभिसरण दर धारणा SGDC Zhang et al. (2020) O ( T − p − 1 3 p − 2 + T − 2 p − p 2 3 p − 2 σ 2 p 2 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}} + T^{-\frac{2p-p^2}{3p-2}}\sigma^{\frac{2p^2}{3p-2}}) O ( T − 3 p − 2 p − 1 + T − 3 p − 2 2 p − p 2 σ 3 p − 2 2 p 2 ) GL NSGDC Liu et al. (2023) O ( max { σ ln T T p − 1 3 p − 2 , 1 T p − 1 3 p − 2 } ) O(\max\{\frac{\sigma \ln T}{T^{\frac{p-1}{3p-2}}}, \frac{1}{T^{\frac{p-1}{3p-2}}}\}) O ( max { T 3 p − 2 p − 1 σ l n T , T 3 p − 2 p − 1 1 }) GL NSGD यह पेपर Thm 2 O ( σ 2 p − 2 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) O(\frac{\sigma^{\frac{2p-2}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}) O ( T 3 p − 2 p − 1 σ 3 p − 2 2 p − 2 + T 1/2 1 ) IL NSGDC यह पेपर Thm 3 O ( σ p 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) O(\frac{\sigma^{\frac{p}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}) O ( T 3 p − 2 p − 1 σ 3 p − 2 p + T 1/2 1 ) GL
GL : वैश्विक Lipschitz, IL : व्यक्तिगत Lipschitz
नोट : यह पेपर शुद्ध सैद्धांतिक कार्य है, इसमें प्रायोगिक भाग नहीं है। सभी परिणाम सैद्धांतिक प्रमाण हैं।
निचली सीमा से मेल खाता है : साबित करता है कि अभिसरण दर ज्ञात निचली सीमा तक पहुंचता है (Carmon et al., 2020)विशेष मामलों को पुनः प्राप्त करता है :
p = 2 p = 2 p = 2 के समय मानक SGD परिणाम को पुनः प्राप्त करता हैσ = 0 \sigma = 0 σ = 0 के समय ग्रेडिएंट डिसेंट गति को पुनः प्राप्त करता हैमौजूदा परिणामों के साथ तुलना : सैद्धांतिक विश्लेषण के माध्यम से सुधार साबित करता हैनिष्कर्ष : क्लिपिंग आवश्यक नहीं लेकिन लाभकारी है
तर्क :
पर्याप्तता : प्रमेय 1 साबित करता है कि सामान्यीकरण अकेले पर्याप्त है (IL के तहत)त्वरण : प्रमेय 3 साबित करता है कि संयुक्त विधि शोर निर्भरता में सुधार करता हैव्यापार : क्लिपिंग हाइपरपैरामीटर जोड़ता है लेकिन समरूपता धारणा को शिथिल करता है (GL बनाम IL)लागू दृश्य विभाजन :
केवल सामान्यीकरण का उपयोग करें : व्यक्तिगत समरूपता, क्लिपिंग पैरामीटर ट्यून करने की आवश्यकता नहींसंयुक्त उपयोग करें : केवल वैश्विक समरूपता, इष्टतम शोर निर्भरता की आवश्यकता हैमुख्य अवलोकन : जब σ \sigma σ बहुत छोटा हो तो संयुक्त विधि का लाभ महत्वपूर्ण है
मात्रात्मक विश्लेषण (p = 1.5 p = 1.5 p = 1.5 उदाहरण):
SGDC: O ( σ ) O(\sigma) O ( σ ) NSGDC: O ( σ 1 / 2 ) O(\sigma^{1/2}) O ( σ 1/2 ) सुधार कारक: σ \sqrt{\sigma} σ (σ → 0 \sigma \to 0 σ → 0 के समय अनंत की ओर) इस पेपर का परिणाम : मिनी-बैच धारणा की आवश्यकता नहीं
समवर्ती कार्य के साथ तुलना :
Hübler et al. (2024): विशिष्ट मिनी-बैच आकार की आवश्यकता है यह पेपर: बैच आकार = 1 पर्याप्त है व्यावहारिक महत्व : छोटे बैच सामान्यीकरण के लिए अनुकूल हैं (Keskar et al., 2017)
इस पेपर की पसंद : अपेक्षा विश्लेषण
लाभ :
ln T \ln T ln T , ln ( 1 / δ ) \ln(1/\delta) ln ( 1/ δ ) कारकों से बचता हैप्रमाण अधिक सरल है हाइपरपैरामीटर चयन अधिक लचीला है सीमा : उच्च संभावना गारंटी अधिक मजबूत है (लेकिन लॉगरिदमिक लागत के साथ)
Zhang et al. (2020) : पहली बार SGDC अभिसरण साबित किया, दर O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) Cutkosky & Mehta (2021) : NSGDC उच्च संभावना परिणाम, ln T \ln T ln T कारक के साथLiu et al. (2023) : NSGDC-VR, कुछ लॉगरिदमिक कारकों को हटाता हैNguyen et al. (2023) : SGDC की उच्च संभावना सीमा में सुधारJohnson & Zhang (2013) : SVRG (उत्तल मामला)Zhou et al. (2020) : नेस्टेड विचरण-कम करना (गैर-उत्तल)Cutkosky & Orabona (2019) : STORM एल्गोरिदमFang et al. (2018) : SPIDER एल्गोरिदमAllen-Zhu (2018) : Natasha 2Tripuraneni et al. (2018) : यादृच्छिक घन नियमितकरणCutkosky & Mehta (2020b) : सामान्यीकृत त्वरणHübler et al. (2024) : ग्रेडिएंट सामान्यीकरण (मिनी-बैच की आवश्यकता)Liu & Zhou (2024) : ग्रेडिएंट सामान्यीकरण + गतिइस पेपर का अंतर :
मिनी-बैच आवश्यकता नहीं एकीकृत ढांचा (सामान्यीकरण, क्लिपिंग, संयोजन) बेहतर शोर निर्भरता (विशिष्ट पैरामीटर श्रेणी) ग्रेडिएंट क्लिपिंग आवश्यक नहीं है : सामान्यीकरण अकेले अभिसरण को सुनिश्चित कर सकता है (व्यक्तिगत समरूपता के तहत)संयुक्त विधि के लाभ हैं : शोर निर्भरता में सुधार, लॉगरिदमिक कारकों को हटाता हैविचरण-कम करना संगत है : सामान्यीकरण अकेले पर्याप्त है, क्लिपिंग की आवश्यकता नहींत्वरण संभव है : दूसरे-क्रम समरूपता के तहत O ( T − 2 p − 2 4 p − 1 ) O(T^{-\frac{2p-2}{4p-1}}) O ( T − 4 p − 1 2 p − 2 ) प्राप्त करता हैएकीकृत दृष्टिकोण : क्लिपिंग की "त्वरण" बनाम "आवश्यकता" भूमिका को स्पष्ट करता हैतंग सीमा विश्लेषण : निर्धारक मामले को पुनः प्राप्त करता है, विश्लेषण की कसाई साबित करता हैअपेक्षा ढांचा : प्रमाण को सरल करता है, स्पष्ट हाइपरपैरामीटर मार्गदर्शन प्रदान करता हैसैद्धांतिक कार्य : वास्तविक प्रदर्शन सत्यापन की कमीधारणा सीमाएं :
NSGD को व्यक्तिगत Lipschitz की आवश्यकता है (मजबूत) त्वरण को दूसरे-क्रम Lipschitz की आवश्यकता है (अधिक मजबूत) प्रारंभिक बिंदु ग्रेडिएंट बाउंड (धारणा 2 की शर्त (2)) विचरण-कम करना + त्वरण अनसुलझा : दूसरे-क्रम समरूपता के तहत संयोजन नहीं कर सकतेस्थिरांक कारक : सैद्धांतिक सीमाओं में छिपे हुए स्थिरांक बड़े हो सकते हैंप्रायोगिक सत्यापन : ImageNet, भाषा मॉडल आदि कार्यों में सिद्धांत का परीक्षण करेंधारणाओं को शिथिल करें : कमजोर समरूपता स्थितियों की खोज करेंविचरण-कम करना + त्वरण : तकनीकी बाधाओं को हल करें, संयोजन प्राप्त करेंस्वचालित विधियां : θ \theta θ , γ \gamma γ आदि को स्वचालित रूप से समायोजित करने के लिए डिजाइन करेंवितरित सेटिंग : संचार-सीमित परिदृश्यों तक विस्तारित करेंप्रश्न : क्या वैश्विक Lipschitz के तहत NSGD अभिसरण साबित किया जा सकता है?
समवर्ती कार्य (Liu & Zhou, 2024) सकारात्मक उत्तर देता है, लेकिन मिनी-बैच की आवश्यकता है बिना मिनी-बैच के वैश्विक Lipschitz परिणाम अभी भी खुला है प्रश्न : क्या अपेक्षा सीमाओं को उच्च संभावना में बदला जा सकता है बिना बहुत अधिक नुकसान के?
संभवतः नई सांद्रता असमानता तकनीकों की आवश्यकता है पूर्ण प्रमाण : परिशिष्ट सभी प्रमेयों के विस्तृत प्रमाण प्रदान करता है (42 पृष्ठ)तंग सीमा विश्लेषण : निर्धारक मामले को पुनः प्राप्त करके विश्लेषण की कसाई सत्यापित करता हैतकनीकी नवाचार : उच्च संभावना विश्लेषण को अपेक्षा विश्लेषण में सरल करने की तकनीकव्यवस्थित तुलना : तालिका 1 सभी विधियों को स्पष्टता से तुलना करता हैस्पष्ट लागू दृश्य : व्यक्तिगत बनाम वैश्विक Lipschitz का व्यापारबुनियादी प्रश्नों का उत्तर : Q1-Q3 की तार्किक संरचना स्पष्ट हैकार्यान्वयन सरलीकरण : NSGD को क्लिपिंग पैरामीटर ट्यून करने की आवश्यकता नहींमिनी-बैच आवश्यकता नहीं : सामान्यीकरण के लिए अनुकूलशोर निर्भरता सुधार : σ \sigma σ छोटा होने पर महत्वपूर्ण लाभस्पष्ट प्रेरणा : तीन बुनियादी प्रश्न पूरे पाठ को निर्देशित करते हैंतकनीकी व्याख्या : अनुभाग 2.2 सुधार कारणों को संक्षिप्त रूप से बताता हैव्यापक संबंधित कार्य : समवर्ती कार्य के साथ विस्तृत तुलनाशुद्ध सिद्धांत : वास्तविक तंत्रिका नेटवर्क प्रशिक्षण में प्रदर्शन सत्यापित नहींस्थिरांक कारक अज्ञात : सैद्धांतिक सीमाओं के छिपे हुए स्थिरांक व्यावहारिकता को प्रभावित कर सकते हैंहाइपरपैरामीटर संवेदनशीलता : पैरामीटर चयन की मजबूती का अध्ययन नहीं किया गयाव्यक्तिगत Lipschitz मजबूत है : कई व्यावहारिक समस्याएं केवल वैश्विक Lipschitz को संतुष्ट करती हैंप्रारंभिक बिंदु शर्त : B = sup ξ ∥ ∇ f ( w 0 ; ξ ) ∥ < ∞ B = \sup_{\xi}\|\nabla f(w_0; \xi)\| < \infty B = sup ξ ∥∇ f ( w 0 ; ξ ) ∥ < ∞ को सत्यापित करने की आवश्यकता हैदूसरे-क्रम समरूपता दुर्लभ : व्यावहार में Hessian Lipschitz सत्यापित करना कठिन हैविचरण-कम करना + त्वरण विफल : संयोजन करने में असमर्थ (अनुभाग 5 अंत)उच्च संभावना सीमा अनुपस्थित : अपेक्षा परिणाम उच्च संभावना गारंटी से कमजोर हैनिचली सीमा अधूरी : σ p 3 p − 2 \sigma^{\frac{p}{3p-2}} σ 3 p − 2 p निर्भरता की इष्टतमता साबित नहीं की गईLiu & Zhou (2024) : वैश्विक Lipschitz के तहत NSGD साबित करता है, अधिक सामान्यHübler et al. (2024) : उच्च संभावना सीमा प्रदान करता है, अधिक मजबूतइस पेपर का लाभ मुख्य रूप से मिनी-बैच न होने और विशिष्ट श्रेणी में शोर निर्भरता में है अवधारणा स्पष्टीकरण : क्लिपिंग की "त्वरण" बनाम "आवश्यकता" भूमिका को स्पष्ट करता हैसैद्धांतिक उपकरण : अपेक्षा विश्लेषण ढांचा भविष्य के कार्य को प्रेरित कर सकता हैबेंचमार्क परिणाम : विस्तृत अभिसरण दर तुलना (तालिका 1) प्रदान करता हैमध्यम : सिद्धांत व्यावहार को निर्देशित करता है, लेकिन प्रायोगिक सत्यापन की कमीहाइपरपैरामीटर चयन : स्पष्ट पैरामीटर सेटिंग सूत्र प्रदान करता हैएल्गोरिदम सरलीकरण : NSGD ट्यूनिंग बोझ कम करता हैसिद्धांत : प्रमाण पूर्ण, सत्यापन में आसानएल्गोरिदम : स्पष्ट छद्मकोड (एल्गोरिदम 1-7)कार्यान्वयन : कोई सार्वजनिक कोड नहीं (शुद्ध सैद्धांतिक कार्य)व्यक्तिगत Lipschitz संतुष्ट है (जैसे परिमित-योग अनुकूलन) क्लिपिंग पैरामीटर ट्यून नहीं करना चाहते छोटे बैच प्रशिक्षण (सामान्यीकरण प्राथमिकता) केवल वैश्विक Lipschitz संतुष्ट है शोर स्तर σ \sigma σ अज्ञात या बड़ा है इष्टतम शोर निर्भरता की आवश्यकता है व्यक्तिगत Lipschitz संतुष्ट है परिमित-योग समस्या (व्यक्तिगत ग्रेडिएंट की गणना कर सकते हैं) सबसे तेजी से अभिसरण की आवश्यकता है (O ( T − 1 / 3 ) O(T^{-1/3}) O ( T − 1/3 ) जब p = 2 p=2 p = 2 ) दूसरे-क्रम Lipschitz संतुष्ट है अतिरिक्त गणना सहन कर सकते हैं (एक्सट्रापोलेशन स्टेप) आगे त्वरण की आवश्यकता है प्रायोगिक सत्यापन : ImageNet, भाषा मॉडल आदि कार्यों में परीक्षण करेंधारणाओं को शिथिल करें : कमजोर समरूपता (जैसे Hölder निरंतरता) की खोज करेंस्वचालित एल्गोरिदम : पूर्व ज्ञान के बिना पैरामीटर समायोजन के लिए डिजाइन करेंNSGD को प्राथमिकता दें : सरल और सैद्धांतिक गारंटी के साथग्रेडिएंट नॉर्म की निगरानी करें : सत्यापित करें कि ∥ ∇ f ( w t ; ξ t ) ∥ \|\nabla f(w_t; \xi_t)\| ∥∇ f ( w t ; ξ t ) ∥ बाउंड हैछोटे बैच प्रशिक्षण : बड़े बैच से सामान्यीकरण नुकसान से बचेंZhang et al. (2020) : "Adaptive Gradient Methods with Dynamic Bound of Learning Rate" - SGDC मूल पेपरCutkosky & Mehta (2021) : "Momentum Improves Normalized SGD" - NSGDC उच्च संभावना विश्लेषणLiu et al. (2023) : "Breaking the Lower Bound with (Little) Structure" - NSGDC-VRArjevani et al. (2023) : "Lower Bounds for Non-Convex Stochastic Optimization" - निचली सीमा सिद्धांतCarmon et al. (2020) : "Lower Bounds for Finding Stationary Points I" - व्यक्तिगत समरूपता निचली सीमायह पेपर भारी-पूंछ वाले शोर के तहत SGD के ग्रेडिएंट नियंत्रण तकनीकों का गहन सैद्धांतिक अध्ययन करता है, मुख्य योगदान यह साबित करना है कि ग्रेडिएंट क्लिपिंग आवश्यक नहीं है लेकिन लाभकारी है । सरलीकृत अपेक्षा विश्लेषण ढांचे का परिचय देकर, लेखक मौजूदा परिणामों में सुधार करते हैं, लॉगरिदमिक कारकों को हटाते हैं और निर्धारक मामले को पुनः प्राप्त करते हैं। यद्यपि प्रायोगिक सत्यापन की कमी है और धारणा सीमाएं हैं, इस पेपर द्वारा प्रदान किया गया एकीकृत सैद्धांतिक दृष्टिकोण और स्पष्ट लागू दृश्य विभाजन मजबूत अनुकूलन एल्गोरिदम को समझने और डिजाइन करने के लिए महत्वपूर्ण मूल्य रखता है। विशेष रूप से, NSGD एल्गोरिदम की सरलता और सैद्धांतिक गारंटी इसे व्यावहार में प्रयास करने योग्य विधि बनाती है। भविष्य के कार्य को प्रायोगिक सत्यापन, धारणा शिथिलता और स्वचालित एल्गोरिदम डिजाइन पर ध्यान केंद्रित करना चाहिए।