Gradient clipping has long been considered essential for ensuring the convergence of Stochastic Gradient Descent (SGD) in the presence of heavy-tailed gradient noise. In this paper, we revisit this belief and explore whether gradient normalization can serve as an effective alternative or complement. We prove that, under individual smoothness assumptions, gradient normalization alone is sufficient to guarantee convergence of the nonconvex SGD. Moreover, when combined with clipping, it yields far better rates of convergence under more challenging noise distributions. We provide a unifying theory describing normalization-only, clipping-only, and combined approaches. Moving forward, we investigate existing variance-reduced algorithms, establishing that, in such a setting, normalization alone is sufficient for convergence. Finally, we present an accelerated variant that under second-order smoothness improves convergence. Our results provide theoretical insights and practical guidance for using normalization and clipping in nonconvex optimization with heavy-tailed noise.
পেপার আইডি : 2410.16561শিরোনাম : Revisiting Gradient Normalization and Clipping for Nonconvex SGD under Heavy-Tailed Noise: Necessity, Sufficiency, and Accelerationলেখক : Tao Sun (জাতীয় প্রতিরক্ষা প্রযুক্তি বিশ্ববিদ্যালয়), Xinwang Liu (জাতীয় প্রতিরক্ষা প্রযুক্তি বিশ্ববিদ্যালয়), Kun Yuan (পিকিং বিশ্ববিদ্যালয়)শ্রেণীবিভাগ : cs.LG, math.OC, stat.MLপ্রকাশনা সময়/সম্মেলন : Journal of Machine Learning Research 26 (2025) 1-42, জমা দেওয়া 11/24; সংশোধিত 9/25; প্রকাশিত 11/25পেপার লিঙ্ক : https://arxiv.org/abs/2410.16561v4 এই পেপারটি ভারী-লেজ শব্দের পরিবেশে স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্ট (SGD) সংগ্রহণ নিশ্চয়তায় গ্রেডিয়েন্ট ক্লিপিং-এর প্রয়োজনীয়তা প্রশ্নটি পুনর্বিবেচনা করে। প্রচলিত দৃষ্টিভঙ্গি অনুযায়ী গ্রেডিয়েন্ট ক্লিপিং ভারী-লেজ গ্রেডিয়েন্ট শব্দ পরিচালনার জন্য অপরিহার্য, কিন্তু এই পেপারটি প্রমাণ করে যে: ব্যক্তিগত মসৃণতা অনুমানের অধীনে, গ্রেডিয়েন্ট নর্মালাইজেশন একা অ-উত্তল SGD-এর সংগ্রহণ নিশ্চিত করতে পারে । অধিকন্তু, যখন নর্মালাইজেশন এবং ক্লিপিং একসাথে ব্যবহার করা হয়, আরও চ্যালেঞ্জিং শব্দ বিতরণের অধীনে উন্নত সংগ্রহণ হার অর্জন করা যায়। পেপারটি একটি একীভূত তাত্ত্বিক কাঠামো প্রদান করে যা শুধুমাত্র নর্মালাইজেশন, শুধুমাত্র ক্লিপিং এবং সমন্বিত পদ্ধতির কর্মক্ষমতা বর্ণনা করে। গবেষণা বৈষম্য-হ্রাস অ্যালগরিদমে প্রসারিত হয়, প্রমাণ করে যে নর্মালাইজেশন একা সংগ্রহণ নিশ্চিত করার জন্য যথেষ্ট, এবং দ্বিতীয়-ক্রম মসৃণতা অনুমানের অধীনে উন্নত সংগ্রহণ সহ ত্বরিত রূপান্তর প্রস্তাব করে।
মেশিন লার্নিং অপ্টিমাইজেশনে, SGD অ-উত্তল অপ্টিমাইজেশন সমস্যা সমাধানের জন্য প্রধান অ্যালগরিদম:
min w ∈ R d f ( w ) : = E ξ ∼ D [ f ( w ; ξ ) ] \min_{w \in \mathbb{R}^d} f(w) := \mathbb{E}_{\xi \sim \mathcal{D}}[f(w; \xi)] min w ∈ R d f ( w ) := E ξ ∼ D [ f ( w ; ξ )]
ঐতিহ্যবাহী SGD বিশ্লেষণ অনুমান করে যে গ্রেডিয়েন্ট শব্দ সীমাবদ্ধ বৈষম্য রয়েছে: E ∥ g t − ∇ f ( w t ) ∥ 2 ≤ σ 2 \mathbb{E}\|g_t - \nabla f(w_t)\|^2 \leq \sigma^2 E ∥ g t − ∇ f ( w t ) ∥ 2 ≤ σ 2 । তবে, সাম্প্রতিক গবেষণা (Zhang et al., 2020; Nguyen et al., 2019) আবিষ্কার করেছে যে স্নায়ু নেটওয়ার্ক প্রশিক্ষণে (বিশেষত ভাষা মডেলে), এই অনুমানটি অবাস্তব। বাস্তবে গ্রেডিয়েন্ট শব্দ ভারী-লেজ বিতরণ বৈশিষ্ট্য উপস্থাপন করে।
অনুমান 1 (ভারী-লেজ শব্দ) : ধ্রুবক σ > 0 \sigma > 0 σ > 0 এবং p ∈ ( 1 , 2 ] p \in (1, 2] p ∈ ( 1 , 2 ] বিদ্যমান যেমন:
sup w ∈ R d { E ξ ∼ D ∥ ∇ f ( w ; ξ ) − ∇ f ( w ) ∥ p } ≤ σ p \sup_{w \in \mathbb{R}^d} \{\mathbb{E}_{\xi \sim \mathcal{D}}\|\nabla f(w; \xi) - \nabla f(w)\|^p\} \leq \sigma^p sup w ∈ R d { E ξ ∼ D ∥∇ f ( w ; ξ ) − ∇ f ( w ) ∥ p } ≤ σ p
যখন p = 2 p = 2 p = 2 হয় তখন এটি মান সীমাবদ্ধ বৈষম্য অনুমানে হ্রাস পায়। যখন 1 < p < 2 1 < p < 2 1 < p < 2 হয়, Zhang et al. (2020) প্রমাণ করেছে যে মান SGD সংগ্রহণে ব্যর্থ হয় , যা সমস্যার গুরুত্ব তুলে ধরে।
মূলধারার সমাধান :
SGDC (Zhang et al., 2020): গ্রেডিয়েন্ট ক্লিপিং ব্যবহার করে Clip h ( w ) : = min { 1 , h ∥ w ∥ } w \text{Clip}_h(w) := \min\{1, \frac{h}{\|w\|}\}w Clip h ( w ) := min { 1 , ∥ w ∥ h } w NSGDC (Cutkosky & Mehta, 2021): গ্রেডিয়েন্ট নর্মালাইজেশন এবং ক্লিপিং একত্রিত করেNSGDC-VR (Liu et al., 2023): বৈষম্য-হ্রাস সংস্করণসীমাবদ্ধতা :
গ্রেডিয়েন্ট ক্লিপিং-এর প্রয়োজনীয়তা যথেষ্টভাবে প্রশ্নবিদ্ধ নয় : সমস্ত বিদ্যমান পদ্ধতি ক্লিপিং ব্যবহার করে, কিন্তু এটি সত্যিই প্রয়োজনীয় কিনা?সমন্বিত পদ্ধতির সুবিধা অস্পষ্ট : NSGDC-এর সংগ্রহণ হার SGDC-এর সমান (Liu et al., 2023), সমন্বয়ের তাত্ত্বিক সুবিধা প্রমাণ করে নাহাইপারপ্যারামিটার টিউনিং জটিল : ক্লিপিং অতিরিক্ত হাইপারপ্যারামিটার h h h প্রবর্তন করে, টিউনিং বোঝা বৃদ্ধি করেএই পেপারটি তিনটি মৌলিক প্রশ্ন (Q1-Q3) উত্থাপন করে:
Q1 : গ্রেডিয়েন্ট ক্লিপিং সত্যিই অপরিহার্য কিনা? গ্রেডিয়েন্ট নর্মালাইজেশন একা সংগ্রহণ নিশ্চিত করতে পারে কিনা?
Q2 : নর্মালাইজেশন এবং ক্লিপিং একত্রিত করা কি যেকোনো প্রযুক্তি একা ব্যবহার করার চেয়ে ভাল?
Q3 : NSGDC কি ভারী-লেজ শব্দের অধীনে ত্বরিত সংগ্রহণ অর্জন করতে পারে?
এই পেপারের প্রধান অবদানগুলি অন্তর্ভুক্ত করে:
গ্রেডিয়েন্ট নর্মালাইজেশন-এর যথেষ্টতা প্রমাণ করুন (Q1 উত্তর দিন) :ব্যক্তিগত Lipschitz অনুমানের অধীনে, প্রমাণ করুন যে গ্রেডিয়েন্ট নর্মালাইজেশন একা ব্যবহার SGD সংগ্রহণ নিশ্চিত করতে পারে NSGD এবং NSGD-VR অ্যালগরিদম প্রস্তাব করুন, ক্লিপিং হাইপারপ্যারামিটার ছাড়াই NSGDC/NSGDC-VR-এর সংগ্রহণ হার উন্নত করুন (Q2 উত্তর দিন) :পূর্ববর্তী ফলাফলে লগারিদমিক ফ্যাক্টর ln T \ln T ln T দূর করুন প্রমাণ করুন যে সমন্বিত পদ্ধতি σ → 0 \sigma \to 0 σ → 0 হলে শুধুমাত্র ক্লিপিং পদ্ধতির চেয়ে উল্লেখযোগ্যভাবে ভাল প্রত্যাশা অর্থে সর্বোত্তম সংগ্রহণ হার O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) অর্জন করুন ত্বরিত অ্যালগরিদম প্রস্তাব করুন (Q3 উত্তর দিন) :A-NSGDC অ্যালগরিদম ডিজাইন করুন, দ্বিতীয়-ক্রম মসৃণতা ব্যবহার করে সংগ্রহণ হার O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) থেকে O ( T − 2 p − 2 4 p − 1 ) O(T^{-\frac{2p-2}{4p-1}}) O ( T − 4 p − 1 2 p − 2 ) এ উন্নীত করুন একীভূত তাত্ত্বিক কাঠামো :নর্মালাইজেশন, ক্লিপিং, সমন্বিত পদ্ধতি অন্তর্ভুক্ত করে একীভূত বিশ্লেষণ প্রদান করুন প্রতিটি পদ্ধতির প্রযোজ্য দৃশ্য এবং কর্মক্ষমতা সীমানা স্পষ্ট করুন মিনি-ব্যাচ প্রয়োজনীয়তা নেই :সমস্ত ফলাফল বড় ব্যাচ অনুমান ছাড়াই, সাধারণীকরণ কর্মক্ষমতার জন্য অনুকূল অপ্টিমাইজেশন সমস্যা :
min w ∈ R d f ( w ) = E ξ ∼ D [ f ( w ; ξ ) ] \min_{w \in \mathbb{R}^d} f(w) = \mathbb{E}_{\xi \sim \mathcal{D}}[f(w; \xi)] min w ∈ R d f ( w ) = E ξ ∼ D [ f ( w ; ξ )]
লক্ষ্য : ভারী-লেজ শব্দের অধীনে (অনুমান 1), ϵ \epsilon ϵ -আনুমানিক প্রথম-ক্রম স্থির বিন্দু খুঁজুন, অর্থাৎ ∥ ∇ f ( w ) ∥ ≤ ϵ \|\nabla f(w)\| \leq \epsilon ∥∇ f ( w ) ∥ ≤ ϵ ।
সংগ্রহণ পরিমাপ : 1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥
অ্যালগরিদম 4 (NSGD) :
প্রাথমিকীকরণ: w₀ = w₁, m₀ = 0
t = 1, 2, ... এর জন্য:
নমুনা ξₜ ~ D
mₜ = θmₜ₋₁ + (1-θ)∇f(wₜ; ξₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
মূল বৈশিষ্ট্য :
নর্মালাইজেশন m t ∥ m t ∥ \frac{m_t}{\|m_t\|} ∥ m t ∥ m t মাধ্যমে আপডেট পদক্ষেপ নিয়ন্ত্রণ করুন ক্লিপিং হাইপারপ্যারামিটার h h h প্রয়োজন নেই গতিশীলতা প্যারামিটার θ \theta θ গ্রেডিয়েন্ট অনুমান মসৃণ করে অ্যালগরিদম 5 (NSGD-VR) :
প্রাথমিকীকরণ: w₀ = w₁, m₀ = 0
t = 1, 2, ... এর জন্য:
নমুনা ξₜ ~ D
mₜ = θmₜ₋₁ + ∇f(wₜ; ξₜ) - θ∇f(wₜ₋₁; ξₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
বৈষম্য-হ্রাস প্রক্রিয়া :
একই নমুনা ξ t \xi_t ξ t ব্যবহার করে ∇ f ( w t ; ξ t ) \nabla f(w_t; \xi_t) ∇ f ( w t ; ξ t ) এবং ∇ f ( w t − 1 ; ξ t ) \nabla f(w_{t-1}; \xi_t) ∇ f ( w t − 1 ; ξ t ) গণনা করুন পার্থক্য পদ ∇ f ( w t ; ξ t ) − θ ∇ f ( w t − 1 ; ξ t ) \nabla f(w_t; \xi_t) - \theta\nabla f(w_{t-1}; \xi_t) ∇ f ( w t ; ξ t ) − θ ∇ f ( w t − 1 ; ξ t ) বৈষম্য হ্রাস করে অ্যালগরিদম 2 (NSGDC) :
প্রাথমিকীকরণ: w₀ = w₁, m₀ = 0
t = 1, 2, ... এর জন্য:
নিরপেক্ষ র্যান্ডম গ্রেডিয়েন্ট নমুনা gₜ
mₜ = θmₜ₋₁ + (1-θ)Clipₕ(gₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
ক্লিপিং ফাংশন : Clip h ( w ) = min { 1 , h ∥ w ∥ } w \text{Clip}_h(w) = \min\{1, \frac{h}{\|w\|}\}w Clip h ( w ) = min { 1 , ∥ w ∥ h } w
অ্যালগরিদম 6 (A-NSGDC) :
প্রাথমিকীকরণ: w₀ = w₁, m₀ = 0
t = 1, 2, ... এর জন্য:
vₜ = wₜ + ζ(wₜ - wₜ₋₁) # এক্সট্রাপোলেশন পদক্ষেপ
নমুনা gₜ যেমন 𝔼gₜ = ∇f(vₜ)
mₜ = θmₜ₋₁ + (1-θ)Clipₕ(gₜ)
wₜ₊₁ = wₜ - γ mₜ/‖mₜ‖
ত্বরণ প্রক্রিয়া :
এক্সট্রাপোলেশন বিন্দু v t v_t v t গতিশীলতা ζ = θ 1 − θ \zeta = \frac{\theta}{1-\theta} ζ = 1 − θ θ ব্যবহার করে দ্বিতীয়-ক্রম Lipschitz অনুমান প্রয়োজন (Hessian ধারাবাহিকতা) লেম্মা 7 (ক্লিপ করা গ্রেডিয়েন্ট-এর নিয়ন্ত্রণ): যদি h ≥ 2 ( ∥ ∇ f ( w 0 ) ∥ + L γ T ) h \geq 2(\|\nabla f(w_0)\| + L\gamma T) h ≥ 2 ( ∥∇ f ( w 0 ) ∥ + L γ T ) , তাহলে:
E ∥ Clip h ( g t ) − E Clip h ( g t ) ∥ 2 ≤ 10 h 2 − p σ p \mathbb{E}\|\text{Clip}_h(g_t) - \mathbb{E}\text{Clip}_h(g_t)\|^2 \leq 10h^{2-p}\sigma^p E ∥ Clip h ( g t ) − E Clip h ( g t ) ∥ 2 ≤ 10 h 2 − p σ p ∥ E Clip h ( g t ) − ∇ f ( w t ) ∥ ≤ 2 σ p h − ( p − 1 ) \|\mathbb{E}\text{Clip}_h(g_t) - \nabla f(w_t)\| \leq 2\sigma^p h^{-(p-1)} ∥ E Clip h ( g t ) − ∇ f ( w t ) ∥ ≤ 2 σ p h − ( p − 1 )
লেম্মা 8 (নর্মালাইজড গ্রেডিয়েন্ট-এর নিয়ন্ত্রণ): ব্যক্তিগত Lipschitz অধীনে:
E ξ t ∥ ∇ f ( w t ; ξ t ) − ∇ f ( w t ) ∥ 2 ≤ 4 ( B + L γ T ) 2 − p σ p \mathbb{E}_{\xi_t}\|\nabla f(w_t; \xi_t) - \nabla f(w_t)\|^2 \leq 4(B + L\gamma T)^{2-p}\sigma^p E ξ t ∥∇ f ( w t ; ξ t ) − ∇ f ( w t ) ∥ 2 ≤ 4 ( B + L γ T ) 2 − p σ p
যেখানে B = sup ξ ∥ ∇ f ( w 0 ; ξ ) ∥ B = \sup_{\xi}\|\nabla f(w_0; \xi)\| B = sup ξ ∥∇ f ( w 0 ; ξ ) ∥ (প্রাথমিক বিন্দু-এর গ্রেডিয়েন্ট সীমানা)।
ঐতিহ্যবাহী পদ্ধতি-এর অসুবিধা : সরাসরি E ∥ Clip h ( g t ) − ∇ f ( w t ) ∥ 2 \mathbb{E}\|\text{Clip}_h(g_t) - \nabla f(w_t)\|^2 E ∥ Clip h ( g t ) − ∇ f ( w t ) ∥ 2 নিয়ন্ত্রণ করা অত্যন্ত জটিল, উচ্চ সম্ভাবনা বিশ্লেষণ এবং লগারিদমিক ফ্যাক্টর দিকে পরিচালিত করে।
এই পেপার-এর অগ্রগতি :
নর্মালাইজেশন-এর অন্তর্নিহিত সীমানা ব্যবহার করুন: ∥ ∇ f ( w t ) ∥ ≤ ∥ ∇ f ( w 0 ) ∥ + L γ T \|\nabla f(w_t)\| \leq \|\nabla f(w_0)\| + L\gamma T ∥∇ f ( w t ) ∥ ≤ ∥∇ f ( w 0 ) ∥ + L γ T h ≥ 2 ( ∥ ∇ f ( w 0 ) ∥ + L γ T ) h \geq 2(\|\nabla f(w_0)\| + L\gamma T) h ≥ 2 ( ∥∇ f ( w 0 ) ∥ + L γ T ) সেট করুন নিশ্চিত করতে ∥ ∇ f ( w t ) ∥ ≤ h 2 \|\nabla f(w_t)\| \leq \frac{h}{2} ∥∇ f ( w t ) ∥ ≤ 2 h প্রত্যাশা বিশ্লেষণে সরল করুন, জটিল উচ্চ সম্ভাবনা প্রযুক্তি এড়িয়ে চলুন অনুমান 2 (ব্যক্তিগত Lipschitz) :
∥ ∇ f ( y ; ξ ) − ∇ f ( x ; ξ ) ∥ ≤ L ∥ y − x ∥ , ∀ ξ \|\nabla f(y; \xi) - \nabla f(x; \xi)\| \leq L\|y - x\|, \quad \forall \xi ∥∇ f ( y ; ξ ) − ∇ f ( x ; ξ ) ∥ ≤ L ∥ y − x ∥ , ∀ ξ
অনুমান 2' (বৈশ্বিক Lipschitz) :
∥ ∇ f ( y ) − ∇ f ( x ) ∥ ≤ L ∥ y − x ∥ \|\nabla f(y) - \nabla f(x)\| \leq L\|y - x\| ∥∇ f ( y ) − ∇ f ( x ) ∥ ≤ L ∥ y − x ∥
সম্পর্ক : ব্যক্তিগত Lipschitz ⇒ \Rightarrow ⇒ বৈশ্বিক Lipschitz (বিপরীত সত্য নয়)
প্রভাব :
NSGD/NSGD-VR ব্যক্তিগত Lipschitz প্রয়োজন (∥ ∇ f ( w t ; ξ t ) ∥ \|\nabla f(w_t; \xi_t)\| ∥∇ f ( w t ; ξ t ) ∥ সীমানা করতে) NSGDC/A-NSGDC শুধুমাত্র বৈশ্বিক Lipschitz প্রয়োজন (ক্লিপিং অতিরিক্ত নিয়ন্ত্রণ প্রদান করে) অনুমান 1-2 অধীনে, সেট করুন:
1 − θ = min { max { ( L Δ ) 1 / 2 , 1 } σ 4 p − 4 3 p − 2 T p 3 p − 2 , 1 } 1 - \theta = \min\{\frac{\max\{(L\Delta)^{1/2}, 1\}}{\sigma^{\frac{4p-4}{3p-2}}T^{\frac{p}{3p-2}}}, 1\} 1 − θ = min { σ 3 p − 2 4 p − 4 T 3 p − 2 p m a x {( L Δ ) 1/2 , 1 } , 1 } γ = Δ L 1 − θ T \gamma = \sqrt{\frac{\Delta}{L}}\frac{\sqrt{1-\theta}}{\sqrt{T}} γ = L Δ T 1 − θ তাহলে:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( ( L Δ ) 1 / 4 σ 2 p − 2 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{(L\Delta)^{1/4}\sigma^{\frac{2p-2}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 3 p − 2 p − 1 ( L Δ ) 1/4 σ 3 p − 2 2 p − 2 + T 1/2 1 )
মূল অন্তর্দৃষ্টি :
প্রধান পদ O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) NSGDC-এর সমান গৌণ পদ O ( T − 1 / 2 ) O(T^{-1/2}) O ( T − 1/2 ) σ = 0 \sigma = 0 σ = 0 হলে GD গতি পুনরুদ্ধার করে ক্লিপিং হাইপারপ্যারামিটার প্রয়োজন নেই অনুমান 1-2 অধীনে, সেট করুন:
1 − θ = min { 1 σ p 2 p − 1 T p 2 p − 1 , 1 } 1 - \theta = \min\{\frac{1}{\sigma^{\frac{p}{2p-1}}T^{\frac{p}{2p-1}}}, 1\} 1 − θ = min { σ 2 p − 1 p T 2 p − 1 p 1 , 1 } γ = 4 1 − θ L T \gamma = \frac{4\sqrt{1-\theta}}{L\sqrt{T}} γ = L T 4 1 − θ তাহলে:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( σ p 2 p − 1 T p − 1 2 p − 1 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{\sigma^{\frac{p}{2p-1}}}{T^{\frac{p-1}{2p-1}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 2 p − 1 p − 1 σ 2 p − 1 p + T 1/2 1 )
উন্নতি :
সূচক p − 1 2 p − 1 > p − 1 3 p − 2 \frac{p-1}{2p-1} > \frac{p-1}{3p-2} 2 p − 1 p − 1 > 3 p − 2 p − 1 (বৈষম্য-হ্রাস ত্বরণ) যখন p = 2 p=2 p = 2 : 1 3 \frac{1}{3} 3 1 বনাম 1 4 \frac{1}{4} 4 1 (মান বনাম বৈষম্য-হ্রাস) নিম্ন সীমানা মেলে (Arjevani et al., 2023) অনুমান 1, 2' অধীনে, যথাযথভাবে হাইপারপ্যারামিটার সেট করুন:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( ( L Δ ) p − 1 3 p − 2 σ p 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{(L\Delta)^{\frac{p-1}{3p-2}}\sigma^{\frac{p}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 3 p − 2 p − 1 ( L Δ ) 3 p − 2 p − 1 σ 3 p − 2 p + T 1/2 1 )
পূর্ববর্তী কাজের সাথে তুলনা :
লগারিদমিক ফ্যাক্টর দূর করুন : Liu et al. (2023) এ ln T \ln T ln T পদ আছে, এখানে নেইশব্দ নির্ভরতা উন্নত করুন : σ p 3 p − 2 \sigma^{\frac{p}{3p-2}} σ 3 p − 2 p বনাম σ \sigma σ (p < 2 p < 2 p < 2 হলে পূর্বটি ছোট)নিশ্চিত ক্ষেত্র পুনরুদ্ধার করুন : σ = 0 \sigma = 0 σ = 0 হলে O ( T − 1 / 2 ) O(T^{-1/2}) O ( T − 1/2 ) অনুমান 1, 2', 3 (দ্বিতীয়-ক্রম Lipschitz) অধীনে:
1 T ∑ t = 1 T E ∥ ∇ f ( w t ) ∥ = O ( σ 4 / 7 T 2 p − 2 4 p − 1 + 1 T 1 / 2 ) \frac{1}{T}\sum_{t=1}^T \mathbb{E}\|\nabla f(w_t)\| = O\left(\frac{\sigma^{4/7}}{T^{\frac{2p-2}{4p-1}}} + \frac{1}{T^{1/2}}\right) T 1 ∑ t = 1 T E ∥∇ f ( w t ) ∥ = O ( T 4 p − 1 2 p − 2 σ 4/7 + T 1/2 1 )
ত্বরণ প্রভাব :
সূচক 2 p − 2 4 p − 1 > p − 1 3 p − 2 \frac{2p-2}{4p-1} > \frac{p-1}{3p-2} 4 p − 1 2 p − 2 > 3 p − 2 p − 1 যখন p = 2 p=2 p = 2 : 2 7 \frac{2}{7} 7 2 বনাম 1 4 \frac{1}{4} 4 1 (ত্বরণ বনাম মান) Hessian Lipschitz ধারাবাহিকতা প্রয়োজন অ্যালগরিদম পেপার সংগ্রহণ হার অনুমান SGDC Zhang et al. (2020) O ( T − p − 1 3 p − 2 + T − 2 p − p 2 3 p − 2 σ 2 p 2 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}} + T^{-\frac{2p-p^2}{3p-2}}\sigma^{\frac{2p^2}{3p-2}}) O ( T − 3 p − 2 p − 1 + T − 3 p − 2 2 p − p 2 σ 3 p − 2 2 p 2 ) GL NSGDC Liu et al. (2023) O ( max { σ ln T T p − 1 3 p − 2 , 1 T p − 1 3 p − 2 } ) O(\max\{\frac{\sigma \ln T}{T^{\frac{p-1}{3p-2}}}, \frac{1}{T^{\frac{p-1}{3p-2}}}\}) O ( max { T 3 p − 2 p − 1 σ l n T , T 3 p − 2 p − 1 1 }) GL NSGD এই পেপার Thm 2 O ( σ 2 p − 2 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) O(\frac{\sigma^{\frac{2p-2}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}) O ( T 3 p − 2 p − 1 σ 3 p − 2 2 p − 2 + T 1/2 1 ) IL NSGDC এই পেপার Thm 3 O ( σ p 3 p − 2 T p − 1 3 p − 2 + 1 T 1 / 2 ) O(\frac{\sigma^{\frac{p}{3p-2}}}{T^{\frac{p-1}{3p-2}}} + \frac{1}{T^{1/2}}) O ( T 3 p − 2 p − 1 σ 3 p − 2 p + T 1/2 1 ) GL
GL : বৈশ্বিক Lipschitz, IL : ব্যক্তিগত Lipschitz
নোট : এই পেপারটি খাঁটি তাত্ত্বিক কাজ , কোনো পরীক্ষামূলক অংশ অন্তর্ভুক্ত করে না। সমস্ত ফলাফল তাত্ত্বিক প্রমাণ।
নিম্ন সীমানা মেলানো : প্রমাণ করুন সংগ্রহণ হার পরিচিত নিম্ন সীমানা অর্জন করে (Carmon et al., 2020)বিশেষ ক্ষেত্র পুনরুদ্ধার করুন :
p = 2 p = 2 p = 2 হলে মান SGD ফলাফল পুনরুদ্ধার করুনσ = 0 \sigma = 0 σ = 0 হলে গ্রেডিয়েন্ট ডিসেন্ট গতি পুনরুদ্ধার করুনবর্তমান ফলাফলের সাথে তুলনা করুন : তাত্ত্বিক বিশ্লেষণ মাধ্যমে উন্নতি প্রমাণ করুনউপসংহার : ক্লিপিং অপ্রয়োজনীয় কিন্তু উপকারী
যুক্তি :
যথেষ্টতা : উপপাদ্য 1 প্রমাণ করে নর্মালাইজেশন একা যথেষ্ট (IL অধীনে)ত্বরণ : উপপাদ্য 3 প্রমাণ করে সমন্বিত পদ্ধতি শব্দ নির্ভরতা উন্নত করেভারসাম্য : ক্লিপিং হাইপারপ্যারামিটার যোগ করে কিন্তু মসৃণতা অনুমান শিথিল করে (GL বনাম IL)প্রযোজ্য দৃশ্য বিভাজন :
নর্মালাইজেশন একা ব্যবহার করুন : ব্যক্তিগত মসৃণতা, ক্লিপিং প্যারামিটার টিউনিং প্রয়োজন নেইসমন্বিত ব্যবহার করুন : শুধুমাত্র বৈশ্বিক মসৃণতা, সর্বোত্তম শব্দ নির্ভরতা প্রয়োজনমূল পর্যবেক্ষণ : যখন σ \sigma σ ছোট হয়, সমন্বিত পদ্ধতি সুবিধা উল্লেখযোগ্য
পরিমাণগত বিশ্লেষণ (p = 1.5 p = 1.5 p = 1.5 উদাহরণ):
SGDC: O ( σ ) O(\sigma) O ( σ ) NSGDC: O ( σ 1 / 2 ) O(\sigma^{1/2}) O ( σ 1/2 ) উন্নতি ফ্যাক্টর: σ \sqrt{\sigma} σ (σ → 0 \sigma \to 0 σ → 0 হলে অসীম দিকে প্রবণ) এই পেপার-এর ফলাফল : মিনি-ব্যাচ অনুমান প্রয়োজন নেই
সমান্তরাল কাজের সাথে তুলনা :
Hübler et al. (2024): নির্দিষ্ট মিনি-ব্যাচ আকার প্রয়োজন এই পেপার: ব্যাচ আকার = 1 যথেষ্ট ব্যবহারিক তাৎপর্য : ছোট ব্যাচ সাধারণীকরণের জন্য অনুকূল (Keskar et al., 2017)
এই পেপার-এর পছন্দ : প্রত্যাশা বিশ্লেষণ
সুবিধা :
ln T \ln T ln T , ln ( 1 / δ ) \ln(1/\delta) ln ( 1/ δ ) ফ্যাক্টর এড়িয়ে চলুনপ্রমাণ আরও সহজ হাইপারপ্যারামিটার নির্বাচন আরও নমনীয় সীমাবদ্ধতা : উচ্চ সম্ভাবনা নিশ্চয়তা আরও শক্তিশালী (কিন্তু লগারিদমিক খরচ সহ)
Zhang et al. (2020) : প্রথম SGDC সংগ্রহণ প্রমাণ করুন, হার O ( T − p − 1 3 p − 2 ) O(T^{-\frac{p-1}{3p-2}}) O ( T − 3 p − 2 p − 1 ) Cutkosky & Mehta (2021) : NSGDC উচ্চ সম্ভাবনা ফলাফল, ln T \ln T ln T ফ্যাক্টর সহLiu et al. (2023) : NSGDC-VR, কিছু লগারিদমিক ফ্যাক্টর দূর করুনNguyen et al. (2023) : SGDC-এর উচ্চ সম্ভাবনা সীমানা উন্নত করুনJohnson & Zhang (2013) : SVRG (উত্তল ক্ষেত্র)Zhou et al. (2020) : নেস্টেড বৈষম্য হ্রাস (অ-উত্তল)Cutkosky & Orabona (2019) : STORM অ্যালগরিদমFang et al. (2018) : SPIDER অ্যালগরিদমAllen-Zhu (2018) : Natasha 2Tripuraneni et al. (2018) : র্যান্ডম কিউবিক নিয়মিতকরণCutkosky & Mehta (2020b) : গ্রেডিয়েন্ট নর্মালাইজেশন ত্বরণHübler et al. (2024) : গ্রেডিয়েন্ট নর্মালাইজেশন (মিনি-ব্যাচ প্রয়োজন)Liu & Zhou (2024) : গ্রেডিয়েন্ট নর্মালাইজেশন + গতিশীলতাএই পেপার-এর পার্থক্য :
মিনি-ব্যাচ প্রয়োজন নেই একীভূত কাঠামো (নর্মালাইজেশন, ক্লিপিং, সমন্বয়) আরও ভাল শব্দ নির্ভরতা (নির্দিষ্ট প্যারামিটার পরিসীমা) গ্রেডিয়েন্ট ক্লিপিং অপ্রয়োজনীয় : নর্মালাইজেশন একা সংগ্রহণ নিশ্চিত করতে পারে (ব্যক্তিগত মসৃণতা অধীনে)সমন্বিত পদ্ধতি সুবিধাজনক : শব্দ নির্ভরতা উন্নত করুন, লগারিদমিক ফ্যাক্টর দূর করুনবৈষম্য হ্রাস সামঞ্জস্যপূর্ণ : নর্মালাইজেশন একা যথেষ্ট, ক্লিপিং প্রয়োজন নেইত্বরণ সম্ভব : দ্বিতীয়-ক্রম মসৃণতা অধীনে O ( T − 2 p − 2 4 p − 1 ) O(T^{-\frac{2p-2}{4p-1}}) O ( T − 4 p − 1 2 p − 2 ) অর্জন করুনএকীভূত দৃষ্টিভঙ্গি : ক্লিপিং-এর "ত্বরণ" বনাম "প্রয়োজনীয়তা" ভূমিকা স্পষ্ট করুনকঠোর সীমানা বিশ্লেষণ : নিশ্চিত ক্ষেত্র পুনরুদ্ধার করুন, বিশ্লেষণ কঠোরতা প্রমাণ করুনপ্রত্যাশা কাঠামো : প্রমাণ সরল করুন, স্পষ্ট হাইপারপ্যারামিটার নির্দেশনা প্রদান করুনতাত্ত্বিক কাজ : ব্যবহারিক কর্মক্ষমতা পরীক্ষামূলক যাচাইকরণ অভাবঅনুমান সীমাবদ্ধতা :
NSGD ব্যক্তিগত Lipschitz প্রয়োজন (শক্তিশালী) ত্বরণ দ্বিতীয়-ক্রম Lipschitz প্রয়োজন (আরও শক্তিশালী) প্রাথমিক বিন্দু গ্রেডিয়েন্ট সীমাবদ্ধ (অনুমান 2-এর শর্ত (2)) বৈষম্য হ্রাস + ত্বরণ অমীমাংসিত : দ্বিতীয়-ক্রম মসৃণতা অধীনে সমন্বয় করতে পারে নাধ্রুবক ফ্যাক্টর : তাত্ত্বিক সীমানায় ধ্রুবক বড় হতে পারেপরীক্ষামূলক যাচাইকরণ : ImageNet, ভাষা মডেল ইত্যাদি কাজে তাত্ত্বিক পূর্বাভাস পরীক্ষা করুনঅনুমান শিথিল করুন : দুর্বল মসৃণতা অবস্থা অন্বেষণ করুন (যেমন Hölder ধারাবাহিক)স্ব-অভিযোজিত অ্যালগরিদম : পূর্ব জ্ঞান ছাড়াই প্যারামিটার সমন্বয় কৌশল ডিজাইন করুনপ্রশ্ন : বৈশ্বিক Lipschitz অধীনে NSGD সংগ্রহণ প্রমাণ করা যায় কিনা?
সমান্তরাল কাজ (Liu & Zhou, 2024) ইতিবাচক উত্তর দেয়, কিন্তু মিনি-ব্যাচ প্রয়োজন মিনি-ব্যাচ ছাড়া বৈশ্বিক Lipschitz ফলাফল এখনও খোলা প্রশ্ন : প্রত্যাশা সীমানা উচ্চ সম্ভাবনা সীমানায় রূপান্তরিত হতে পারে কিনা অনেক হারানো ছাড়াই?
নতুন ঘনত্ব অসমতা প্রযুক্তি প্রয়োজন হতে পারে সম্পূর্ণ প্রমাণ : পরিশিষ্ট সমস্ত উপপাদ্য-এর বিস্তারিত প্রমাণ প্রদান করে (42 পৃষ্ঠা)কঠোর সীমানা বিশ্লেষণ : নিশ্চিত ক্ষেত্র পুনরুদ্ধার মাধ্যমে বিশ্লেষণ কঠোরতা যাচাই করুনপ্রযুক্তিগত উদ্ভাবন : উচ্চ সম্ভাবনা বিশ্লেষণ প্রত্যাশা বিশ্লেষণে সরল করার কৌশলসিস্টেমেটিক তুলনা : টেবিল 1 সমস্ত পদ্ধতি স্পষ্টভাবে তুলনা করেস্পষ্ট প্রযোজ্য দৃশ্য : ব্যক্তিগত বনাম বৈশ্বিক Lipschitz-এর ভারসাম্যমৌলিক প্রশ্ন উত্তর : Q1-Q3-এর যুক্তিসংগত কাঠামো স্পষ্টবাস্তবায়ন সরলীকরণ : NSGD ক্লিপিং প্যারামিটার টিউনিং প্রয়োজন নেইমিনি-ব্যাচ প্রয়োজন নেই : সাধারণীকরণের জন্য অনুকূলশব্দ নির্ভরতা উন্নতি : σ \sigma σ ছোট হলে উল্লেখযোগ্য সুবিধাপ্রেরণা স্পষ্ট : তিনটি মৌলিক প্রশ্ন সম্পূর্ণ পাঠ নির্দেশনা দেয়প্রযুক্তিগত ব্যাখ্যা : বিভাগ 2.2 উন্নতি কারণ সংক্ষিপ্তভাবে ব্যাখ্যা করেসম্পর্কিত কাজ ব্যাপক : সমান্তরাল কাজের সাথে বিস্তারিত তুলনাখাঁটি তত্ত্ব : প্রকৃত স্নায়ু নেটওয়ার্ক প্রশিক্ষণে কর্মক্ষমতা যাচাই করা হয়নিধ্রুবক ফ্যাক্টর অজানা : তাত্ত্বিক সীমানায় লুকানো ধ্রুবক ব্যবহারিকতা প্রভাবিত করতে পারেহাইপারপ্যারামিটার সংবেদনশীলতা : প্যারামিটার নির্বাচন-এর দৃঢ়তা অধ্যয়ন করা হয়নিব্যক্তিগত Lipschitz শক্তিশালী : অনেক ব্যবহারিক সমস্যা শুধুমাত্র বৈশ্বিক Lipschitz সন্তুষ্ট করেপ্রাথমিক বিন্দু শর্ত : B = sup ξ ∥ ∇ f ( w 0 ; ξ ) ∥ < ∞ B = \sup_{\xi}\|\nabla f(w_0; \xi)\| < \infty B = sup ξ ∥∇ f ( w 0 ; ξ ) ∥ < ∞ যাচাই প্রয়োজনদ্বিতীয়-ক্রম মসৃণতা বিরল : Hessian Lipschitz ব্যবহারে যাচাই করা কঠিনবৈষম্য হ্রাস + ত্বরণ ব্যর্থ : সমন্বয় করতে পারে না (বিভাগ 5 শেষ)উচ্চ সম্ভাবনা সীমানা অভাব : প্রত্যাশা ফলাফল উচ্চ সম্ভাবনা নিশ্চয়তা দুর্বলনিম্ন সীমানা অসম্পূর্ণ : σ p 3 p − 2 \sigma^{\frac{p}{3p-2}} σ 3 p − 2 p নির্ভরতা-এর সর্বোত্তমতা প্রমাণ করা হয়নিLiu & Zhou (2024) : বৈশ্বিক Lipschitz অধীনে NSGD প্রমাণ করুন, আরও সাধারণHübler et al. (2024) : উচ্চ সম্ভাবনা সীমানা প্রদান করুন, আরও শক্তিশালীএই পেপার-এর সুবিধা প্রধানত মিনি-ব্যাচ অভাব এবং নির্দিষ্ট পরিসীমায় শব্দ নির্ভরতা ধারণা স্পষ্টীকরণ : ক্লিপিং-এর "ত্বরণ" বনাম "প্রয়োজনীয়তা" ভূমিকা স্পষ্ট করুনতাত্ত্বিক সরঞ্জাম : প্রত্যাশা বিশ্লেষণ কাঠামো পরবর্তী কাজ অনুপ্রাণিত করতে পারেবেঞ্চমার্ক ফলাফল : বিস্তারিত সংগ্রহণ হার তুলনা প্রদান করুন (টেবিল 1)মধ্যম : তাত্ত্বিক অনুশীলন নির্দেশনা, কিন্তু পরীক্ষামূলক যাচাইকরণ অভাবহাইপারপ্যারামিটার নির্বাচন : স্পষ্ট প্যারামিটার সেটিং সূত্র প্রদান করুনঅ্যালগরিদম সরলীকরণ : NSGD টিউনিং বোঝা হ্রাস করেতত্ত্ব : প্রমাণ সম্পূর্ণ, যাচাই করা সহজঅ্যালগরিদম : সিউডোকোড স্পষ্ট (অ্যালগরিদম 1-7)বাস্তবায়ন : কোনো কোড প্রকাশিত নয় (খাঁটি তাত্ত্বিক কাজ)ব্যক্তিগত Lipschitz সন্তুষ্ট (যেমন সীমিত যোগফল অপ্টিমাইজেশন) ক্লিপিং প্যারামিটার টিউনিং চান না ছোট ব্যাচ প্রশিক্ষণ (সাধারণীকরণ অগ্রাধিকার) শুধুমাত্র বৈশ্বিক Lipschitz সন্তুষ্ট শব্দ স্তর σ \sigma σ অজানা বা বড় সর্বোত্তম শব্দ নির্ভরতা প্রয়োজন ব্যক্তিগত Lipschitz সন্তুষ্ট সীমিত যোগফল সমস্যা (ব্যক্তিগত গ্রেডিয়েন্ট গণনা করতে পারে) দ্রুততম সংগ্রহণ প্রয়োজন (O ( T − 1 / 3 ) O(T^{-1/3}) O ( T − 1/3 ) যখন p = 2 p=2 p = 2 ) দ্বিতীয়-ক্রম Lipschitz সন্তুষ্ট অতিরিক্ত গণনা সহ্য করতে পারে (এক্সট্রাপোলেশন পদক্ষেপ) আরও ত্বরণ প্রয়োজন পরীক্ষামূলক যাচাইকরণ : ImageNet, ভাষা মডেল ইত্যাদি কাজে পরীক্ষা করুনঅনুমান শিথিল করুন : দুর্বল মসৃণতা অবস্থা অন্বেষণ করুনস্ব-অভিযোজিত অ্যালগরিদম : স্বয়ংক্রিয় প্যারামিটার সমন্বয় কৌশল ডিজাইন করুনNSGD প্রথম চেষ্টা করুন : সহজ এবং তাত্ত্বিক নিশ্চয়তাগ্রেডিয়েন্ট পরিসীমা পর্যবেক্ষণ করুন : যাচাই করুন ∥ ∇ f ( w t ; ξ t ) ∥ \|\nabla f(w_t; \xi_t)\| ∥∇ f ( w t ; ξ t ) ∥ সীমাবদ্ধ কিনাছোট ব্যাচ প্রশিক্ষণ : বড় ব্যাচ সাধারণীকরণ ক্ষতি এড়িয়ে চলুনএই পেপারটি ভারী-লেজ শব্দের অধীনে SGD-তে গ্রেডিয়েন্ট নিয়ন্ত্রণ প্রযুক্তির গভীর তাত্ত্বিক গবেষণা পরিচালনা করে, মূল অবদান হল গ্রেডিয়েন্ট ক্লিপিং অপ্রয়োজনীয় কিন্তু উপকারী প্রমাণ করা । সরলীকৃত প্রত্যাশা বিশ্লেষণ কাঠামো প্রবর্তন করে, লেখক বিদ্যমান ফলাফল উন্নত করেন, লগারিদমিক ফ্যাক্টর দূর করেন এবং নিশ্চিত ক্ষেত্র পুনরুদ্ধার করেন। পরীক্ষামূলক যাচাইকরণ অভাব এবং অনুমান সীমাবদ্ধতা থাকা সত্ত্বেও, এই পেপারটি প্রদত্ত একীভূত তাত্ত্বিক দৃষ্টিভঙ্গি এবং স্পষ্ট প্রযোজ্য দৃশ্য বিভাজন দৃঢ় এবং দক্ষ অপ্টিমাইজেশন অ্যালগরিদম বোঝা এবং ডিজাইনে গুরুত্বপূর্ণ মূল্য রাখে। বিশেষত, NSGD অ্যালগরিদম-এর সরলতা এবং তাত্ত্বিক নিশ্চয়তা এটিকে ব্যবহারে চেষ্টা করার যোগ্য পদ্ধতি করে তোলে। ভবিষ্যত কাজ পরীক্ষামূলক যাচাইকরণ, অনুমান শিথিলকরণ এবং স্ব-অভিযোজিত অ্যালগরিদম ডিজাইনে ফোকাস করা উচিত।