2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

SGDM को लर्निंग रेट और बैच साइज शेड्यूल के माध्यम से त्वरित करना: एक लायपुनोव-आधारित विश्लेषण

मूल जानकारी

  • पेपर ID: 2508.03105
  • शीर्षक: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • लेखक: Yuichi Kondo, Hideaki Iiduka (मेइजी विश्वविद्यालय)
  • वर्गीकरण: cs.LG (मशीन लर्निंग)
  • प्रकाशन तिथि: 10 अक्टूबर 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2508.03105v2

सारांश

यह पेपर एक नए और सरल लायपुनोव फलन का परिचय देकर, गतिशील लर्निंग रेट और बैच साइज शेड्यूल के तहत गति के साथ स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGDM) के अभिसरण व्यवहार का विश्लेषण करता है। अनुसंधान मौजूदा सैद्धांतिक ढांचे को विस्तारित करता है, जिसमें गहन शिक्षा में आमतौर पर उपयोग की जाने वाली तीन व्यावहारिक शेड्यूलिंग रणनीतियां शामिल हैं: स्थिर बैच साइज के साथ क्षयशील लर्निंग रेट, बढ़ते बैच साइज के साथ क्षयशील लर्निंग रेट, और एक साथ बढ़ते बैच साइज और लर्निंग रेट। परिणाम स्पष्ट अभिसरण पदानुक्रम को प्रकट करते हैं: स्थिर बैच साइज अपेक्षित ग्रेडिएंट मानदंड के अभिसरण की गारंटी नहीं दे सकता, जबकि बढ़ता बैच साइज कर सकता है, और एक साथ बढ़ता बैच साइज और लर्निंग रेट सिद्ध रूप से तेजी से क्षय प्राप्त कर सकता है। प्रायोगिक परिणाम सिद्धांत को सत्यापित करते हैं, जो दर्शाता है कि गतिशील शेड्यूलिंग के साथ SGDM निश्चित हाइपरपैरामीटर के साथ संबंधित विधियों की तुलना में अभिसरण गति में काफी बेहतर है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या यह है: SGDM में लर्निंग रेट और बैच साइज के गतिशील शेड्यूलिंग के माध्यम से बेहतर अभिसरण प्रदर्शन को कैसे प्राप्त किया जाए, इसके लिए सैद्धांतिक विश्लेषण कैसे किया जाए।

महत्व

  1. व्यावहारिक आवश्यकता: गतिशील लर्निंग रेट शेड्यूलिंग (जैसे कोसाइन एनीलिंग) गहन शिक्षा प्रशिक्षण में व्यापक रूप से अपनाई जाती है, लेकिन सैद्धांतिक समर्थन की कमी है
  2. दक्षता में सुधार: बैच साइज बढ़ाने से मिनी-बैच SGD की दक्षता में सुधार की सूचना दी गई है, लेकिन SGDM ढांचे के तहत सैद्धांतिक विश्लेषण सीमित है
  3. सैद्धांतिक अंतराल: मौजूदा SGDM सैद्धांतिक विश्लेषण मुख्य रूप से निश्चित लर्निंग रेट तक सीमित है, गतिशील शेड्यूलिंग के लिए सैद्धांतिक ढांचे की तत्काल आवश्यकता है

मौजूदा विधियों की सीमाएं

  1. Umeda and Iiduka (2025): केवल वैनिला SGD के गतिशील शेड्यूलिंग का विश्लेषण करता है, गति विधि को शामिल नहीं करता है
  2. Kamo and Iiduka (2025): निश्चित लर्निंग रेट और बढ़ते बैच साइज के तहत SGDM के अभिसरण का अध्ययन करता है, लेकिन गतिशील लर्निंग रेट पर विचार नहीं करता है
  3. Liu et al. (2020): निश्चित लर्निंग रेट के तहत NSHB का विश्लेषण करता है, लेकिन गतिशील शेड्यूलिंग तक विस्तार अभी भी चुनौतीपूर्ण है

अनुसंधान प्रेरणा

SGDM गतिशील लर्निंग रेट शेड्यूलिंग के सैद्धांतिक विश्लेषण में अंतराल को भरना, व्यावहारिक प्रशिक्षण के लिए सैद्धांतिक मार्गदर्शन प्रदान करना।

मुख्य योगदान

  1. नया लायपुनोव फलन: गतिशील लर्निंग रेट शेड्यूलिंग के अनुकूल एक सरलीकृत लायपुनोव फलन प्रस्तावित करता है, जो मौजूदा विधियों की तुलना में अधिक सरल है
  2. एकीकृत सैद्धांतिक ढांचा: SHB और NSHB को कवर करने वाला एक एकीकृत विश्लेषण ढांचा स्थापित करता है, जो विभिन्न शेड्यूलिंग रणनीतियों के लिए लागू होता है
  3. सैद्धांतिक विस्तार: Kamo and Iiduka (2025) के विश्लेषण को निश्चित लर्निंग रेट से क्षयशील लर्निंग रेट तक विस्तारित करता है, और लर्निंग रेट और बैच साइज दोनों को एक साथ बढ़ाने के मामले का अध्ययन करता है
  4. अभिसरण पदानुक्रम: सिद्धांत रूप से चार शेड्यूलिंग रणनीतियों के अभिसरण प्रदर्शन की रैंकिंग साबित करता है, और प्रयोग द्वारा सत्यापित करता है

विधि विस्तार

कार्य परिभाषा

अनुभवजन्य जोखिम न्यूनीकरण समस्या का अध्ययन करता है: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), जहां fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) हानि फलन है। लक्ष्य एक स्थिर बिंदु θRd\theta^* \in \mathbb{R}^d खोजना है जहां f(θ)=0\nabla f(\theta^*) = 0

सैद्धांतिक ढांचा

लायपुनोव फलन डिजाइन

नया लायपुनोव फलन प्रस्तावित करता है:

f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$$ जहां $A_t \geq 0$ केवल $t$ पर निर्भर करने वाला एक निर्धारक अदिश है। NSHB विधि के लिए: $$A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$$ #### एल्गोरिथ्म विवरण **NSHB एल्गोरिथ्म**: ``` m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t) θ_{t+1} = θ_t - η_t m_t ``` **SHB एल्गोरिथ्म**: ``` m_t = βm_{t-1} + ∇f_{B_t}(θ_t) θ_{t+1} = θ_t - α_t m_t ``` ### तकनीकी नवाचार बिंदु #### 1. सरलीकृत लायपुनोव फलन मौजूदा विधियों (जैसे Liu et al. 2020 का जटिल रूप) की तुलना में, यह पेपर का लायपुनोव फलन रूप में सरल है, और गतिशील लर्निंग रेट के अनुकूल स्वाभाविक रूप से है। #### 2. एकीकृत विश्लेषण ढांचा तकनीकी शर्त $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (जहां $1 \leq c < \frac{1}{\beta^2}$) का परिचय देकर, एक साथ क्षयशील और बढ़ती लर्निंग रेट शेड्यूलिंग को संभालता है। #### 3. क्रॉस-टर्म उन्मूलन तकनीक $A_t$ की परिभाषा को चतुराई से चुनकर, विश्लेषण में क्रॉस-टर्म $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ को सफलतापूर्वक समाप्त करता है, जो इस विश्लेषण की मुख्य तकनीकी कठिनाई है। ## प्रायोगिक सेटअप ### डेटासेट - **डेटासेट**: CIFAR-100 - **मॉडल**: ResNet-18 - **प्रशिक्षण एपोक**: 300 एपोक - **गति गुणांक**: β = 0.9 ### हार्डवेयर वातावरण - **CPU**: दोहरी Intel Xeon Silver 4316 - **GPU**: NVIDIA Tesla A100 80GB - **सॉफ्टवेयर**: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1 ### शेड्यूलिंग रणनीतियां चार प्रशिक्षण शेड्यूल का अध्ययन करता है: 1. **स्थिर बैच साइज + क्षयशील लर्निंग रेट**: बैच साइज 128 पर निश्चित 2. **बढ़ता बैच साइज + क्षयशील लर्निंग रेट**: बैच साइज हर 30 एपोक में दोगुना (2³ से 2¹²) 3. **बढ़ता बैच साइज + बढ़ती लर्निंग रेट**: बैच साइज और लर्निंग रेट एक साथ बढ़ते हैं 4. **बढ़ता बैच साइज + वार्म-अप लर्निंग रेट**: पहले बढ़ता फिर घटता लर्निंग रेट शेड्यूल ### मूल्यांकन मेट्रिक्स - प्रशिक्षण हानि - परीक्षण सटीकता - पूर्ण ग्रेडिएंट मानदंड $\|\nabla f(\theta_e)\|$ ## प्रायोगिक परिणाम ### मुख्य सैद्धांतिक परिणाम #### प्रमेय 1: एकीकृत अभिसरण सीमा धारणा शर्तों के तहत, NSHB और SHB के लिए: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$$ जहां: - $B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$ - $V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$ - $C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB) #### अभिसरण दर विश्लेषण **स्थिर बैच साइज मामला**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$$ **बढ़ता बैच साइज मामला**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$$ **एक साथ बढ़ता बैच साइज और लर्निंग रेट**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$$ ### प्रायोगिक सत्यापन #### अभिसरण प्रदर्शन रैंकिंग प्रायोगिक परिणाम पूरी तरह से सैद्धांतिक रूप से भविष्यवाणी किए गए अभिसरण पदानुक्रम को सत्यापित करते हैं: 1. **सबसे खराब**: स्थिर बैच साइज + क्षयशील लर्निंग रेट 2. **मध्यम**: बढ़ता बैच साइज + क्षयशील लर्निंग रेट 3. **बेहतर**: बढ़ता बैच साइज + बढ़ती लर्निंग रेट 4. **सर्वोत्तम**: बढ़ता बैच साइज + वार्म-अप लर्निंग रेट #### विशिष्ट संख्यात्मक परिणाम - NSHB और SHB ग्रेडिएंट मानदंड अभिसरण में समान रैंकिंग प्रदर्शित करते हैं - वार्म-अप रणनीति परीक्षण सटीकता पर भी सर्वोत्तम प्रदर्शन प्राप्त करती है - SHB के लिए, उच्च लर्निंग रेट हालांकि ग्रेडिएंट मानदंड तेजी से क्षय करता है, लेकिन निम्न लर्निंग रेट बेहतर परीक्षण सटीकता प्राप्त करता है #### अन्य ऑप्टिमाइजर के साथ तुलना बढ़ती बैच साइज शेड्यूलिंग के तहत, SGD, NSHB और SHB प्रारंभिक चरण में ग्रेडिएंट मानदंड में तेजी से गिरावट दिखाते हैं, लेकिन Adam बाद के चरण में छोटे ग्रेडिएंट मानदंड प्राप्त करता है। ## संबंधित कार्य ### गति विधि सैद्धांतिक विश्लेषण - **Liu et al. (2020)**: निश्चित लर्निंग रेट के तहत NSHB का अग्रणी कार्य - **Gadat et al. (2018), Mai and Johansson (2020)**: लायपुनोव फलन-आधारित अभिसरण विश्लेषण - **Wilson et al. (2021), Defazio (2021)**: त्वरित विधियों का सैद्धांतिक विश्लेषण ### लर्निंग रेट और बैच साइज शेड्यूलिंग - **Umeda and Iiduka (2025)**: वैनिला SGD की गतिशील शेड्यूलिंग विश्लेषण - **Kamo and Iiduka (2025)**: बढ़ते बैच साइज के तहत SGDM का विश्लेषण - **Smith et al. (2018)**: व्यावहारिक में बैच साइज शेड्यूलिंग की प्रभावशीलता ### यह पेपर का लाभ मौजूदा कार्य की तुलना में, यह पेपर पहली बार SGDM गतिशील लर्निंग रेट शेड्यूलिंग के लिए एक संपूर्ण सैद्धांतिक ढांचा प्रदान करता है, एक महत्वपूर्ण सैद्धांतिक अंतराल को भरता है। ## निष्कर्ष और चर्चा ### मुख्य निष्कर्ष 1. **सैद्धांतिक योगदान**: SGDM गतिशील शेड्यूलिंग के लिए एक संपूर्ण सैद्धांतिक ढांचा स्थापित करता है 2. **अभिसरण पदानुक्रम**: साबित करता है कि बढ़ता बैच साइज स्थिर बैच साइज से बेहतर है, दोनों को एक साथ बढ़ाना सर्वोत्तम है 3. **प्रायोगिक सत्यापन**: सैद्धांतिक भविष्यवाणी और प्रायोगिक परिणाम अत्यधिक सुसंगत हैं ### सीमाएं 1. **धारणा शर्तें**: L-चिकनापन और सीमित विचरण धारणा की आवश्यकता है 2. **लर्निंग रेट बाधा**: तकनीकी शर्त $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ लर्निंग रेट वृद्धि गति को सीमित करता है 3. **प्रायोगिक सीमा**: केवल CIFAR-100 और ResNet-18 पर सत्यापित, बड़े पैमाने पर प्रयोग की कमी है ### भविष्य की दिशाएं 1. **गति गुणांक शेड्यूलिंग**: गति गुणांक $\beta$ की गतिशील शेड्यूलिंग तक विस्तार 2. **अन्य ऑप्टिमाइजर**: विश्लेषण को Adam जैसी स्व-अनुकूली विधियों तक विस्तारित करना 3. **व्यावहारिक अनुप्रयोग**: बड़े पैमाने पर गहन शिक्षा कार्यों में सत्यापन ## गहन मूल्यांकन ### लाभ 1. **सैद्धांतिक कठोरता**: लायपुनोव फलन डिजाइन चतुर है, गणितीय व्युत्पत्ति सुदृढ़ है 2. **व्यावहारिक मूल्य**: व्यावहारिक प्रशिक्षण में हाइपरपैरामीटर शेड्यूलिंग के लिए सैद्धांतिक मार्गदर्शन प्रदान करता है 3. **एकीकृत ढांचा**: SHB और NSHB दोनों का विश्लेषण करता है, अच्छी सामान्यता है 4. **पर्याप्त प्रयोग**: सैद्धांतिक और प्रायोगिक परिणाम अत्यधिक सुसंगत हैं, निष्कर्षों की विश्वसनीयता बढ़ाते हैं ### कमियां 1. **सीमित नवाचार**: मुख्य रूप से मौजूदा तकनीकों का विस्तार है, मूल नवाचार अपेक्षाकृत सीमित है 2. **प्रायोगिक पैमाना**: प्रयोग केवल मध्यम पैमाने की समस्याओं तक सीमित हैं, बड़े पैमाने पर सत्यापन की कमी है 3. **व्यावहारिक बाधाएं**: सैद्धांतिक विश्लेषण में तकनीकी शर्तें व्यावहारिक रूप से सख्ती से पूरी करना मुश्किल हो सकता है 4. **तुलना अपर्याप्त**: नवीनतम स्व-अनुकूली अनुकूलन विधियों के साथ गहन तुलना की कमी है ### प्रभाव 1. **सैद्धांतिक मूल्य**: SGDM गतिशील शेड्यूलिंग के लिए महत्वपूर्ण सैद्धांतिक आधार प्रदान करता है 2. **व्यावहारिक महत्व**: वास्तविक गहन शिक्षा प्रशिक्षण में हाइपरपैरामीटर सेटिंग को निर्देशित करता है 3. **पुनरुत्पादनीयता**: कोड सार्वजनिक है, प्रयोग पुनरुत्पादनीय हैं ### लागू परिदृश्य 1. **गहन शिक्षा प्रशिक्षण**: विशेष रूप से लर्निंग रेट और बैच साइज के सूक्ष्म शेड्यूलिंग की आवश्यकता वाले परिदृश्यों के लिए उपयुक्त 2. **सैद्धांतिक अनुसंधान**: आगे के अनुकूलन सैद्धांतिक अनुसंधान के लिए आधार प्रदान करता है 3. **इंजीनियरिंग अभ्यास**: व्यावहारिक प्रशिक्षण प्रणालियों में हाइपरपैरामीटर स्वचालित समायोजन के लिए मार्गदर्शन प्रदान करता है ## संदर्भ - Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum - Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent - Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum - Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size --- **समग्र मूल्यांकन**: यह एक सुदृढ़ सैद्धांतिक योगदान वाला पेपर है, जो एक सरलीकृत लायपुनोव फलन का परिचय देकर SGDM की गतिशील शेड्यूलिंग समस्या का सफलतापूर्वक विश्लेषण करता है। हालांकि नवाचार अपेक्षाकृत सीमित है, लेकिन यह एक महत्वपूर्ण सैद्धांतिक अंतराल को भरता है और व्यावहारिक अनुप्रयोग के लिए मूल्यवान मार्गदर्शन प्रदान करता है। सैद्धांतिक विश्लेषण सुदृढ़ है, प्रायोगिक सत्यापन पर्याप्त है, यह अनुकूलन सिद्धांत क्षेत्र में एक लाभकारी योगदान है।