Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic
SGDM को लर्निंग रेट और बैच साइज शेड्यूल के माध्यम से त्वरित करना: एक लायपुनोव-आधारित विश्लेषण
यह पेपर एक नए और सरल लायपुनोव फलन का परिचय देकर, गतिशील लर्निंग रेट और बैच साइज शेड्यूल के तहत गति के साथ स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGDM) के अभिसरण व्यवहार का विश्लेषण करता है। अनुसंधान मौजूदा सैद्धांतिक ढांचे को विस्तारित करता है, जिसमें गहन शिक्षा में आमतौर पर उपयोग की जाने वाली तीन व्यावहारिक शेड्यूलिंग रणनीतियां शामिल हैं: स्थिर बैच साइज के साथ क्षयशील लर्निंग रेट, बढ़ते बैच साइज के साथ क्षयशील लर्निंग रेट, और एक साथ बढ़ते बैच साइज और लर्निंग रेट। परिणाम स्पष्ट अभिसरण पदानुक्रम को प्रकट करते हैं: स्थिर बैच साइज अपेक्षित ग्रेडिएंट मानदंड के अभिसरण की गारंटी नहीं दे सकता, जबकि बढ़ता बैच साइज कर सकता है, और एक साथ बढ़ता बैच साइज और लर्निंग रेट सिद्ध रूप से तेजी से क्षय प्राप्त कर सकता है। प्रायोगिक परिणाम सिद्धांत को सत्यापित करते हैं, जो दर्शाता है कि गतिशील शेड्यूलिंग के साथ SGDM निश्चित हाइपरपैरामीटर के साथ संबंधित विधियों की तुलना में अभिसरण गति में काफी बेहतर है।
इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या यह है: SGDM में लर्निंग रेट और बैच साइज के गतिशील शेड्यूलिंग के माध्यम से बेहतर अभिसरण प्रदर्शन को कैसे प्राप्त किया जाए, इसके लिए सैद्धांतिक विश्लेषण कैसे किया जाए।
व्यावहारिक आवश्यकता: गतिशील लर्निंग रेट शेड्यूलिंग (जैसे कोसाइन एनीलिंग) गहन शिक्षा प्रशिक्षण में व्यापक रूप से अपनाई जाती है, लेकिन सैद्धांतिक समर्थन की कमी है
दक्षता में सुधार: बैच साइज बढ़ाने से मिनी-बैच SGD की दक्षता में सुधार की सूचना दी गई है, लेकिन SGDM ढांचे के तहत सैद्धांतिक विश्लेषण सीमित है
सैद्धांतिक अंतराल: मौजूदा SGDM सैद्धांतिक विश्लेषण मुख्य रूप से निश्चित लर्निंग रेट तक सीमित है, गतिशील शेड्यूलिंग के लिए सैद्धांतिक ढांचे की तत्काल आवश्यकता है
नया लायपुनोव फलन: गतिशील लर्निंग रेट शेड्यूलिंग के अनुकूल एक सरलीकृत लायपुनोव फलन प्रस्तावित करता है, जो मौजूदा विधियों की तुलना में अधिक सरल है
एकीकृत सैद्धांतिक ढांचा: SHB और NSHB को कवर करने वाला एक एकीकृत विश्लेषण ढांचा स्थापित करता है, जो विभिन्न शेड्यूलिंग रणनीतियों के लिए लागू होता है
सैद्धांतिक विस्तार: Kamo and Iiduka (2025) के विश्लेषण को निश्चित लर्निंग रेट से क्षयशील लर्निंग रेट तक विस्तारित करता है, और लर्निंग रेट और बैच साइज दोनों को एक साथ बढ़ाने के मामले का अध्ययन करता है
अभिसरण पदानुक्रम: सिद्धांत रूप से चार शेड्यूलिंग रणनीतियों के अभिसरण प्रदर्शन की रैंकिंग साबित करता है, और प्रयोग द्वारा सत्यापित करता है
अनुभवजन्य जोखिम न्यूनीकरण समस्या का अध्ययन करता है: minθ∈Rdf(θ)=n1∑i=1nfi(θ), जहां fi(θ)=f(θ;(xi,yi)) हानि फलन है। लक्ष्य एक स्थिर बिंदु θ∗∈Rd खोजना है जहां ∇f(θ∗)=0।
मौजूदा विधियों (जैसे Liu et al. 2020 का जटिल रूप) की तुलना में, यह पेपर का लायपुनोव फलन रूप में सरल है, और गतिशील लर्निंग रेट के अनुकूल स्वाभाविक रूप से है।
बढ़ती बैच साइज शेड्यूलिंग के तहत, SGD, NSHB और SHB प्रारंभिक चरण में ग्रेडिएंट मानदंड में तेजी से गिरावट दिखाते हैं, लेकिन Adam बाद के चरण में छोटे ग्रेडिएंट मानदंड प्राप्त करता है।
मौजूदा कार्य की तुलना में, यह पेपर पहली बार SGDM गतिशील लर्निंग रेट शेड्यूलिंग के लिए एक संपूर्ण सैद्धांतिक ढांचा प्रदान करता है, एक महत्वपूर्ण सैद्धांतिक अंतराल को भरता है।
Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size
समग्र मूल्यांकन: यह एक सुदृढ़ सैद्धांतिक योगदान वाला पेपर है, जो एक सरलीकृत लायपुनोव फलन का परिचय देकर SGDM की गतिशील शेड्यूलिंग समस्या का सफलतापूर्वक विश्लेषण करता है। हालांकि नवाचार अपेक्षाकृत सीमित है, लेकिन यह एक महत्वपूर्ण सैद्धांतिक अंतराल को भरता है और व्यावहारिक अनुप्रयोग के लिए मूल्यवान मार्गदर्शन प्रदान करता है। सैद्धांतिक विश्लेषण सुदृढ़ है, प्रायोगिक सत्यापन पर्याप्त है, यह अनुकूलन सिद्धांत क्षेत्र में एक लाभकारी योगदान है।