Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic
تسريع SGDM عبر جداول معدل التعلم وحجم الدفعة: تحليل قائم على ليابونوف
تحلل هذه الورقة سلوك التقارب للنزول الاحتمالي مع الزخم (SGDM) تحت جداول معدل التعلم وحجم الدفعة الديناميكية من خلال إدخال دالة ليابونوف جديدة وأبسط. يوسع البحث الإطار النظري الموجود ليشمل ثلاث استراتيجيات جدولة عملية شائعة الاستخدام في التعلم العميق: حجم دفعة ثابت مع معدل تعلم متناقص، حجم دفعة متزايد مع معدل تعلم متناقص، وزيادة متزامنة لحجم الدفعة ومعدل التعلم. تكشف النتائج عن هرمية تقارب واضحة: حجم الدفعة الثابت لا يضمن تقارب معيار التدرج المتوقع، بينما يمكن لحجم الدفعة المتزايد تحقيق ذلك، وزيادة حجم الدفعة ومعدل التعلم معاً تحقق تناقصاً أسرع قابلاً للإثبات. تتحقق النتائج التجريبية من النظرية، مما يدل على أن SGDM مع الجدولة الديناميكية يتفوق بشكل كبير على الطرق المقابلة ذات المعاملات الفائقة الثابتة من حيث سرعة التقارب.
المشكلة الأساسية التي يسعى هذا البحث لحلها هي: كيفية توجيه الجدولة الديناميكية لمعدل التعلم وحجم الدفعة في SGDM من خلال التحليل النظري لتحقيق أداء تقارب أفضل.
دراسة مشكلة تقليل المخاطر التجريبية: minθ∈Rdf(θ)=n1∑i=1nfi(θ)، حيث fi(θ)=f(θ;(xi,yi)) هي دالة الخسارة. الهدف هو إيجاد نقطة مستقرة θ∗∈Rd بحيث ∇f(θ∗)=0.
بالمقارنة مع الطرق الموجودة (مثل الشكل المعقد لـ Liu وآخرون 2020)، تتمتع دالة ليابونوف في هذه الورقة بشكل بسيط وتتكيف بشكل طبيعي مع معدل التعلم الديناميكي.
تحت جدولة حجم الدفعة المتزايد، يُظهر SGD و NSHB و SHB انخفاضاً سريعاً في معيار التدرج في المراحل المبكرة، لكن Adam يحقق معيار تدرج أصغر في المراحل اللاحقة.
Liu, Y., Gao, Y., and Yin, W. (2020). تحليل محسّن للنزول الاحتمالي مع الزخم
Umeda, H. and Iiduka, H. (2025). زيادة حجم الدفعة ومعدل التعلم معاً يسرع النزول الاحتمالي
Kamo, K. and Iiduka, H. (2025). زيادة حجم الدفعة تحسن تقارب النزول الاحتمالي مع الزخم
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). لا تقلل معدل التعلم، زد حجم الدفعة
التقييم الشامل: هذه ورقة بمساهمات نظرية قوية، حيث نجحت في تحليل مشكلة الجدولة الديناميكية لـ SGDM من خلال إدخال دالة ليابونوف مبسطة. على الرغم من أن الابتكار نسبي محدود، إلا أنها تسد فجوة نظرية مهمة وتوفر توجيهاً قيماً للتطبيقات العملية. التحليل النظري دقيق، والتحقق التجريبي كافٍ، وهي مساهمة مفيدة في مجال نظرية التحسين.