2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

تسريع SGDM عبر جداول معدل التعلم وحجم الدفعة: تحليل قائم على ليابونوف

المعلومات الأساسية

  • معرّف الورقة: 2508.03105
  • العنوان: تسريع SGDM عبر جداول معدل التعلم وحجم الدفعة: تحليل قائم على ليابونوف
  • المؤلفون: يويتشي كوندو، هيديكي إيدوكا (جامعة ميجي)
  • التصنيف: cs.LG (التعلم الآلي)
  • تاريخ النشر: 10 أكتوبر 2025 (arXiv v2)
  • رابط الورقة: https://arxiv.org/abs/2508.03105v2

الملخص

تحلل هذه الورقة سلوك التقارب للنزول الاحتمالي مع الزخم (SGDM) تحت جداول معدل التعلم وحجم الدفعة الديناميكية من خلال إدخال دالة ليابونوف جديدة وأبسط. يوسع البحث الإطار النظري الموجود ليشمل ثلاث استراتيجيات جدولة عملية شائعة الاستخدام في التعلم العميق: حجم دفعة ثابت مع معدل تعلم متناقص، حجم دفعة متزايد مع معدل تعلم متناقص، وزيادة متزامنة لحجم الدفعة ومعدل التعلم. تكشف النتائج عن هرمية تقارب واضحة: حجم الدفعة الثابت لا يضمن تقارب معيار التدرج المتوقع، بينما يمكن لحجم الدفعة المتزايد تحقيق ذلك، وزيادة حجم الدفعة ومعدل التعلم معاً تحقق تناقصاً أسرع قابلاً للإثبات. تتحقق النتائج التجريبية من النظرية، مما يدل على أن SGDM مع الجدولة الديناميكية يتفوق بشكل كبير على الطرق المقابلة ذات المعاملات الفائقة الثابتة من حيث سرعة التقارب.

الخلفية البحثية والدافع

تعريف المشكلة

المشكلة الأساسية التي يسعى هذا البحث لحلها هي: كيفية توجيه الجدولة الديناميكية لمعدل التعلم وحجم الدفعة في SGDM من خلال التحليل النظري لتحقيق أداء تقارب أفضل.

الأهمية

  1. الاحتياجات العملية: جدولة معدل التعلم الديناميكي (مثل التلدين الكوسيني) يُستخدم على نطاق واسع في تدريب التعلم العميق، لكنه يفتقر إلى الدعم النظري
  2. تحسين الكفاءة: تم الإبلاغ عن أن زيادة حجم الدفعة تحسن كفاءة SGD الصغير، لكن التحليل النظري في إطار SGDM محدود
  3. الفجوة النظرية: يقتصر التحليل النظري الموجود لـ SGDM بشكل أساسي على معدل التعلم الثابت، والإطار النظري للجدولة الديناميكية يحتاج إلى إنشاء بشكل عاجل

قيود الطرق الموجودة

  1. Umeda و Iiduka (2025): يحللان فقط الجدولة الديناميكية لـ vanilla SGD، دون تضمين طرق الزخم
  2. Kamo و Iiduka (2025): يدرسان تقارب SGDM تحت معدل تعلم ثابت وحجم دفعة متزايد، لكن دون النظر في معدل التعلم الديناميكي
  3. Liu وآخرون (2020): يحللان NSHB تحت معدل تعلم ثابت، لكن التوسع إلى الجدولة الديناميكية لا يزال يشكل تحدياً

الدافع البحثي

سد الفجوة في التحليل النظري لجدولة معدل التعلم الديناميكي في SGDM، وتوفير توجيه نظري للتدريب العملي.

المساهمات الأساسية

  1. دالة ليابونوف الجديدة: تقديم دالة ليابونوف مبسطة تتكيف مع جدولة معدل التعلم الديناميكي، وهي أكثر بساطة من الطرق الموجودة
  2. إطار نظري موحد: إنشاء إطار تحليل موحد يغطي SHB و NSHB، قابل للتطبيق على استراتيجيات جدولة مختلفة
  3. التوسع النظري: توسيع تحليل Kamo و Iiduka (2025) من معدل التعلم الثابت إلى معدل التعلم المتناقص، والبحث في حالة زيادة معدل التعلم وحجم الدفعة معاً
  4. هرمية التقارب: إثبات نظري لترتيب أداء التقارب لأربع استراتيجيات جدولة، والتحقق منها تجريبياً

شرح الطريقة

تعريف المهمة

دراسة مشكلة تقليل المخاطر التجريبية: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta)، حيث fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) هي دالة الخسارة. الهدف هو إيجاد نقطة مستقرة θRd\theta^* \in \mathbb{R}^d بحيث f(θ)=0\nabla f(\theta^*) = 0.

الإطار النظري

تصميم دالة ليابونوف

تقديم دالة ليابونوف جديدة:

f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$$ حيث $A_t \geq 0$ هو عددي حتمي يعتمد فقط على $t$. بالنسبة لطريقة NSHB: $$A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$$ #### وصف الخوارزمية **خوارزمية NSHB**: ``` m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t) θ_{t+1} = θ_t - η_t m_t ``` **خوارزمية SHB**: ``` m_t = βm_{t-1} + ∇f_{B_t}(θ_t) θ_{t+1} = θ_t - α_t m_t ``` ### نقاط الابتكار التقني #### 1. دالة ليابونوف المبسطة بالمقارنة مع الطرق الموجودة (مثل الشكل المعقد لـ Liu وآخرون 2020)، تتمتع دالة ليابونوف في هذه الورقة بشكل بسيط وتتكيف بشكل طبيعي مع معدل التعلم الديناميكي. #### 2. إطار التحليل الموحد من خلال إدخال الشرط التقني $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (حيث $1 \leq c < \frac{1}{\beta^2}$)، معالجة جدولة معدل التعلم المتناقص والمتزايد معاً. #### 3. تقنية حذف الحدود المتقاطعة من خلال اختيار ذكي لتعريف $A_t$، تم حذف الحدود المتقاطعة $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ بنجاح في التحليل، وهذه هي نقطة الصعوبة التقنية الرئيسية في هذا التحليل. ## إعداد التجارب ### مجموعات البيانات - **مجموعة البيانات**: CIFAR-100 - **النموذج**: ResNet-18 - **عدد الحقب**: 300 حقبة - **معامل الزخم**: β = 0.9 ### بيئة الأجهزة - **المعالج**: معالجات Intel Xeon Silver 4316 المزدوجة - **وحدة معالجة الرسومات**: NVIDIA Tesla A100 بسعة 80 جيجابايت - **البرنامج**: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1 ### استراتيجيات الجدولة دراسة أربع جداول تدريب: 1. **حجم دفعة ثابت + معدل تعلم متناقص**: حجم الدفعة ثابت عند 128 2. **حجم دفعة متزايد + معدل تعلم متناقص**: يتضاعف حجم الدفعة كل 30 حقبة (من 2³ إلى 2¹²) 3. **حجم دفعة متزايد + معدل تعلم متزايد**: ينمو حجم الدفعة ومعدل التعلم معاً 4. **حجم دفعة متزايد + معدل تعلم الإحماء**: جدولة معدل تعلم تزيد أولاً ثم تنخفض ### مقاييس التقييم - خسارة التدريب - دقة الاختبار - معيار التدرج الكامل $\|\nabla f(\theta_e)\|$ ## نتائج التجارب ### النتائج النظرية الرئيسية #### النظرية 1: حد التقارب الموحد تحت شروط الافتراض، بالنسبة لـ NSHB و SHB، لدينا: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$$ حيث: - $B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$ - $V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$ - $C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB) #### تحليل معدل التقارب **حالة حجم الدفعة الثابت**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$$ **حالة حجم الدفعة المتزايد**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$$ **زيادة متزامنة لحجم الدفعة ومعدل التعلم**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$$ ### التحقق التجريبي #### ترتيب أداء التقارب تتحقق النتائج التجريبية بالكامل من ترتيب هرمية التقارب المتنبأ به نظرياً: 1. **الأسوأ**: حجم دفعة ثابت + معدل تعلم متناقص 2. **متوسط**: حجم دفعة متزايد + معدل تعلم متناقص 3. **أفضل**: حجم دفعة متزايد + معدل تعلم متزايد 4. **الأمثل**: حجم دفعة متزايد + معدل تعلم إحماء #### النتائج الرقمية المحددة - يُظهر NSHB و SHB نفس الترتيب في تقارب معيار التدرج - تحقق استراتيجية الإحماء أفضل أداء في دقة الاختبار - بالنسبة لـ SHB، على الرغم من أن معدل التعلم العالي يحقق تناقصاً أسرع في معيار التدرج، إلا أن معدل التعلم المنخفض يحقق دقة اختبار أفضل #### المقارنة مع محسّنات أخرى تحت جدولة حجم الدفعة المتزايد، يُظهر SGD و NSHB و SHB انخفاضاً سريعاً في معيار التدرج في المراحل المبكرة، لكن Adam يحقق معيار تدرج أصغر في المراحل اللاحقة. ## الأعمال ذات الصلة ### التحليل النظري لطرق الزخم - **Liu وآخرون (2020)**: العمل الرائد لـ NSHB تحت معدل تعلم ثابت - **Gadat وآخرون (2018), Mai و Johansson (2020)**: تحليل التقارب القائم على دالة ليابونوف - **Wilson وآخرون (2021), Defazio (2021)**: التحليل النظري للطرق المسرعة ### جدولة معدل التعلم وحجم الدفعة - **Umeda و Iiduka (2025)**: تحليل الجدولة الديناميكية لـ vanilla SGD - **Kamo و Iiduka (2025)**: تحليل SGDM تحت حجم دفعة متزايد - **Smith وآخرون (2018)**: فعالية جدولة حجم الدفعة في الممارسة العملية ### مزايا هذه الورقة بالمقارنة مع الأعمال الموجودة، توفر هذه الورقة للمرة الأولى إطاراً نظرياً كاملاً لجدولة معدل التعلم الديناميكي في SGDM، مما يسد فجوة نظرية مهمة. ## الخلاصة والنقاش ### الاستنتاجات الرئيسية 1. **المساهمة النظرية**: إنشاء إطار نظري كامل لجدولة SGDM الديناميكية 2. **هرمية التقارب**: إثبات أن حجم الدفعة المتزايد يتفوق على حجم الدفعة الثابت، وزيادة كلاهما معاً تحقق أفضل نتيجة 3. **التحقق التجريبي**: النتائج النظرية والتجريبية متطابقة بدرجة عالية ### القيود 1. **شروط الافتراض**: تتطلب افتراضات الملاسة L والتباين المحدود 2. **قيود معدل التعلم**: الشرط التقني $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ يحد من سرعة نمو معدل التعلم 3. **نطاق التجارب**: التحقق فقط على CIFAR-100 و ResNet-18، يفتقر إلى التجارب واسعة النطاق ### الاتجاهات المستقبلية 1. **جدولة معامل الزخم**: توسيع التحليل إلى جدولة ديناميكية لمعامل الزخم $\beta$ 2. **محسّنات أخرى**: توسيع التحليل إلى طرق تكيفية مثل Adam 3. **التطبيقات العملية**: التحقق من النتائج في مهام التعلم العميق واسعة النطاق ## التقييم المتعمق ### المزايا 1. **الصرامة النظرية**: تصميم دالة ليابونوف ذكي، الاستدلال الرياضي دقيق 2. **القيمة العملية**: توفير توجيه نظري لجدولة المعاملات الفائقة في التدريب العملي 3. **الإطار الموحد**: تحليل SHB و NSHB معاً، بتعميم جيد 4. **التجارب الكافية**: النتائج النظرية والتجريبية متطابقة بدرجة عالية، مما يعزز مصداقية الاستنتاجات ### أوجه القصور 1. **الابتكار محدود**: في الأساس توسيع للتقنيات الموجودة، الابتكار الأساسي نسبي محدود 2. **نطاق التجارب**: التجارب محدودة بمشاكل متوسطة الحجم، تفتقر إلى التحقق واسع النطاق 3. **القيود العملية**: قد يكون من الصعب تحقيق شروط التحليل النظري بدقة في الممارسة العملية 4. **المقارنة غير كافية**: نقص المقارنة المتعمقة مع طرق التحسين التكيفية الحديثة ### التأثير 1. **القيمة النظرية**: توفير أساس نظري مهم لجدولة SGDM الديناميكية 2. **الأهمية العملية**: توجيه إعداد المعاملات الفائقة في تدريب التعلم العميق الفعلي 3. **قابلية التكرار**: الكود مفتوح المصدر، التجارب قابلة للتكرار ### السيناريوهات المطبقة 1. **تدريب التعلم العميق**: مناسب بشكل خاص للسيناريوهات التي تتطلب جدولة دقيقة لمعدل التعلم وحجم الدفعة 2. **البحث النظري**: توفير أساس لمزيد من البحث في نظرية التحسين 3. **الممارسة الهندسية**: توفير توجيه لضبط المعاملات الفائقة التلقائي في أنظمة التدريب العملية ## المراجع - Liu, Y., Gao, Y., and Yin, W. (2020). تحليل محسّن للنزول الاحتمالي مع الزخم - Umeda, H. and Iiduka, H. (2025). زيادة حجم الدفعة ومعدل التعلم معاً يسرع النزول الاحتمالي - Kamo, K. and Iiduka, H. (2025). زيادة حجم الدفعة تحسن تقارب النزول الاحتمالي مع الزخم - Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). لا تقلل معدل التعلم، زد حجم الدفعة --- **التقييم الشامل**: هذه ورقة بمساهمات نظرية قوية، حيث نجحت في تحليل مشكلة الجدولة الديناميكية لـ SGDM من خلال إدخال دالة ليابونوف مبسطة. على الرغم من أن الابتكار نسبي محدود، إلا أنها تسد فجوة نظرية مهمة وتوفر توجيهاً قيماً للتطبيقات العملية. التحليل النظري دقيق، والتحقق التجريبي كافٍ، وهي مساهمة مفيدة في مجال نظرية التحسين.