2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka

We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.

academic

SGDMの加速化：学習率とバッチサイズスケジュールのリアプノフ解析

基本情報

論文ID: 2508.03105
タイトル: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
著者: 近藤勇一、飯塚秀明（明治大学）
分類: cs.LG（機械学習）
発表日: 2025年10月10日（arXiv v2）
論文リンク: https://arxiv.org/abs/2508.03105v2

要約

本論文は、新規かつより簡潔なリアプノフ関数を導入することで、動的学習率とバッチサイズスケジュール下における運動量付き確率的勾配降下法（SGDM）の収束挙動を分析している。研究は既存の理論的枠組みを拡張し、深層学習で一般的に使用される3つの実践的スケジュール戦略をカバーしている：一定バッチサイズと減衰学習率、増加バッチサイズと減衰学習率、および同時に増加するバッチサイズと学習率。結果は明確な収束の階層構造を明らかにしている：一定バッチサイズは期待勾配ノルムの収束を保証できないが、増加バッチサイズは可能であり、同時に増加するバッチサイズと学習率は証明可能なより高速な減衰を実現できる。実験結果は理論を検証し、動的スケジュール化されたSGDMが固定ハイパーパラメータの対応手法よりも収束速度において著しく優れていることを示している。

研究背景と動機

問題定義

本研究が解決しようとする中核的な問題は、SGDM内の学習率とバッチサイズの動的スケジュール化を理論的分析を通じてガイドし、より良い収束性能を実現する方法である。

重要性

実践的需要：動的学習率スケジュール（コサイン退火など）は深層学習の訓練で広く採用されているが、理論的支持が不足している
効率向上：バッチサイズの増加はミニバッチSGDの効率を向上させることが報告されているが、SGDM枠組み下での理論的分析は限定的である
理論的空白：既存のSGDM理論分析は主に固定学習率に限定されており、動的スケジュールの理論的枠組みが急務である

既存手法の制限

Umeda and Iiduka (2025)：バニラSGDの動的スケジュールのみを分析し、運動量法を含まない
Kamo and Iiduka (2025)：一定学習率と増加バッチサイズ下でのSGDMの収束を研究するが、動的学習率を考慮していない
Liu et al. (2020)：固定学習率下でNSHBを分析するが、動的スケジュールへの拡張は依然として課題である

研究動機

SGDM動的学習率スケジュールの理論的分析の空白を埋め、実践的な訓練に理論的指導を提供する。

核心的貢献

新規リアプノフ関数：動的学習率スケジュールに適応した簡潔なリアプノフ関数を提案し、既存手法よりもシンプルである
統一理論的枠組み：SHBとNSHBをカバーする統一的な分析枠組みを確立し、様々なスケジュール戦略に適用可能である
理論的拡張：Kamo and Iiduka (2025)の分析を一定学習率から減衰学習率に拡張し、学習率とバッチサイズの同時増加の場合を研究する
収束の階層構造：4つのスケジュール戦略の収束性能の順序を理論的に証明し、実験で検証する

方法の詳細

タスク定義

経験的リスク最小化問題を研究する： $\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta)$ 、ここで $f_i(\theta) = f(\theta; (x_i, y_i))$ は損失関数である。目標は $\nabla f(\theta^*) = 0$ を満たす安定点 $\theta^* \in \mathbb{R}^d$ を見つけることである。

理論的枠組み

リアプノフ関数の設計

新しいリアプノフ関数を提案する：

f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$$ ここで$A_t \geq 0$は$t$のみに依存する確定的スカラーである。NSHB手法の場合： $$A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$$ #### アルゴリズム記述 **NSHBアルゴリズム**： ``` m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t) θ_{t+1} = θ_t - η_t m_t ``` **SHBアルゴリズム**： ``` m_t = βm_{t-1} + ∇f_{B_t}(θ_t) θ_{t+1} = θ_t - α_t m_t ``` ### 技術的革新点 #### 1. 簡潔なリアプノフ関数 既存手法（Liu et al. 2020の複雑な形式など）と比較して、本論文のリアプノフ関数は形式が簡潔であり、動的学習率に自然に適応できる。 #### 2. 統一的分析枠組み 技術的条件$\frac{\lambda_{t+1}}{\lambda_t} \leq c$（ここで$1 \leq c < \frac{1}{\beta^2}$）を導入することで、減衰および増加学習率スケジュールを同時に処理する。 #### 3. 交差項消除技術 $A_t$の定義を巧妙に選択することで、分析における交差項$E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$を成功裏に消除する。これは本分析の重要な技術的困難である。 ## 実験設定 ### データセット - **データセット**：CIFAR-100 - **モデル**：ResNet-18 - **訓練エポック数**：300エポック - **運動量係数**：β = 0.9 ### ハードウェア環境 - **CPU**：デュアルIntel Xeon Silver 4316 - **GPU**：NVIDIA Tesla A100 80GB - **ソフトウェア**：Python 3.8.2、CUDA 12.2、PyTorch 2.4.1 ### スケジュール戦略 4つの訓練スケジュールを研究する： 1. **一定バッチサイズ+減衰学習率**：バッチサイズは128に固定 2. **増加バッチサイズ+減衰学習率**：バッチサイズは30エポックごとに倍増（2³から2¹²） 3. **増加バッチサイズ+増加学習率**：バッチサイズと学習率が同時に増加 4. **増加バッチサイズ+ウォームアップ学習率**：先増後減の学習率スケジュール ### 評価指標 - 訓練損失 - テスト精度 - 全勾配ノルム$\|\nabla f(\theta_e)\|$ ## 実験結果 ### 主要な理論的結果 #### 定理1：統一収束界 仮定条件下で、NSHBおよびSHBに対して： $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$$ ここで： - $B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$ - $V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$ - $C_{alg} = (1-\beta)^{-1}$ (NSHB)、$C_{alg} = 1$ (SHB) #### 収束率分析 **一定バッチサイズの場合**： $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$$ **増加バッチサイズの場合**： $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$$ **同時に増加するバッチサイズと学習率**： $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$$ ### 実験検証 #### 収束性能の順序 実験結果は理論的に予測された収束の階層を完全に検証している： 1. **最悪**：一定バッチサイズ+減衰学習率 2. **中程度**：増加バッチサイズ+減衰学習率 3. **良好**：増加バッチサイズ+増加学習率 4. **最適**：増加バッチサイズ+ウォームアップ学習率 #### 具体的な数値結果 - NSHBおよびSHBは勾配ノルム収束において同じ順序を示す - ウォームアップ戦略はテスト精度においても最高の性能を達成する - SHBの場合、高学習率は勾配ノルムの減衰がより速いが、低学習率がより良いテスト精度を得る #### 他の最適化器との比較 増加バッチサイズスケジュール下で、SGD、NSHB、SHBは初期段階で勾配ノルムが急速に低下するが、Adamは後期段階でより小さい勾配ノルムを実現する。 ## 関連研究 ### 運動量法の理論的分析 - **Liu et al. (2020)**：固定学習率下でのNSHBの先駆的研究 - **Gadat et al. (2018)、Mai and Johansson (2020)**：リアプノフ関数に基づく収束分析 - **Wilson et al. (2021)、Defazio (2021)**：加速法の理論的分析 ### 学習率とバッチサイズスケジュール - **Umeda and Iiduka (2025)**：バニラSGDの動的スケジュール分析 - **Kamo and Iiduka (2025)**：増加バッチサイズ下でのSGDMの分析 - **Smith et al. (2018)**：実践におけるバッチサイズスケジュールの有効性 ### 本論文の優位性 既存研究と比較して、本論文はSGDM動的学習率スケジュールの完全な理論的枠組みを初めて提供し、重要な理論的空白を埋める。 ## 結論と考察 ### 主要な結論 1. **理論的貢献**：SGDM動的スケジュールの完全な理論的枠組みを確立する 2. **収束の階層**：増加バッチサイズが一定バッチサイズより優れており、両者の同時増加が最適であることを証明する 3. **実験検証**：理論的予測と実験結果は高度に一致している ### 制限事項 1. **仮定条件**：L-平滑性と有界分散の仮定が必要である 2. **学習率制約**：技術的条件$\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$は学習率の増加速度を制限する 3. **実験範囲**：CIFAR-100およびResNet-18でのみ検証され、大規模実験が不足している ### 今後の方向性 1. **運動量係数スケジュール**：運動量係数$\beta$の動的スケジュールへの拡張 2. **他の最適化器**：Adamなどの適応的手法への分析の拡張 3. **実際の応用**：より大規模な深層学習タスクでの検証 ## 深い評価 ### 利点 1. **理論的厳密性**：リアプノフ関数の設計は巧妙で、数学的導出は厳密である 2. **実用的価値**：実践的な訓練におけるハイパーパラメータスケジュールに理論的指導を提供する 3. **統一的枠組み**：SHBおよびNSHBを同時に分析し、良好な汎用性を持つ 4. **十分な実験**：理論と実験結果は高度に一致し、結論の信頼性を高める ### 不足点 1. **革新性の限定**：主に既存技術の拡張であり、核心的な革新は相対的に限定的である 2. **実験規模**：実験は中程度の規模の問題に限定され、大規模検証が不足している 3. **実践的制約**：理論分析における技術的条件は実践で厳密に満たすことが難しい可能性がある 4. **比較不足**：最新の適応的最適化手法との深い比較が不足している ### 影響力 1. **理論的価値**：SGDM動的スケジュールに重要な理論的基礎を提供する 2. **実用的意義**：実際の深層学習訓練におけるハイパーパラメータ設定をガイドする 3. **再現性**：コードは公開され、実験は再現可能である ### 適用シーン 1. **深層学習訓練**：特に学習率とバッチサイズの精密なスケジュール化が必要なシーンに適している 2. **理論研究**：さらなる最適化理論研究の基礎を提供する 3. **工学実践**：実際の訓練システムのハイパーパラメータ自動調整に指導を提供する ## 参考文献 - Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum - Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent - Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum - Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size --- **総合評価**：これは理論的貢献が堅実な論文であり、簡潔なリアプノフ関数を導入することでSGDMの動的スケジュール問題の分析に成功している。革新性は相対的に限定的であるが、重要な理論的空白を埋め、実際の応用に価値のある指導を提供している。理論的分析は厳密で、実験検証は十分であり、最適化理論分野への有益な貢献である。