2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

학습률 및 배치 크기 스케줄을 통한 SGDM 가속화: Lyapunov 기반 분석

기본 정보

  • 논문 ID: 2508.03105
  • 제목: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • 저자: Yuichi Kondo, Hideaki Iiduka (Meiji University)
  • 분류: cs.LG (머신러닝)
  • 발표 시간: 2025년 10월 10일 (arXiv v2)
  • 논문 링크: https://arxiv.org/abs/2508.03105v2

초록

본 논문은 새로운 간단한 Lyapunov 함수를 도입하여 동적 학습률 및 배치 크기 스케줄 하에서 모멘텀이 있는 확률적 경사 하강법(SGDM)의 수렴 거동을 분석합니다. 연구는 기존 이론 프레임워크를 확장하여 심층 학습에서 일반적으로 사용되는 세 가지 실제 스케줄 전략을 포함합니다: 일정한 배치 크기와 감소하는 학습률, 증가하는 배치 크기와 감소하는 학습률, 그리고 배치 크기와 학습률을 동시에 증가시키는 경우입니다. 결과는 명확한 수렴 계층 구조를 드러냅니다: 일정한 배치 크기는 예상 경사도 범위의 수렴을 보장할 수 없지만, 증가하는 배치 크기는 가능하며, 배치 크기와 학습률을 동시에 증가시키면 증명 가능한 더 빠른 감소를 달성할 수 있습니다. 실험 결과는 이론을 검증하며, 동적 스케줄이 적용된 SGDM이 고정 하이퍼파라미터를 사용하는 대응 방법보다 수렴 속도에서 현저히 우수함을 보여줍니다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 다음과 같습니다: SGDM에서 학습률과 배치 크기의 동적 스케줄을 통해 이론 분석으로 더 나은 수렴 성능을 달성하는 방법은 무엇인가?

중요성

  1. 실제 필요성: 동적 학습률 스케줄(예: 코사인 어닐링)이 심층 학습 훈련에서 광범위하게 채택되고 있으나 이론적 지원이 부족합니다
  2. 효율성 향상: 배치 크기 증가가 미니배치 SGD의 효율성을 향상시킬 수 있다고 보고되었으나, SGDM 프레임워크 하에서의 이론 분석은 제한적입니다
  3. 이론적 공백: 기존 SGDM 이론 분석은 주로 고정 학습률에 국한되어 있으며, 동적 스케줄의 이론적 프레임워크가 시급히 필요합니다

기존 방법의 한계

  1. Umeda and Iiduka (2025): 바닐라 SGD의 동적 스케줄만 분석하며 모멘텀 방법을 다루지 않습니다
  2. Kamo and Iiduka (2025): 일정한 학습률과 증가하는 배치 크기 하에서 SGDM의 수렴을 연구하지만 동적 학습률을 고려하지 않습니다
  3. Liu et al. (2020): 고정 학습률 하에서 NSHB를 분석하지만 동적 스케줄로의 확장은 여전히 도전적입니다

연구 동기

SGDM 동적 학습률 스케줄의 이론 분석 공백을 메우고 실제 훈련에 이론적 지침을 제공합니다.

핵심 기여

  1. 새로운 Lyapunov 함수: 동적 학습률 스케줄에 적응하는 간단한 Lyapunov 함수를 제안하며, 기존 방법보다 더욱 간결합니다
  2. 통합 이론 프레임워크: SHB와 NSHB를 포함하는 통합 분석 프레임워크를 수립하며, 다양한 스케줄 전략에 적용 가능합니다
  3. 이론적 확장: Kamo and Iiduka (2025)의 분석을 일정한 학습률에서 감소하는 학습률로 확장하고, 학습률과 배치 크기를 동시에 증가시키는 경우를 연구합니다
  4. 수렴 계층 구조: 네 가지 스케줄 전략의 수렴 성능 순서를 이론적으로 증명하고 실험으로 검증합니다

방법 상세 설명

작업 정의

경험적 위험 최소화 문제를 연구합니다: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), 여기서 fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i))는 손실 함수입니다. 목표는 f(θ)=0\nabla f(\theta^*) = 0을 만족하는 정상점 θRd\theta^* \in \mathbb{R}^d를 찾는 것입니다.

이론적 프레임워크

Lyapunov 함수 설계

새로운 Lyapunov 함수를 제안합니다:

f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$$ 여기서 $A_t \geq 0$은 $t$에만 의존하는 결정론적 스칼라입니다. NSHB 방법의 경우: $$A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$$ #### 알고리즘 설명 **NSHB 알고리즘**: ``` m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t) θ_{t+1} = θ_t - η_t m_t ``` **SHB 알고리즘**: ``` m_t = βm_{t-1} + ∇f_{B_t}(θ_t) θ_{t+1} = θ_t - α_t m_t ``` ### 기술적 혁신점 #### 1. 간단한 Lyapunov 함수 기존 방법(예: Liu et al. 2020의 복잡한 형태)과 비교하여, 본 논문의 Lyapunov 함수는 형태가 간결하며 동적 학습률에 자연스럽게 적응합니다. #### 2. 통합 분석 프레임워크 기술적 조건 $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (여기서 $1 \leq c < \frac{1}{\beta^2}$)를 도입하여 감소 및 증가하는 학습률 스케줄을 동시에 처리합니다. #### 3. 교차항 제거 기법 $A_t$의 정의를 영리하게 선택하여 분석에서 교차항 $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$을 성공적으로 제거합니다. 이는 본 분석의 핵심 기술적 어려움입니다. ## 실험 설정 ### 데이터셋 - **데이터셋**: CIFAR-100 - **모델**: ResNet-18 - **훈련 에포크**: 300 에포크 - **모멘텀 계수**: β = 0.9 ### 하드웨어 환경 - **CPU**: 듀얼 Intel Xeon Silver 4316 - **GPU**: NVIDIA Tesla A100 80GB - **소프트웨어**: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1 ### 스케줄 전략 네 가지 훈련 스케줄을 연구합니다: 1. **일정한 배치 크기 + 감소하는 학습률**: 배치 크기 128로 고정 2. **증가하는 배치 크기 + 감소하는 학습률**: 배치 크기가 30 에포크마다 두 배 증가(2³에서 2¹²) 3. **증가하는 배치 크기 + 증가하는 학습률**: 배치 크기와 학습률이 동시에 증가 4. **증가하는 배치 크기 + 워밍업 학습률**: 먼저 증가 후 감소하는 학습률 스케줄 ### 평가 지표 - 훈련 손실 - 테스트 정확도 - 전체 경사도 범위 $\|\nabla f(\theta_e)\|$ ## 실험 결과 ### 주요 이론적 결과 #### 정리 1: 통합 수렴 경계 가정 조건 하에서, NSHB와 SHB에 대해: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$$ 여기서: - $B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$ - $V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$ - $C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB) #### 수렴률 분석 **일정한 배치 크기의 경우**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$$ **증가하는 배치 크기의 경우**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$$ **배치 크기와 학습률을 동시에 증가시키는 경우**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$$ ### 실험 검증 #### 수렴 성능 순서 실험 결과는 이론이 예측한 수렴 계층 구조를 완전히 검증합니다: 1. **최악**: 일정한 배치 크기 + 감소하는 학습률 2. **중간**: 증가하는 배치 크기 + 감소하는 학습률 3. **양호**: 증가하는 배치 크기 + 증가하는 학습률 4. **최적**: 증가하는 배치 크기 + 워밍업 학습률 #### 구체적 수치 결과 - NSHB와 SHB는 경사도 범위 수렴에서 동일한 순서를 나타냅니다 - 워밍업 전략은 테스트 정확도에서도 최고의 성능을 달성합니다 - SHB의 경우, 높은 학습률은 경사도 범위 감소가 더 빠르지만 낮은 학습률이 더 나은 테스트 정확도를 얻습니다 #### 다른 최적화 알고리즘과의 비교 증가하는 배치 크기 스케줄 하에서 SGD, NSHB 및 SHB는 초기 단계에서 경사도 범위가 빠르게 감소하지만, Adam은 후기 단계에서 더 작은 경사도 범위를 달성합니다. ## 관련 연구 ### 모멘텀 방법 이론 분석 - **Liu et al. (2020)**: 고정 학습률 하에서 NSHB의 개척적 연구 - **Gadat et al. (2018), Mai and Johansson (2020)**: Lyapunov 함수 기반 수렴 분석 - **Wilson et al. (2021), Defazio (2021)**: 가속 방법의 이론 분석 ### 학습률 및 배치 크기 스케줄 - **Umeda and Iiduka (2025)**: 바닐라 SGD의 동적 스케줄 분석 - **Kamo and Iiduka (2025)**: 증가하는 배치 크기 하에서 SGDM의 분석 - **Smith et al. (2018)**: 실제 배치 크기 스케줄의 효과성 ### 본 논문의 장점 기존 연구와 비교하여, 본 논문은 SGDM 동적 학습률 스케줄의 완전한 이론 프레임워크를 처음으로 제공하며, 중요한 이론적 공백을 메웁니다. ## 결론 및 논의 ### 주요 결론 1. **이론적 기여**: SGDM 동적 스케줄의 완전한 이론 프레임워크 수립 2. **수렴 계층 구조**: 증가하는 배치 크기가 일정한 배치 크기보다 우수하며, 두 가지를 동시에 증가시키는 것이 최고의 효과를 제공함을 증명 3. **실험 검증**: 이론 예측과 실험 결과가 높은 일치도를 보입니다 ### 한계 1. **가정 조건**: L-평활성 및 유계 분산 가정이 필요합니다 2. **학습률 제약**: 기술적 조건 $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$는 학습률 증가 속도를 제한합니다 3. **실험 범위**: CIFAR-100 및 ResNet-18에서만 검증되었으며, 대규모 실험이 부족합니다 ### 향후 방향 1. **모멘텀 계수 스케줄**: 모멘텀 계수 $\beta$의 동적 스케줄로 확장 2. **다른 최적화 알고리즘**: Adam 등 자적응 방법으로 분석 확장 3. **실제 응용**: 더 큰 규모의 심층 학습 작업에서 검증 ## 심층 평가 ### 장점 1. **이론적 엄밀성**: Lyapunov 함수 설계가 영리하고 수학적 유도가 엄밀합니다 2. **실용적 가치**: 실제 훈련에서 하이퍼파라미터 스케줄에 대한 이론적 지침을 제공합니다 3. **통합 프레임워크**: SHB와 NSHB를 동시에 분석하며 우수한 일반성을 갖습니다 4. **충분한 실험**: 이론과 실험 결과가 높은 일치도를 보이며 결론의 신뢰성을 증강합니다 ### 부족한 점 1. **제한된 혁신성**: 주로 기존 기술의 확장이며 핵심 혁신이 상대적으로 제한적입니다 2. **실험 규모**: 실험이 중간 규모 문제에만 국한되어 있으며 대규모 검증이 부족합니다 3. **실제 제약**: 이론 분석의 기술적 조건이 실제로 엄격히 만족되기 어려울 수 있습니다 4. **비교 부족**: 최신 자적응 최적화 방법과의 심층 비교가 부족합니다 ### 영향력 1. **이론적 가치**: SGDM 동적 스케줄에 대한 중요한 이론적 기초 제공 2. **실용적 의미**: 실제 심층 학습 훈련에서 하이퍼파라미터 설정 지침 3. **재현성**: 코드 공개로 실험 재현 가능 ### 적용 시나리오 1. **심층 학습 훈련**: 특히 학습률과 배치 크기의 정교한 스케줄이 필요한 경우에 적합 2. **이론 연구**: 추가 최적화 이론 연구의 기초 제공 3. **공학 실제**: 실제 훈련 시스템의 하이퍼파라미터 자동 조정에 지침 제공 ## 참고문헌 - Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum - Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent - Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum - Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size --- **종합 평가**: 이는 이론적 기여가 탄탄한 논문으로, 간단한 Lyapunov 함수를 도입하여 SGDM의 동적 스케줄 문제를 성공적으로 분석했습니다. 혁신성이 상대적으로 제한적이지만, 중요한 이론적 공백을 메우고 실제 응용에 가치 있는 지침을 제공합니다. 이론 분석이 엄밀하고 실험 검증이 충분하며, 최적화 이론 분야의 유익한 기여입니다.