2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

Aceleración de SGDM mediante Programas de Tasa de Aprendizaje y Tamaño de Lote: Un Análisis Basado en Lyapunov

Información Básica

  • ID del Artículo: 2508.03105
  • Título: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • Autores: Yuichi Kondo, Hideaki Iiduka (Universidad Meiji)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 10 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2508.03105v2

Resumen

Este artículo analiza el comportamiento de convergencia del descenso de gradiente estocástico con momento (SGDM) bajo programas dinámicos de tasa de aprendizaje y tamaño de lote, mediante la introducción de una función de Lyapunov novedosa y más simple. La investigación extiende el marco teórico existente, abarcando tres estrategias de programación prácticas comúnmente utilizadas en aprendizaje profundo: tamaño de lote constante con tasa de aprendizaje decreciente, tamaño de lote creciente con tasa de aprendizaje decreciente, e incremento simultáneo de tamaño de lote y tasa de aprendizaje. Los resultados revelan una clara jerarquía de convergencia: el tamaño de lote constante no garantiza la convergencia de la norma de gradiente esperada, mientras que el tamaño de lote creciente sí lo hace, y el incremento simultáneo de ambos parámetros logra un decaimiento demostrablemente más rápido. Los resultados experimentales validan la teoría, demostrando que SGDM con programación dinámica converge significativamente más rápido que sus contrapartes con hiperparámetros fijos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿Cómo guiar teóricamente la programación dinámica de la tasa de aprendizaje y el tamaño de lote en SGDM para lograr un mejor rendimiento de convergencia?

Importancia

  1. Necesidad Práctica: La programación dinámica de la tasa de aprendizaje (como el recocido de coseno) se adopta ampliamente en el entrenamiento de aprendizaje profundo, pero carece de apoyo teórico
  2. Mejora de Eficiencia: Se ha reportado que aumentar el tamaño de lote mejora la eficiencia del SGD mini-lote, pero el análisis teórico en el marco de SGDM es limitado
  3. Vacío Teórico: El análisis teórico existente de SGDM se limita principalmente a tasas de aprendizaje fijas; se necesita urgentemente un marco teórico para programación dinámica

Limitaciones de Métodos Existentes

  1. Umeda e Iiduka (2025): Analiza únicamente la programación dinámica de SGD vanilla, sin considerar métodos con momento
  2. Kamo e Iiduka (2025): Estudia la convergencia de SGDM con tasa de aprendizaje constante y tamaño de lote creciente, pero no considera tasa de aprendizaje dinámica
  3. Liu et al. (2020): Analiza NSHB bajo tasa de aprendizaje fija, pero la extensión a programación dinámica sigue siendo desafiante

Motivación de la Investigación

Llenar el vacío en el análisis teórico de la programación dinámica de tasa de aprendizaje en SGDM, proporcionando orientación teórica para el entrenamiento práctico.

Contribuciones Principales

  1. Función de Lyapunov Novedosa: Se propone una función de Lyapunov simplificada que se adapta a la programación dinámica de tasa de aprendizaje, más concisa que los métodos existentes
  2. Marco Teórico Unificado: Se establece un marco de análisis unificado que abarca SHB y NSHB, aplicable a diversas estrategias de programación
  3. Extensión Teórica: Se extiende el análisis de Kamo e Iiduka (2025) de tasa de aprendizaje constante a tasa de aprendizaje decreciente, e investiga el caso de incremento simultáneo de tasa de aprendizaje y tamaño de lote
  4. Jerarquía de Convergencia: Se demuestra teóricamente el ordenamiento del rendimiento de convergencia de cuatro estrategias de programación, validado experimentalmente

Explicación Detallada del Método

Definición de la Tarea

Se estudia el problema de minimización de riesgo empírico: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), donde fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) es la función de pérdida. El objetivo es encontrar un punto estacionario θRd\theta^* \in \mathbb{R}^d tal que f(θ)=0\nabla f(\theta^*) = 0.

Marco Teórico

Diseño de la Función de Lyapunov

Se propone una nueva función de Lyapunov: Lt:={f(θt),t=0f(θt)+At1mt12,t>0L_t := \begin{cases} f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}

donde At0A_t \geq 0 es un escalar determinista que depende únicamente de tt. Para el método NSHB: At:=ηtL(1β)ηt22(1β)A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}

Descripción del Algoritmo

Algoritmo NSHB:

m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - η_t m_t

Algoritmo SHB:

m_t = βm_{t-1} + ∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - α_t m_t

Puntos de Innovación Técnica

1. Función de Lyapunov Simplificada

En comparación con métodos existentes (como la forma compleja de Liu et al. 2020), la función de Lyapunov de este artículo es más simple en forma y se adapta naturalmente a tasas de aprendizaje dinámicas.

2. Marco de Análisis Unificado

Mediante la introducción de la condición técnica λt+1λtc\frac{\lambda_{t+1}}{\lambda_t} \leq c (donde 1c<1β21 \leq c < \frac{1}{\beta^2}), se manejan simultáneamente programaciones de tasa de aprendizaje decreciente e creciente.

3. Técnica de Eliminación de Términos Cruzados

Mediante la selección cuidadosa de la definición de AtA_t, se elimina exitosamente el término cruzado E[f(θt),mt1]E[\langle\nabla f(\theta_t), m_{t-1}\rangle] en el análisis, que es la dificultad técnica clave de este análisis.

Configuración Experimental

Conjunto de Datos

  • Conjunto de Datos: CIFAR-100
  • Modelo: ResNet-18
  • Épocas de Entrenamiento: 300 épocas
  • Coeficiente de Momento: β = 0.9

Entorno de Hardware

  • CPU: Dual Intel Xeon Silver 4316
  • GPU: NVIDIA Tesla A100 80GB
  • Software: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1

Estrategias de Programación

Se investigan cuatro esquemas de entrenamiento:

  1. Tamaño de Lote Constante + Tasa de Aprendizaje Decreciente: Tamaño de lote fijo de 128
  2. Tamaño de Lote Creciente + Tasa de Aprendizaje Decreciente: Tamaño de lote se duplica cada 30 épocas (2³ a 2¹²)
  3. Tamaño de Lote Creciente + Tasa de Aprendizaje Creciente: Tamaño de lote y tasa de aprendizaje crecen simultáneamente
  4. Tamaño de Lote Creciente + Tasa de Aprendizaje con Calentamiento: Programación de tasa de aprendizaje que primero aumenta y luego disminuye

Métricas de Evaluación

  • Pérdida de entrenamiento
  • Precisión de prueba
  • Norma de gradiente completo f(θe)\|\nabla f(\theta_e)\|

Resultados Experimentales

Resultados Teóricos Principales

Teorema 1: Límite de Convergencia Unificado

Bajo las condiciones de hipótesis, para NSHB y SHB: min0tT1E[f(θt)2]2Calg(f(θ0)f)BT+σ2VT\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T

donde:

  • BT=1t=0T1λtB_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}
  • VT=1t=0T1λtt=0T1λtbtV_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}
  • Calg=(1β)1C_{alg} = (1-\beta)^{-1} (NSHB), Calg=1C_{alg} = 1 (SHB)

Análisis de Tasa de Convergencia

Caso de Tamaño de Lote Constante: min0tT1E[f(θt)]=O(1T+1b)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)

Caso de Tamaño de Lote Creciente: min0tT1E[f(θt)]=O(1T)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)

Incremento Simultáneo de Tamaño de Lote y Tasa de Aprendizaje: min0tT1E[f(θt)]=O(1γM/2)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)

Validación Experimental

Ordenamiento del Rendimiento de Convergencia

Los resultados experimentales validan completamente la jerarquía de convergencia predicha por la teoría:

  1. Peor: Tamaño de lote constante + tasa de aprendizaje decreciente
  2. Intermedio: Tamaño de lote creciente + tasa de aprendizaje decreciente
  3. Mejor: Tamaño de lote creciente + tasa de aprendizaje creciente
  4. Óptimo: Tamaño de lote creciente + tasa de aprendizaje con calentamiento

Resultados Numéricos Específicos

  • NSHB y SHB exhiben el mismo ordenamiento en la convergencia de norma de gradiente
  • La estrategia de calentamiento logra el mejor rendimiento en precisión de prueba
  • Para SHB, aunque la tasa de aprendizaje alta logra un decaimiento más rápido de la norma de gradiente, la tasa de aprendizaje baja obtiene mejor precisión de prueba

Comparación con Otros Optimizadores

Bajo programación de tamaño de lote creciente, SGD, NSHB y SHB muestran descenso rápido de la norma de gradiente en etapas tempranas, pero Adam logra una norma de gradiente más pequeña en etapas posteriores.

Trabajo Relacionado

Análisis Teórico de Métodos con Momento

  • Liu et al. (2020): Trabajo pionero de NSHB bajo tasa de aprendizaje fija
  • Gadat et al. (2018), Mai y Johansson (2020): Análisis de convergencia basado en función de Lyapunov
  • Wilson et al. (2021), Defazio (2021): Análisis teórico de métodos acelerados

Programación de Tasa de Aprendizaje y Tamaño de Lote

  • Umeda e Iiduka (2025): Análisis de programación dinámica de SGD vanilla
  • Kamo e Iiduka (2025): Análisis de SGDM bajo tamaño de lote creciente
  • Smith et al. (2018): Efectividad de programación de tamaño de lote en la práctica

Ventajas de Este Artículo

En comparación con trabajos existentes, este artículo proporciona por primera vez un marco teórico completo para la programación dinámica de tasa de aprendizaje en SGDM, llenando un vacío teórico importante.

Conclusiones y Discusión

Conclusiones Principales

  1. Contribución Teórica: Se establece un marco teórico completo para la programación dinámica de SGDM
  2. Jerarquía de Convergencia: Se demuestra que el tamaño de lote creciente es superior al constante, y el incremento simultáneo de ambos es óptimo
  3. Validación Experimental: Las predicciones teóricas son altamente consistentes con los resultados experimentales

Limitaciones

  1. Condiciones de Hipótesis: Requiere suavidad L-Lipschitz y suposición de varianza acotada
  2. Restricción de Tasa de Aprendizaje: La condición técnica λt+1λtc<1β2\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2} limita la velocidad de crecimiento de la tasa de aprendizaje
  3. Alcance Experimental: Validación únicamente en CIFAR-100 y ResNet-18, carece de experimentos a gran escala

Direcciones Futuras

  1. Programación de Coeficiente de Momento: Extensión a programación dinámica del coeficiente de momento β\beta
  2. Otros Optimizadores: Extensión del análisis a métodos adaptativos como Adam
  3. Aplicaciones Prácticas: Validación en tareas de aprendizaje profundo a mayor escala

Evaluación Profunda

Fortalezas

  1. Rigor Teórico: Diseño ingenioso de la función de Lyapunov, derivación matemática rigurosa
  2. Valor Práctico: Proporciona orientación teórica para la programación de hiperparámetros en entrenamiento práctico
  3. Marco Unificado: Análisis simultáneo de SHB y NSHB con buena generalidad
  4. Validación Experimental Suficiente: Alta consistencia entre resultados teóricos y experimentales, aumentando la credibilidad de las conclusiones

Deficiencias

  1. Innovación Limitada: Principalmente extensión de técnicas existentes, innovación central relativamente limitada
  2. Escala Experimental: Experimentos limitados a problemas de escala media, carece de validación a gran escala
  3. Restricciones Prácticas: Las condiciones técnicas en el análisis teórico pueden ser difíciles de satisfacer estrictamente en la práctica
  4. Comparación Insuficiente: Falta comparación profunda con métodos de optimización adaptativa más recientes

Impacto

  1. Valor Teórico: Proporciona base teórica importante para la programación dinámica de SGDM
  2. Significado Práctico: Guía la configuración de hiperparámetros en entrenamiento de aprendizaje profundo práctico
  3. Reproducibilidad: Código público, experimentos reproducibles

Escenarios Aplicables

  1. Entrenamiento de Aprendizaje Profundo: Particularmente aplicable a escenarios que requieren programación fina de tasa de aprendizaje y tamaño de lote
  2. Investigación Teórica: Proporciona base para investigación teórica de optimización adicional
  3. Práctica de Ingeniería: Proporciona orientación para ajuste automático de hiperparámetros en sistemas de entrenamiento prácticos

Referencias

  • Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
  • Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
  • Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
  • Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size

Evaluación General: Este es un artículo con contribuciones teóricas sólidas que analiza exitosamente el problema de la programación dinámica de SGDM mediante la introducción de una función de Lyapunov simplificada. Aunque la innovación es relativamente limitada, llena un vacío teórico importante y proporciona orientación valiosa para aplicaciones prácticas. El análisis teórico es riguroso y la validación experimental es suficiente, constituyendo una contribución beneficiosa al campo de la teoría de optimización.