Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic
Aceleración de SGDM mediante Programas de Tasa de Aprendizaje y Tamaño de Lote: Un Análisis Basado en Lyapunov
Este artículo analiza el comportamiento de convergencia del descenso de gradiente estocástico con momento (SGDM) bajo programas dinámicos de tasa de aprendizaje y tamaño de lote, mediante la introducción de una función de Lyapunov novedosa y más simple. La investigación extiende el marco teórico existente, abarcando tres estrategias de programación prácticas comúnmente utilizadas en aprendizaje profundo: tamaño de lote constante con tasa de aprendizaje decreciente, tamaño de lote creciente con tasa de aprendizaje decreciente, e incremento simultáneo de tamaño de lote y tasa de aprendizaje. Los resultados revelan una clara jerarquía de convergencia: el tamaño de lote constante no garantiza la convergencia de la norma de gradiente esperada, mientras que el tamaño de lote creciente sí lo hace, y el incremento simultáneo de ambos parámetros logra un decaimiento demostrablemente más rápido. Los resultados experimentales validan la teoría, demostrando que SGDM con programación dinámica converge significativamente más rápido que sus contrapartes con hiperparámetros fijos.
El problema central que aborda esta investigación es: ¿Cómo guiar teóricamente la programación dinámica de la tasa de aprendizaje y el tamaño de lote en SGDM para lograr un mejor rendimiento de convergencia?
Necesidad Práctica: La programación dinámica de la tasa de aprendizaje (como el recocido de coseno) se adopta ampliamente en el entrenamiento de aprendizaje profundo, pero carece de apoyo teórico
Mejora de Eficiencia: Se ha reportado que aumentar el tamaño de lote mejora la eficiencia del SGD mini-lote, pero el análisis teórico en el marco de SGDM es limitado
Vacío Teórico: El análisis teórico existente de SGDM se limita principalmente a tasas de aprendizaje fijas; se necesita urgentemente un marco teórico para programación dinámica
Umeda e Iiduka (2025): Analiza únicamente la programación dinámica de SGD vanilla, sin considerar métodos con momento
Kamo e Iiduka (2025): Estudia la convergencia de SGDM con tasa de aprendizaje constante y tamaño de lote creciente, pero no considera tasa de aprendizaje dinámica
Liu et al. (2020): Analiza NSHB bajo tasa de aprendizaje fija, pero la extensión a programación dinámica sigue siendo desafiante
Llenar el vacío en el análisis teórico de la programación dinámica de tasa de aprendizaje en SGDM, proporcionando orientación teórica para el entrenamiento práctico.
Función de Lyapunov Novedosa: Se propone una función de Lyapunov simplificada que se adapta a la programación dinámica de tasa de aprendizaje, más concisa que los métodos existentes
Marco Teórico Unificado: Se establece un marco de análisis unificado que abarca SHB y NSHB, aplicable a diversas estrategias de programación
Extensión Teórica: Se extiende el análisis de Kamo e Iiduka (2025) de tasa de aprendizaje constante a tasa de aprendizaje decreciente, e investiga el caso de incremento simultáneo de tasa de aprendizaje y tamaño de lote
Jerarquía de Convergencia: Se demuestra teóricamente el ordenamiento del rendimiento de convergencia de cuatro estrategias de programación, validado experimentalmente
Se estudia el problema de minimización de riesgo empírico: minθ∈Rdf(θ)=n1∑i=1nfi(θ), donde fi(θ)=f(θ;(xi,yi)) es la función de pérdida. El objetivo es encontrar un punto estacionario θ∗∈Rd tal que ∇f(θ∗)=0.
En comparación con métodos existentes (como la forma compleja de Liu et al. 2020), la función de Lyapunov de este artículo es más simple en forma y se adapta naturalmente a tasas de aprendizaje dinámicas.
Mediante la introducción de la condición técnica λtλt+1≤c (donde 1≤c<β21), se manejan simultáneamente programaciones de tasa de aprendizaje decreciente e creciente.
Mediante la selección cuidadosa de la definición de At, se elimina exitosamente el término cruzado E[⟨∇f(θt),mt−1⟩] en el análisis, que es la dificultad técnica clave de este análisis.
NSHB y SHB exhiben el mismo ordenamiento en la convergencia de norma de gradiente
La estrategia de calentamiento logra el mejor rendimiento en precisión de prueba
Para SHB, aunque la tasa de aprendizaje alta logra un decaimiento más rápido de la norma de gradiente, la tasa de aprendizaje baja obtiene mejor precisión de prueba
Bajo programación de tamaño de lote creciente, SGD, NSHB y SHB muestran descenso rápido de la norma de gradiente en etapas tempranas, pero Adam logra una norma de gradiente más pequeña en etapas posteriores.
En comparación con trabajos existentes, este artículo proporciona por primera vez un marco teórico completo para la programación dinámica de tasa de aprendizaje en SGDM, llenando un vacío teórico importante.
Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size
Evaluación General: Este es un artículo con contribuciones teóricas sólidas que analiza exitosamente el problema de la programación dinámica de SGDM mediante la introducción de una función de Lyapunov simplificada. Aunque la innovación es relativamente limitada, llena un vacío teórico importante y proporciona orientación valiosa para aplicaciones prácticas. El análisis teórico es riguroso y la validación experimental es suficiente, constituyendo una contribución beneficiosa al campo de la teoría de optimización.