2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka

We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.

academic

Aceleración de SGDM mediante Programas de Tasa de Aprendizaje y Tamaño de Lote: Un Análisis Basado en Lyapunov

Información Básica

ID del Artículo: 2508.03105
Título: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Autores: Yuichi Kondo, Hideaki Iiduka (Universidad Meiji)
Clasificación: cs.LG (Aprendizaje Automático)
Fecha de Publicación: 10 de octubre de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2508.03105v2

Resumen

Este artículo analiza el comportamiento de convergencia del descenso de gradiente estocástico con momento (SGDM) bajo programas dinámicos de tasa de aprendizaje y tamaño de lote, mediante la introducción de una función de Lyapunov novedosa y más simple. La investigación extiende el marco teórico existente, abarcando tres estrategias de programación prácticas comúnmente utilizadas en aprendizaje profundo: tamaño de lote constante con tasa de aprendizaje decreciente, tamaño de lote creciente con tasa de aprendizaje decreciente, e incremento simultáneo de tamaño de lote y tasa de aprendizaje. Los resultados revelan una clara jerarquía de convergencia: el tamaño de lote constante no garantiza la convergencia de la norma de gradiente esperada, mientras que el tamaño de lote creciente sí lo hace, y el incremento simultáneo de ambos parámetros logra un decaimiento demostrablemente más rápido. Los resultados experimentales validan la teoría, demostrando que SGDM con programación dinámica converge significativamente más rápido que sus contrapartes con hiperparámetros fijos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿Cómo guiar teóricamente la programación dinámica de la tasa de aprendizaje y el tamaño de lote en SGDM para lograr un mejor rendimiento de convergencia?

Importancia

Necesidad Práctica: La programación dinámica de la tasa de aprendizaje (como el recocido de coseno) se adopta ampliamente en el entrenamiento de aprendizaje profundo, pero carece de apoyo teórico
Mejora de Eficiencia: Se ha reportado que aumentar el tamaño de lote mejora la eficiencia del SGD mini-lote, pero el análisis teórico en el marco de SGDM es limitado
Vacío Teórico: El análisis teórico existente de SGDM se limita principalmente a tasas de aprendizaje fijas; se necesita urgentemente un marco teórico para programación dinámica

Limitaciones de Métodos Existentes

Umeda e Iiduka (2025): Analiza únicamente la programación dinámica de SGD vanilla, sin considerar métodos con momento
Kamo e Iiduka (2025): Estudia la convergencia de SGDM con tasa de aprendizaje constante y tamaño de lote creciente, pero no considera tasa de aprendizaje dinámica
Liu et al. (2020): Analiza NSHB bajo tasa de aprendizaje fija, pero la extensión a programación dinámica sigue siendo desafiante

Motivación de la Investigación

Llenar el vacío en el análisis teórico de la programación dinámica de tasa de aprendizaje en SGDM, proporcionando orientación teórica para el entrenamiento práctico.

Contribuciones Principales

Función de Lyapunov Novedosa: Se propone una función de Lyapunov simplificada que se adapta a la programación dinámica de tasa de aprendizaje, más concisa que los métodos existentes
Marco Teórico Unificado: Se establece un marco de análisis unificado que abarca SHB y NSHB, aplicable a diversas estrategias de programación
Extensión Teórica: Se extiende el análisis de Kamo e Iiduka (2025) de tasa de aprendizaje constante a tasa de aprendizaje decreciente, e investiga el caso de incremento simultáneo de tasa de aprendizaje y tamaño de lote
Jerarquía de Convergencia: Se demuestra teóricamente el ordenamiento del rendimiento de convergencia de cuatro estrategias de programación, validado experimentalmente

Explicación Detallada del Método

Definición de la Tarea

Se estudia el problema de minimización de riesgo empírico: $\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta)$ , donde $f_i(\theta) = f(\theta; (x_i, y_i))$ es la función de pérdida. El objetivo es encontrar un punto estacionario $\theta^* \in \mathbb{R}^d$ tal que $\nabla f(\theta^*) = 0$ .

Marco Teórico

Diseño de la Función de Lyapunov

Se propone una nueva función de Lyapunov: $L_t := \begin{cases} f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$

donde $A_t \geq 0$ es un escalar determinista que depende únicamente de $t$ . Para el método NSHB: $A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$

Descripción del Algoritmo

Algoritmo NSHB:

m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - η_t m_t

Algoritmo SHB:

m_t = βm_{t-1} + ∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - α_t m_t

Puntos de Innovación Técnica

1. Función de Lyapunov Simplificada

En comparación con métodos existentes (como la forma compleja de Liu et al. 2020), la función de Lyapunov de este artículo es más simple en forma y se adapta naturalmente a tasas de aprendizaje dinámicas.

2. Marco de Análisis Unificado

Mediante la introducción de la condición técnica $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (donde $1 \leq c < \frac{1}{\beta^2}$ ), se manejan simultáneamente programaciones de tasa de aprendizaje decreciente e creciente.

3. Técnica de Eliminación de Términos Cruzados

Mediante la selección cuidadosa de la definición de $A_t$ , se elimina exitosamente el término cruzado $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ en el análisis, que es la dificultad técnica clave de este análisis.

Configuración Experimental

Conjunto de Datos

Conjunto de Datos: CIFAR-100
Modelo: ResNet-18
Épocas de Entrenamiento: 300 épocas
Coeficiente de Momento: β = 0.9

Entorno de Hardware

CPU: Dual Intel Xeon Silver 4316
GPU: NVIDIA Tesla A100 80GB
Software: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1

Estrategias de Programación

Se investigan cuatro esquemas de entrenamiento:

Tamaño de Lote Constante + Tasa de Aprendizaje Decreciente: Tamaño de lote fijo de 128
Tamaño de Lote Creciente + Tasa de Aprendizaje Decreciente: Tamaño de lote se duplica cada 30 épocas (2³ a 2¹²)
Tamaño de Lote Creciente + Tasa de Aprendizaje Creciente: Tamaño de lote y tasa de aprendizaje crecen simultáneamente
Tamaño de Lote Creciente + Tasa de Aprendizaje con Calentamiento: Programación de tasa de aprendizaje que primero aumenta y luego disminuye

Métricas de Evaluación

Pérdida de entrenamiento
Precisión de prueba
Norma de gradiente completo $\|\nabla f(\theta_e)\|$

Resultados Experimentales

Resultados Teóricos Principales

Teorema 1: Límite de Convergencia Unificado

Bajo las condiciones de hipótesis, para NSHB y SHB: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$

donde:

$B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$
$V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$
$C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB)

Análisis de Tasa de Convergencia

Caso de Tamaño de Lote Constante: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$

Caso de Tamaño de Lote Creciente: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$

Incremento Simultáneo de Tamaño de Lote y Tasa de Aprendizaje: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$

Validación Experimental

Ordenamiento del Rendimiento de Convergencia

Los resultados experimentales validan completamente la jerarquía de convergencia predicha por la teoría:

Peor: Tamaño de lote constante + tasa de aprendizaje decreciente
Intermedio: Tamaño de lote creciente + tasa de aprendizaje decreciente
Mejor: Tamaño de lote creciente + tasa de aprendizaje creciente
Óptimo: Tamaño de lote creciente + tasa de aprendizaje con calentamiento

Resultados Numéricos Específicos

NSHB y SHB exhiben el mismo ordenamiento en la convergencia de norma de gradiente
La estrategia de calentamiento logra el mejor rendimiento en precisión de prueba
Para SHB, aunque la tasa de aprendizaje alta logra un decaimiento más rápido de la norma de gradiente, la tasa de aprendizaje baja obtiene mejor precisión de prueba

Comparación con Otros Optimizadores

Bajo programación de tamaño de lote creciente, SGD, NSHB y SHB muestran descenso rápido de la norma de gradiente en etapas tempranas, pero Adam logra una norma de gradiente más pequeña en etapas posteriores.

Trabajo Relacionado

Análisis Teórico de Métodos con Momento

Liu et al. (2020): Trabajo pionero de NSHB bajo tasa de aprendizaje fija
Gadat et al. (2018), Mai y Johansson (2020): Análisis de convergencia basado en función de Lyapunov
Wilson et al. (2021), Defazio (2021): Análisis teórico de métodos acelerados

Programación de Tasa de Aprendizaje y Tamaño de Lote

Umeda e Iiduka (2025): Análisis de programación dinámica de SGD vanilla
Kamo e Iiduka (2025): Análisis de SGDM bajo tamaño de lote creciente
Smith et al. (2018): Efectividad de programación de tamaño de lote en la práctica

Ventajas de Este Artículo

En comparación con trabajos existentes, este artículo proporciona por primera vez un marco teórico completo para la programación dinámica de tasa de aprendizaje en SGDM, llenando un vacío teórico importante.

Conclusiones y Discusión

Conclusiones Principales

Contribución Teórica: Se establece un marco teórico completo para la programación dinámica de SGDM
Jerarquía de Convergencia: Se demuestra que el tamaño de lote creciente es superior al constante, y el incremento simultáneo de ambos es óptimo
Validación Experimental: Las predicciones teóricas son altamente consistentes con los resultados experimentales

Limitaciones

Condiciones de Hipótesis: Requiere suavidad L-Lipschitz y suposición de varianza acotada
Restricción de Tasa de Aprendizaje: La condición técnica $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ limita la velocidad de crecimiento de la tasa de aprendizaje
Alcance Experimental: Validación únicamente en CIFAR-100 y ResNet-18, carece de experimentos a gran escala

Direcciones Futuras

Programación de Coeficiente de Momento: Extensión a programación dinámica del coeficiente de momento $\beta$
Otros Optimizadores: Extensión del análisis a métodos adaptativos como Adam
Aplicaciones Prácticas: Validación en tareas de aprendizaje profundo a mayor escala

Evaluación Profunda

Fortalezas

Rigor Teórico: Diseño ingenioso de la función de Lyapunov, derivación matemática rigurosa
Valor Práctico: Proporciona orientación teórica para la programación de hiperparámetros en entrenamiento práctico
Marco Unificado: Análisis simultáneo de SHB y NSHB con buena generalidad
Validación Experimental Suficiente: Alta consistencia entre resultados teóricos y experimentales, aumentando la credibilidad de las conclusiones

Deficiencias

Innovación Limitada: Principalmente extensión de técnicas existentes, innovación central relativamente limitada
Escala Experimental: Experimentos limitados a problemas de escala media, carece de validación a gran escala
Restricciones Prácticas: Las condiciones técnicas en el análisis teórico pueden ser difíciles de satisfacer estrictamente en la práctica
Comparación Insuficiente: Falta comparación profunda con métodos de optimización adaptativa más recientes

Impacto

Valor Teórico: Proporciona base teórica importante para la programación dinámica de SGDM
Significado Práctico: Guía la configuración de hiperparámetros en entrenamiento de aprendizaje profundo práctico
Reproducibilidad: Código público, experimentos reproducibles

Escenarios Aplicables

Entrenamiento de Aprendizaje Profundo: Particularmente aplicable a escenarios que requieren programación fina de tasa de aprendizaje y tamaño de lote
Investigación Teórica: Proporciona base para investigación teórica de optimización adicional
Práctica de Ingeniería: Proporciona orientación para ajuste automático de hiperparámetros en sistemas de entrenamiento prácticos

Referencias

Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size

Evaluación General: Este es un artículo con contribuciones teóricas sólidas que analiza exitosamente el problema de la programación dinámica de SGDM mediante la introducción de una función de Lyapunov simplificada. Aunque la innovación es relativamente limitada, llena un vacío teórico importante y proporciona orientación valiosa para aplicaciones prácticas. El análisis teórico es riguroso y la validación experimental es suficiente, constituyendo una contribución beneficiosa al campo de la teoría de optimización.