2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

Aceleración de SGDM mediante Programas de Tasa de Aprendizaje y Tamaño de Lote: Un Análisis Basado en Lyapunov

Información Básica

  • ID del Artículo: 2508.03105
  • Título: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • Autores: Yuichi Kondo, Hideaki Iiduka (Universidad Meiji)
  • Clasificación: cs.LG (Aprendizaje Automático)
  • Fecha de Publicación: 10 de octubre de 2025 (arXiv v2)
  • Enlace del Artículo: https://arxiv.org/abs/2508.03105v2

Resumen

Este artículo analiza el comportamiento de convergencia del descenso de gradiente estocástico con momento (SGDM) bajo programas dinámicos de tasa de aprendizaje y tamaño de lote, mediante la introducción de una función de Lyapunov novedosa y más simple. La investigación extiende el marco teórico existente, abarcando tres estrategias de programación prácticas comúnmente utilizadas en aprendizaje profundo: tamaño de lote constante con tasa de aprendizaje decreciente, tamaño de lote creciente con tasa de aprendizaje decreciente, e incremento simultáneo de tamaño de lote y tasa de aprendizaje. Los resultados revelan una clara jerarquía de convergencia: el tamaño de lote constante no garantiza la convergencia de la norma de gradiente esperada, mientras que el tamaño de lote creciente sí lo hace, y el incremento simultáneo de ambos parámetros logra un decaimiento demostrablemente más rápido. Los resultados experimentales validan la teoría, demostrando que SGDM con programación dinámica converge significativamente más rápido que sus contrapartes con hiperparámetros fijos.

Antecedentes de Investigación y Motivación

Definición del Problema

El problema central que aborda esta investigación es: ¿Cómo guiar teóricamente la programación dinámica de la tasa de aprendizaje y el tamaño de lote en SGDM para lograr un mejor rendimiento de convergencia?

Importancia

  1. Necesidad Práctica: La programación dinámica de la tasa de aprendizaje (como el recocido de coseno) se adopta ampliamente en el entrenamiento de aprendizaje profundo, pero carece de apoyo teórico
  2. Mejora de Eficiencia: Se ha reportado que aumentar el tamaño de lote mejora la eficiencia del SGD mini-lote, pero el análisis teórico en el marco de SGDM es limitado
  3. Vacío Teórico: El análisis teórico existente de SGDM se limita principalmente a tasas de aprendizaje fijas; se necesita urgentemente un marco teórico para programación dinámica

Limitaciones de Métodos Existentes

  1. Umeda e Iiduka (2025): Analiza únicamente la programación dinámica de SGD vanilla, sin considerar métodos con momento
  2. Kamo e Iiduka (2025): Estudia la convergencia de SGDM con tasa de aprendizaje constante y tamaño de lote creciente, pero no considera tasa de aprendizaje dinámica
  3. Liu et al. (2020): Analiza NSHB bajo tasa de aprendizaje fija, pero la extensión a programación dinámica sigue siendo desafiante

Motivación de la Investigación

Llenar el vacío en el análisis teórico de la programación dinámica de tasa de aprendizaje en SGDM, proporcionando orientación teórica para el entrenamiento práctico.

Contribuciones Principales

  1. Función de Lyapunov Novedosa: Se propone una función de Lyapunov simplificada que se adapta a la programación dinámica de tasa de aprendizaje, más concisa que los métodos existentes
  2. Marco Teórico Unificado: Se establece un marco de análisis unificado que abarca SHB y NSHB, aplicable a diversas estrategias de programación
  3. Extensión Teórica: Se extiende el análisis de Kamo e Iiduka (2025) de tasa de aprendizaje constante a tasa de aprendizaje decreciente, e investiga el caso de incremento simultáneo de tasa de aprendizaje y tamaño de lote
  4. Jerarquía de Convergencia: Se demuestra teóricamente el ordenamiento del rendimiento de convergencia de cuatro estrategias de programación, validado experimentalmente

Explicación Detallada del Método

Definición de la Tarea

Se estudia el problema de minimización de riesgo empírico: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), donde fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) es la función de pérdida. El objetivo es encontrar un punto estacionario θRd\theta^* \in \mathbb{R}^d tal que f(θ)=0\nabla f(\theta^*) = 0.

Marco Teórico

Diseño de la Función de Lyapunov

Se propone una nueva función de Lyapunov:

undefined