Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic
Accélération du SGDM via les Calendriers de Taux d'Apprentissage et de Taille de Lot : Une Analyse Basée sur Lyapunov
Cet article analyse le comportement de convergence de la descente de gradient stochastique avec moment (SGDM) sous des calendriers de taux d'apprentissage et de taille de lot dynamiques en introduisant une nouvelle fonction de Lyapunov plus simple et plus élégante. L'étude étend le cadre théorique existant pour couvrir trois stratégies de calendrier pratiques couramment utilisées en apprentissage profond : taille de lot constante avec taux d'apprentissage décroissant, taille de lot croissante avec taux d'apprentissage décroissant, et augmentation simultanée de la taille de lot et du taux d'apprentissage. Les résultats révèlent une hiérarchie de convergence claire : une taille de lot constante ne garantit pas la convergence de la norme de gradient attendue, tandis qu'une taille de lot croissante le permet, et l'augmentation simultanée des deux permet une décroissance provablement plus rapide. Les résultats expérimentaux valident la théorie, montrant que le SGDM avec calendriers dynamiques converge significativement plus rapidement que les méthodes correspondantes avec hyperparamètres fixes.
Le problème fondamental que cette recherche vise à résoudre est : comment guider théoriquement les calendriers dynamiques du taux d'apprentissage et de la taille de lot dans le SGDM pour obtenir de meilleures performances de convergence.
Besoin Pratique : Les calendriers de taux d'apprentissage dynamiques (comme le recuit cosinus) sont largement adoptés dans l'entraînement d'apprentissage profond, mais manquent de support théorique
Amélioration de l'Efficacité : L'augmentation de la taille de lot s'est avérée améliorer l'efficacité du mini-batch SGD, mais l'analyse théorique dans le cadre du SGDM est limitée
Lacune Théorique : L'analyse théorique existante du SGDM se limite principalement aux taux d'apprentissage fixes ; un cadre théorique pour les calendriers dynamiques est urgent
Umeda et Iiduka (2025) : Analysent uniquement les calendriers dynamiques du SGD vanilla, sans considérer les méthodes avec moment
Kamo et Iiduka (2025) : Étudient la convergence du SGDM avec taux d'apprentissage constant et taille de lot croissante, mais ne considèrent pas les taux d'apprentissage dynamiques
Liu et al. (2020) : Analysent le NSHB avec taux d'apprentissage fixe, mais l'extension aux calendriers dynamiques reste un défi
Combler le vide dans l'analyse théorique des calendriers de taux d'apprentissage dynamiques pour le SGDM et fournir des orientations théoriques pour l'entraînement pratique.
Fonction de Lyapunov Nouvelle : Propose une fonction de Lyapunov simplifiée adaptée aux calendriers de taux d'apprentissage dynamiques, plus élégante que les méthodes existantes
Cadre Théorique Unifié : Établit un cadre d'analyse unifié couvrant le SHB et le NSHB, applicable à diverses stratégies de calendrier
Extension Théorique : Étend l'analyse de Kamo et Iiduka (2025) des taux d'apprentissage constants aux taux décroissants, et étudie le cas d'augmentation simultanée du taux d'apprentissage et de la taille de lot
Hiérarchie de Convergence : Démontre théoriquement le classement des performances de convergence de quatre stratégies de calendrier et le valide expérimentalement
Étudie le problème de minimisation du risque empirique : minθ∈Rdf(θ)=n1∑i=1nfi(θ), où fi(θ)=f(θ;(xi,yi)) est la fonction de perte. L'objectif est de trouver un point stationnaire θ∗∈Rd tel que ∇f(θ∗)=0.
Comparée aux méthodes existantes (comme la forme complexe de Liu et al. 2020), la fonction de Lyapunov de cet article est élégante et s'adapte naturellement aux taux d'apprentissage dynamiques.
En introduisant la condition technique λtλt+1≤c (où 1≤c<β21), traite simultanément les calendriers de taux d'apprentissage décroissants et croissants.
En choisissant judicieusement la définition de At, élimine avec succès le terme croisé E[⟨∇f(θt),mt−1⟩] dans l'analyse, ce qui est le point technique clé de cette analyse.
NSHB et SHB présentent le même classement dans la convergence de la norme de gradient
La stratégie warm-up atteint également les meilleures performances en précision de test
Pour SHB, un taux d'apprentissage élevé, bien que la norme de gradient décroisse plus rapidement, obtient une précision de test inférieure à celle d'un taux d'apprentissage bas
Sous le calendrier de taille de lot croissante, SGD, NSHB et SHB présentent une décroissance rapide de la norme de gradient aux premiers stades, mais Adam réalise une norme de gradient plus petite aux stades ultérieurs.
Comparé aux travaux existants, cet article fournit pour la première fois un cadre théorique complet pour les calendriers de taux d'apprentissage dynamiques du SGDM, comblant une lacune théorique importante.
Contribution Théorique : Établit un cadre théorique complet pour les calendriers dynamiques du SGDM
Hiérarchie de Convergence : Démontre que la taille de lot croissante est supérieure à la taille de lot constante, et l'augmentation simultanée des deux est optimale
Validation Expérimentale : Les prédictions théoriques sont hautement cohérentes avec les résultats expérimentaux
Entraînement d'Apprentissage Profond : Particulièrement applicable aux scénarios nécessitant un calendrier fin du taux d'apprentissage et de la taille de lot
Recherche Théorique : Fournit une base pour la recherche théorique ultérieure en optimisation
Pratique Ingénierie : Guide l'ajustement automatique des hyperparamètres dans les systèmes d'entraînement réels
Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size
Évaluation Globale : Cet article présente une contribution théorique solide qui analyse avec succès le problème des calendriers dynamiques du SGDM en introduisant une fonction de Lyapunov simplifiée. Bien que l'innovation soit relativement limitée, il comble une lacune théorique importante et fournit des orientations précieuses pour les applications pratiques. L'analyse théorique est rigoureuse, la validation expérimentale est suffisante, et c'est une contribution bénéfique au domaine de la théorie de l'optimisation.