2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

Accélération du SGDM via les Calendriers de Taux d'Apprentissage et de Taille de Lot : Une Analyse Basée sur Lyapunov

Informations Fondamentales

  • ID de l'article : 2508.03105
  • Titre : Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • Auteurs : Yuichi Kondo, Hideaki Iiduka (Université Meiji)
  • Classification : cs.LG (Apprentissage Automatique)
  • Date de Publication : 10 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2508.03105v2

Résumé

Cet article analyse le comportement de convergence de la descente de gradient stochastique avec moment (SGDM) sous des calendriers de taux d'apprentissage et de taille de lot dynamiques en introduisant une nouvelle fonction de Lyapunov plus simple et plus élégante. L'étude étend le cadre théorique existant pour couvrir trois stratégies de calendrier pratiques couramment utilisées en apprentissage profond : taille de lot constante avec taux d'apprentissage décroissant, taille de lot croissante avec taux d'apprentissage décroissant, et augmentation simultanée de la taille de lot et du taux d'apprentissage. Les résultats révèlent une hiérarchie de convergence claire : une taille de lot constante ne garantit pas la convergence de la norme de gradient attendue, tandis qu'une taille de lot croissante le permet, et l'augmentation simultanée des deux permet une décroissance provablement plus rapide. Les résultats expérimentaux valident la théorie, montrant que le SGDM avec calendriers dynamiques converge significativement plus rapidement que les méthodes correspondantes avec hyperparamètres fixes.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : comment guider théoriquement les calendriers dynamiques du taux d'apprentissage et de la taille de lot dans le SGDM pour obtenir de meilleures performances de convergence.

Importance

  1. Besoin Pratique : Les calendriers de taux d'apprentissage dynamiques (comme le recuit cosinus) sont largement adoptés dans l'entraînement d'apprentissage profond, mais manquent de support théorique
  2. Amélioration de l'Efficacité : L'augmentation de la taille de lot s'est avérée améliorer l'efficacité du mini-batch SGD, mais l'analyse théorique dans le cadre du SGDM est limitée
  3. Lacune Théorique : L'analyse théorique existante du SGDM se limite principalement aux taux d'apprentissage fixes ; un cadre théorique pour les calendriers dynamiques est urgent

Limitations des Méthodes Existantes

  1. Umeda et Iiduka (2025) : Analysent uniquement les calendriers dynamiques du SGD vanilla, sans considérer les méthodes avec moment
  2. Kamo et Iiduka (2025) : Étudient la convergence du SGDM avec taux d'apprentissage constant et taille de lot croissante, mais ne considèrent pas les taux d'apprentissage dynamiques
  3. Liu et al. (2020) : Analysent le NSHB avec taux d'apprentissage fixe, mais l'extension aux calendriers dynamiques reste un défi

Motivation de la Recherche

Combler le vide dans l'analyse théorique des calendriers de taux d'apprentissage dynamiques pour le SGDM et fournir des orientations théoriques pour l'entraînement pratique.

Contributions Principales

  1. Fonction de Lyapunov Nouvelle : Propose une fonction de Lyapunov simplifiée adaptée aux calendriers de taux d'apprentissage dynamiques, plus élégante que les méthodes existantes
  2. Cadre Théorique Unifié : Établit un cadre d'analyse unifié couvrant le SHB et le NSHB, applicable à diverses stratégies de calendrier
  3. Extension Théorique : Étend l'analyse de Kamo et Iiduka (2025) des taux d'apprentissage constants aux taux décroissants, et étudie le cas d'augmentation simultanée du taux d'apprentissage et de la taille de lot
  4. Hiérarchie de Convergence : Démontre théoriquement le classement des performances de convergence de quatre stratégies de calendrier et le valide expérimentalement

Explication Détaillée de la Méthode

Définition de la Tâche

Étudie le problème de minimisation du risque empirique : minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), où fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) est la fonction de perte. L'objectif est de trouver un point stationnaire θRd\theta^* \in \mathbb{R}^d tel que f(θ)=0\nabla f(\theta^*) = 0.

Cadre Théorique

Conception de la Fonction de Lyapunov

Propose une nouvelle fonction de Lyapunov : Lt:={f(θt),t=0f(θt)+At1mt12,t>0L_t := \begin{cases} f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}

At0A_t \geq 0 est un scalaire déterministe dépendant uniquement de tt. Pour la méthode NSHB : At:=ηtL(1β)ηt22(1β)A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}

Description de l'Algorithme

Algorithme NSHB :

m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - η_t m_t

Algorithme SHB :

m_t = βm_{t-1} + ∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - α_t m_t

Points d'Innovation Technique

1. Fonction de Lyapunov Simplifiée

Comparée aux méthodes existantes (comme la forme complexe de Liu et al. 2020), la fonction de Lyapunov de cet article est élégante et s'adapte naturellement aux taux d'apprentissage dynamiques.

2. Cadre d'Analyse Unifié

En introduisant la condition technique λt+1λtc\frac{\lambda_{t+1}}{\lambda_t} \leq c (où 1c<1β21 \leq c < \frac{1}{\beta^2}), traite simultanément les calendriers de taux d'apprentissage décroissants et croissants.

3. Technique d'Élimination des Termes Croisés

En choisissant judicieusement la définition de AtA_t, élimine avec succès le terme croisé E[f(θt),mt1]E[\langle\nabla f(\theta_t), m_{t-1}\rangle] dans l'analyse, ce qui est le point technique clé de cette analyse.

Configuration Expérimentale

Ensembles de Données

  • Ensemble de Données : CIFAR-100
  • Modèle : ResNet-18
  • Nombre d'Epochs : 300
  • Coefficient de Moment : β = 0,9

Environnement Matériel

  • CPU : Dual Intel Xeon Silver 4316
  • GPU : NVIDIA Tesla A100 80GB
  • Logiciels : Python 3.8.2, CUDA 12.2, PyTorch 2.4.1

Stratégies de Calendrier

Étudie quatre calendriers d'entraînement :

  1. Taille de Lot Constante + Taux d'Apprentissage Décroissant : Taille de lot fixée à 128
  2. Taille de Lot Croissante + Taux d'Apprentissage Décroissant : Taille de lot doublée tous les 30 epochs (2³ à 2¹²)
  3. Taille de Lot Croissante + Taux d'Apprentissage Croissant : Taille de lot et taux d'apprentissage augmentent simultanément
  4. Taille de Lot Croissante + Taux d'Apprentissage avec Warm-up : Calendrier de taux d'apprentissage d'abord croissant puis décroissant

Métriques d'Évaluation

  • Perte d'entraînement
  • Précision de test
  • Norme de gradient complet f(θe)\|\nabla f(\theta_e)\|

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 1 : Borne de Convergence Unifiée

Sous les conditions d'hypothèse, pour NSHB et SHB : min0tT1E[f(θt)2]2Calg(f(θ0)f)BT+σ2VT\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T

où :

  • BT=1t=0T1λtB_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}
  • VT=1t=0T1λtt=0T1λtbtV_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}
  • Calg=(1β)1C_{alg} = (1-\beta)^{-1} (NSHB), Calg=1C_{alg} = 1 (SHB)

Analyse des Taux de Convergence

Cas de Taille de Lot Constante : min0tT1E[f(θt)]=O(1T+1b)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)

Cas de Taille de Lot Croissante : min0tT1E[f(θt)]=O(1T)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)

Augmentation Simultanée de la Taille de Lot et du Taux d'Apprentissage : min0tT1E[f(θt)]=O(1γM/2)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)

Validation Expérimentale

Classement des Performances de Convergence

Les résultats expérimentaux valident complètement la hiérarchie de convergence prédite par la théorie :

  1. Pire : Taille de lot constante + taux d'apprentissage décroissant
  2. Moyen : Taille de lot croissante + taux d'apprentissage décroissant
  3. Meilleur : Taille de lot croissante + taux d'apprentissage croissant
  4. Optimal : Taille de lot croissante + taux d'apprentissage avec warm-up

Résultats Numériques Spécifiques

  • NSHB et SHB présentent le même classement dans la convergence de la norme de gradient
  • La stratégie warm-up atteint également les meilleures performances en précision de test
  • Pour SHB, un taux d'apprentissage élevé, bien que la norme de gradient décroisse plus rapidement, obtient une précision de test inférieure à celle d'un taux d'apprentissage bas

Comparaison avec d'Autres Optimiseurs

Sous le calendrier de taille de lot croissante, SGD, NSHB et SHB présentent une décroissance rapide de la norme de gradient aux premiers stades, mais Adam réalise une norme de gradient plus petite aux stades ultérieurs.

Travaux Connexes

Analyse Théorique des Méthodes avec Moment

  • Liu et al. (2020) : Travail fondateur du NSHB avec taux d'apprentissage fixe
  • Gadat et al. (2018), Mai et Johansson (2020) : Analyse de convergence basée sur les fonctions de Lyapunov
  • Wilson et al. (2021), Defazio (2021) : Analyse théorique des méthodes accélérées

Calendriers de Taux d'Apprentissage et de Taille de Lot

  • Umeda et Iiduka (2025) : Analyse des calendriers dynamiques du SGD vanilla
  • Kamo et Iiduka (2025) : Analyse du SGDM avec taille de lot croissante
  • Smith et al. (2018) : Efficacité des calendriers de taille de lot en pratique

Avantages de Cet Article

Comparé aux travaux existants, cet article fournit pour la première fois un cadre théorique complet pour les calendriers de taux d'apprentissage dynamiques du SGDM, comblant une lacune théorique importante.

Conclusion et Discussion

Conclusions Principales

  1. Contribution Théorique : Établit un cadre théorique complet pour les calendriers dynamiques du SGDM
  2. Hiérarchie de Convergence : Démontre que la taille de lot croissante est supérieure à la taille de lot constante, et l'augmentation simultanée des deux est optimale
  3. Validation Expérimentale : Les prédictions théoriques sont hautement cohérentes avec les résultats expérimentaux

Limitations

  1. Conditions d'Hypothèse : Nécessite la L-lissité et les hypothèses de variance bornée
  2. Contraintes de Taux d'Apprentissage : La condition technique λt+1λtc<1β2\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2} limite la vitesse de croissance du taux d'apprentissage
  3. Portée Expérimentale : Validé uniquement sur CIFAR-100 et ResNet-18, manque d'expériences à grande échelle

Directions Futures

  1. Calendrier du Coefficient de Moment : Extension aux calendriers dynamiques du coefficient de moment β\beta
  2. Autres Optimiseurs : Extension de l'analyse aux méthodes adaptatives comme Adam
  3. Applications Pratiques : Validation sur des tâches d'apprentissage profond à plus grande échelle

Évaluation Approfondie

Points Forts

  1. Rigueur Théorique : Conception ingénieuse de la fonction de Lyapunov, dérivations mathématiques rigoureuses
  2. Valeur Pratique : Fournit des orientations théoriques pour les calendriers d'hyperparamètres dans l'entraînement pratique
  3. Cadre Unifié : Analyse simultanée du SHB et du NSHB avec bonne généralité
  4. Expériences Suffisantes : Résultats théoriques et expérimentaux hautement cohérents, renforçant la crédibilité des conclusions

Insuffisances

  1. Innovation Limitée : Principalement une extension des techniques existantes, innovation fondamentale relativement limitée
  2. Échelle Expérimentale : Les expériences se limitent à des problèmes de taille moyenne, manque de validation à grande échelle
  3. Contraintes Pratiques : Les conditions techniques dans l'analyse théorique peuvent être difficiles à satisfaire strictement en pratique
  4. Comparaisons Insuffisantes : Manque de comparaisons approfondies avec les dernières méthodes d'optimisation adaptatives

Impact

  1. Valeur Théorique : Fournit une base théorique importante pour les calendriers dynamiques du SGDM
  2. Signification Pratique : Guide la configuration des hyperparamètres dans l'entraînement d'apprentissage profond réel
  3. Reproductibilité : Code public, expériences reproductibles

Scénarios Applicables

  1. Entraînement d'Apprentissage Profond : Particulièrement applicable aux scénarios nécessitant un calendrier fin du taux d'apprentissage et de la taille de lot
  2. Recherche Théorique : Fournit une base pour la recherche théorique ultérieure en optimisation
  3. Pratique Ingénierie : Guide l'ajustement automatique des hyperparamètres dans les systèmes d'entraînement réels

Références

  • Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
  • Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
  • Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
  • Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size

Évaluation Globale : Cet article présente une contribution théorique solide qui analyse avec succès le problème des calendriers dynamiques du SGDM en introduisant une fonction de Lyapunov simplifiée. Bien que l'innovation soit relativement limitée, il comble une lacune théorique importante et fournit des orientations précieuses pour les applications pratiques. L'analyse théorique est rigoureuse, la validation expérimentale est suffisante, et c'est une contribution bénéfique au domaine de la théorie de l'optimisation.