2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka

We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.

academic

Accélération du SGDM via les Calendriers de Taux d'Apprentissage et de Taille de Lot : Une Analyse Basée sur Lyapunov

Informations Fondamentales

ID de l'article : 2508.03105
Titre : Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Auteurs : Yuichi Kondo, Hideaki Iiduka (Université Meiji)
Classification : cs.LG (Apprentissage Automatique)
Date de Publication : 10 octobre 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2508.03105v2

Résumé

Cet article analyse le comportement de convergence de la descente de gradient stochastique avec moment (SGDM) sous des calendriers de taux d'apprentissage et de taille de lot dynamiques en introduisant une nouvelle fonction de Lyapunov plus simple et plus élégante. L'étude étend le cadre théorique existant pour couvrir trois stratégies de calendrier pratiques couramment utilisées en apprentissage profond : taille de lot constante avec taux d'apprentissage décroissant, taille de lot croissante avec taux d'apprentissage décroissant, et augmentation simultanée de la taille de lot et du taux d'apprentissage. Les résultats révèlent une hiérarchie de convergence claire : une taille de lot constante ne garantit pas la convergence de la norme de gradient attendue, tandis qu'une taille de lot croissante le permet, et l'augmentation simultanée des deux permet une décroissance provablement plus rapide. Les résultats expérimentaux valident la théorie, montrant que le SGDM avec calendriers dynamiques converge significativement plus rapidement que les méthodes correspondantes avec hyperparamètres fixes.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : comment guider théoriquement les calendriers dynamiques du taux d'apprentissage et de la taille de lot dans le SGDM pour obtenir de meilleures performances de convergence.

Importance

Besoin Pratique : Les calendriers de taux d'apprentissage dynamiques (comme le recuit cosinus) sont largement adoptés dans l'entraînement d'apprentissage profond, mais manquent de support théorique
Amélioration de l'Efficacité : L'augmentation de la taille de lot s'est avérée améliorer l'efficacité du mini-batch SGD, mais l'analyse théorique dans le cadre du SGDM est limitée
Lacune Théorique : L'analyse théorique existante du SGDM se limite principalement aux taux d'apprentissage fixes ; un cadre théorique pour les calendriers dynamiques est urgent

Limitations des Méthodes Existantes

Umeda et Iiduka (2025) : Analysent uniquement les calendriers dynamiques du SGD vanilla, sans considérer les méthodes avec moment
Kamo et Iiduka (2025) : Étudient la convergence du SGDM avec taux d'apprentissage constant et taille de lot croissante, mais ne considèrent pas les taux d'apprentissage dynamiques
Liu et al. (2020) : Analysent le NSHB avec taux d'apprentissage fixe, mais l'extension aux calendriers dynamiques reste un défi

Motivation de la Recherche

Combler le vide dans l'analyse théorique des calendriers de taux d'apprentissage dynamiques pour le SGDM et fournir des orientations théoriques pour l'entraînement pratique.

Contributions Principales

Fonction de Lyapunov Nouvelle : Propose une fonction de Lyapunov simplifiée adaptée aux calendriers de taux d'apprentissage dynamiques, plus élégante que les méthodes existantes
Cadre Théorique Unifié : Établit un cadre d'analyse unifié couvrant le SHB et le NSHB, applicable à diverses stratégies de calendrier
Extension Théorique : Étend l'analyse de Kamo et Iiduka (2025) des taux d'apprentissage constants aux taux décroissants, et étudie le cas d'augmentation simultanée du taux d'apprentissage et de la taille de lot
Hiérarchie de Convergence : Démontre théoriquement le classement des performances de convergence de quatre stratégies de calendrier et le valide expérimentalement

Explication Détaillée de la Méthode

Définition de la Tâche

Étudie le problème de minimisation du risque empirique : $\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta)$ , où $f_i(\theta) = f(\theta; (x_i, y_i))$ est la fonction de perte. L'objectif est de trouver un point stationnaire $\theta^* \in \mathbb{R}^d$ tel que $\nabla f(\theta^*) = 0$ .

Cadre Théorique

Conception de la Fonction de Lyapunov

Propose une nouvelle fonction de Lyapunov : $L_t := \begin{cases} f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$

où $A_t \geq 0$ est un scalaire déterministe dépendant uniquement de $t$ . Pour la méthode NSHB : $A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$

Description de l'Algorithme

Algorithme NSHB :

m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - η_t m_t

Algorithme SHB :

m_t = βm_{t-1} + ∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - α_t m_t

Points d'Innovation Technique

1. Fonction de Lyapunov Simplifiée

Comparée aux méthodes existantes (comme la forme complexe de Liu et al. 2020), la fonction de Lyapunov de cet article est élégante et s'adapte naturellement aux taux d'apprentissage dynamiques.

2. Cadre d'Analyse Unifié

En introduisant la condition technique $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (où $1 \leq c < \frac{1}{\beta^2}$ ), traite simultanément les calendriers de taux d'apprentissage décroissants et croissants.

3. Technique d'Élimination des Termes Croisés

En choisissant judicieusement la définition de $A_t$ , élimine avec succès le terme croisé $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ dans l'analyse, ce qui est le point technique clé de cette analyse.

Configuration Expérimentale

Ensembles de Données

Ensemble de Données : CIFAR-100
Modèle : ResNet-18
Nombre d'Epochs : 300
Coefficient de Moment : β = 0,9

Environnement Matériel

CPU : Dual Intel Xeon Silver 4316
GPU : NVIDIA Tesla A100 80GB
Logiciels : Python 3.8.2, CUDA 12.2, PyTorch 2.4.1

Stratégies de Calendrier

Étudie quatre calendriers d'entraînement :

Taille de Lot Constante + Taux d'Apprentissage Décroissant : Taille de lot fixée à 128
Taille de Lot Croissante + Taux d'Apprentissage Décroissant : Taille de lot doublée tous les 30 epochs (2³ à 2¹²)
Taille de Lot Croissante + Taux d'Apprentissage Croissant : Taille de lot et taux d'apprentissage augmentent simultanément
Taille de Lot Croissante + Taux d'Apprentissage avec Warm-up : Calendrier de taux d'apprentissage d'abord croissant puis décroissant

Métriques d'Évaluation

Perte d'entraînement
Précision de test
Norme de gradient complet $\|\nabla f(\theta_e)\|$

Résultats Expérimentaux

Résultats Théoriques Principaux

Théorème 1 : Borne de Convergence Unifiée

Sous les conditions d'hypothèse, pour NSHB et SHB : $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$

où :

$B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$
$V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$
$C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB)

Analyse des Taux de Convergence

Cas de Taille de Lot Constante : $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$

Cas de Taille de Lot Croissante : $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$

Augmentation Simultanée de la Taille de Lot et du Taux d'Apprentissage : $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$

Validation Expérimentale

Classement des Performances de Convergence

Les résultats expérimentaux valident complètement la hiérarchie de convergence prédite par la théorie :

Pire : Taille de lot constante + taux d'apprentissage décroissant
Moyen : Taille de lot croissante + taux d'apprentissage décroissant
Meilleur : Taille de lot croissante + taux d'apprentissage croissant
Optimal : Taille de lot croissante + taux d'apprentissage avec warm-up

Résultats Numériques Spécifiques

NSHB et SHB présentent le même classement dans la convergence de la norme de gradient
La stratégie warm-up atteint également les meilleures performances en précision de test
Pour SHB, un taux d'apprentissage élevé, bien que la norme de gradient décroisse plus rapidement, obtient une précision de test inférieure à celle d'un taux d'apprentissage bas

Comparaison avec d'Autres Optimiseurs

Sous le calendrier de taille de lot croissante, SGD, NSHB et SHB présentent une décroissance rapide de la norme de gradient aux premiers stades, mais Adam réalise une norme de gradient plus petite aux stades ultérieurs.

Travaux Connexes

Analyse Théorique des Méthodes avec Moment

Liu et al. (2020) : Travail fondateur du NSHB avec taux d'apprentissage fixe
Gadat et al. (2018), Mai et Johansson (2020) : Analyse de convergence basée sur les fonctions de Lyapunov
Wilson et al. (2021), Defazio (2021) : Analyse théorique des méthodes accélérées

Calendriers de Taux d'Apprentissage et de Taille de Lot

Umeda et Iiduka (2025) : Analyse des calendriers dynamiques du SGD vanilla
Kamo et Iiduka (2025) : Analyse du SGDM avec taille de lot croissante
Smith et al. (2018) : Efficacité des calendriers de taille de lot en pratique

Avantages de Cet Article

Comparé aux travaux existants, cet article fournit pour la première fois un cadre théorique complet pour les calendriers de taux d'apprentissage dynamiques du SGDM, comblant une lacune théorique importante.

Conclusion et Discussion

Conclusions Principales

Contribution Théorique : Établit un cadre théorique complet pour les calendriers dynamiques du SGDM
Hiérarchie de Convergence : Démontre que la taille de lot croissante est supérieure à la taille de lot constante, et l'augmentation simultanée des deux est optimale
Validation Expérimentale : Les prédictions théoriques sont hautement cohérentes avec les résultats expérimentaux

Limitations

Conditions d'Hypothèse : Nécessite la L-lissité et les hypothèses de variance bornée
Contraintes de Taux d'Apprentissage : La condition technique $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ limite la vitesse de croissance du taux d'apprentissage
Portée Expérimentale : Validé uniquement sur CIFAR-100 et ResNet-18, manque d'expériences à grande échelle

Directions Futures

Calendrier du Coefficient de Moment : Extension aux calendriers dynamiques du coefficient de moment $\beta$
Autres Optimiseurs : Extension de l'analyse aux méthodes adaptatives comme Adam
Applications Pratiques : Validation sur des tâches d'apprentissage profond à plus grande échelle

Évaluation Approfondie

Points Forts

Rigueur Théorique : Conception ingénieuse de la fonction de Lyapunov, dérivations mathématiques rigoureuses
Valeur Pratique : Fournit des orientations théoriques pour les calendriers d'hyperparamètres dans l'entraînement pratique
Cadre Unifié : Analyse simultanée du SHB et du NSHB avec bonne généralité
Expériences Suffisantes : Résultats théoriques et expérimentaux hautement cohérents, renforçant la crédibilité des conclusions

Insuffisances

Innovation Limitée : Principalement une extension des techniques existantes, innovation fondamentale relativement limitée
Échelle Expérimentale : Les expériences se limitent à des problèmes de taille moyenne, manque de validation à grande échelle
Contraintes Pratiques : Les conditions techniques dans l'analyse théorique peuvent être difficiles à satisfaire strictement en pratique
Comparaisons Insuffisantes : Manque de comparaisons approfondies avec les dernières méthodes d'optimisation adaptatives

Impact

Valeur Théorique : Fournit une base théorique importante pour les calendriers dynamiques du SGDM
Signification Pratique : Guide la configuration des hyperparamètres dans l'entraînement d'apprentissage profond réel
Reproductibilité : Code public, expériences reproductibles

Scénarios Applicables

Entraînement d'Apprentissage Profond : Particulièrement applicable aux scénarios nécessitant un calendrier fin du taux d'apprentissage et de la taille de lot
Recherche Théorique : Fournit une base pour la recherche théorique ultérieure en optimisation
Pratique Ingénierie : Guide l'ajustement automatique des hyperparamètres dans les systèmes d'entraînement réels

Références

Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size

Évaluation Globale : Cet article présente une contribution théorique solide qui analyse avec succès le problème des calendriers dynamiques du SGDM en introduisant une fonction de Lyapunov simplifiée. Bien que l'innovation soit relativement limitée, il comble une lacune théorique importante et fournit des orientations précieuses pour les applications pratiques. L'analyse théorique est rigoureuse, la validation expérimentale est suffisante, et c'est une contribution bénéfique au domaine de la théorie de l'optimisation.