2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

Accélération du SGDM via les Calendriers de Taux d'Apprentissage et de Taille de Lot : Une Analyse Basée sur Lyapunov

Informations Fondamentales

  • ID de l'article : 2508.03105
  • Titre : Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • Auteurs : Yuichi Kondo, Hideaki Iiduka (Université Meiji)
  • Classification : cs.LG (Apprentissage Automatique)
  • Date de Publication : 10 octobre 2025 (arXiv v2)
  • Lien de l'article : https://arxiv.org/abs/2508.03105v2

Résumé

Cet article analyse le comportement de convergence de la descente de gradient stochastique avec moment (SGDM) sous des calendriers de taux d'apprentissage et de taille de lot dynamiques en introduisant une nouvelle fonction de Lyapunov plus simple et plus élégante. L'étude étend le cadre théorique existant pour couvrir trois stratégies de calendrier pratiques couramment utilisées en apprentissage profond : taille de lot constante avec taux d'apprentissage décroissant, taille de lot croissante avec taux d'apprentissage décroissant, et augmentation simultanée de la taille de lot et du taux d'apprentissage. Les résultats révèlent une hiérarchie de convergence claire : une taille de lot constante ne garantit pas la convergence de la norme de gradient attendue, tandis qu'une taille de lot croissante le permet, et l'augmentation simultanée des deux permet une décroissance provablement plus rapide. Les résultats expérimentaux valident la théorie, montrant que le SGDM avec calendriers dynamiques converge significativement plus rapidement que les méthodes correspondantes avec hyperparamètres fixes.

Contexte et Motivation de la Recherche

Définition du Problème

Le problème fondamental que cette recherche vise à résoudre est : comment guider théoriquement les calendriers dynamiques du taux d'apprentissage et de la taille de lot dans le SGDM pour obtenir de meilleures performances de convergence.

Importance

  1. Besoin Pratique : Les calendriers de taux d'apprentissage dynamiques (comme le recuit cosinus) sont largement adoptés dans l'entraînement d'apprentissage profond, mais manquent de support théorique
  2. Amélioration de l'Efficacité : L'augmentation de la taille de lot s'est avérée améliorer l'efficacité du mini-batch SGD, mais l'analyse théorique dans le cadre du SGDM est limitée
  3. Lacune Théorique : L'analyse théorique existante du SGDM se limite principalement aux taux d'apprentissage fixes ; un cadre théorique pour les calendriers dynamiques est urgent

Limitations des Méthodes Existantes

  1. Umeda et Iiduka (2025) : Analysent uniquement les calendriers dynamiques du SGD vanilla, sans considérer les méthodes avec moment
  2. Kamo et Iiduka (2025) : Étudient la convergence du SGDM avec taux d'apprentissage constant et taille de lot croissante, mais ne considèrent pas les taux d'apprentissage dynamiques
  3. Liu et al. (2020) : Analysent le NSHB avec taux d'apprentissage fixe, mais l'extension aux calendriers dynamiques reste un défi

Motivation de la Recherche

Combler le vide dans l'analyse théorique des calendriers de taux d'apprentissage dynamiques pour le SGDM et fournir des orientations théoriques pour l'entraînement pratique.

Contributions Principales

  1. Fonction de Lyapunov Nouvelle : Propose une fonction de Lyapunov simplifiée adaptée aux calendriers de taux d'apprentissage dynamiques, plus élégante que les méthodes existantes
  2. Cadre Théorique Unifié : Établit un cadre d'analyse unifié couvrant le SHB et le NSHB, applicable à diverses stratégies de calendrier
  3. Extension Théorique : Étend l'analyse de Kamo et Iiduka (2025) des taux d'apprentissage constants aux taux décroissants, et étudie le cas d'augmentation simultanée du taux d'apprentissage et de la taille de lot
  4. Hiérarchie de Convergence : Démontre théoriquement le classement des performances de convergence de quatre stratégies de calendrier et le valide expérimentalement

Explication Détaillée de la Méthode

Définition de la Tâche

Étudie le problème de minimisation du risque empirique : minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), où fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) est la fonction de perte. L'objectif est de trouver un point stationnaire θRd\theta^* \in \mathbb{R}^d tel que f(θ)=0\nabla f(\theta^*) = 0.

Cadre Théorique

Conception de la Fonction de Lyapunov

Propose une nouvelle fonction de Lyapunov :

undefined