2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

Beschleunigung von SGDM durch Lernrate- und Batch-Größen-Zeitpläne: Eine Lyapunov-basierte Analyse

Grundlegende Informationen

  • Paper-ID: 2508.03105
  • Titel: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • Autoren: Yuichi Kondo, Hideaki Iiduka (Meiji University)
  • Klassifizierung: cs.LG (Maschinelles Lernen)
  • Veröffentlichungsdatum: 10. Oktober 2025 (arXiv v2)
  • Paper-Link: https://arxiv.org/abs/2508.03105v2

Zusammenfassung

Dieses Paper analysiert das Konvergenzverhalten von stochastischem Gradientenabstieg mit Momentum (SGDM) unter dynamischen Lernrate- und Batch-Größen-Zeitplänen durch Einführung einer neuartigen und vereinfachten Lyapunov-Funktion. Die Forschung erweitert das bestehende theoretische Rahmenwerk und umfasst drei praktische Zeitplanstrategien, die häufig im Deep Learning verwendet werden: konstante Batch-Größe mit abnehmender Lernrate, zunehmende Batch-Größe mit abnehmender Lernrate sowie gleichzeitig zunehmende Batch-Größe und Lernrate. Die Ergebnisse offenbaren eine klare Konvergenzhierarchie: konstante Batch-Größe garantiert keine Konvergenz der erwarteten Gradientennorm, während zunehmende Batch-Größe dies ermöglicht, und gleichzeitig zunehmende Batch-Größe und Lernrate erzielen nachweislich schnellere Abnahme. Experimentelle Ergebnisse validieren die Theorie und zeigen, dass dynamisch geplantes SGDM in der Konvergenzgeschwindigkeit deutlich besser ist als entsprechende Methoden mit festen Hyperparametern.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können Lernrate und Batch-Größe in SGDM durch theoretische Analyse dynamisch geplant werden, um bessere Konvergenzleistung zu erreichen?

Bedeutung

  1. Praktische Anforderung: Dynamische Lernrate-Zeitpläne (wie Cosine Annealing) werden im Deep-Learning-Training weit verbreitet verwendet, verfügen aber über begrenzte theoretische Unterstützung
  2. Effizienzsteigerung: Erhöhung der Batch-Größe wurde berichtet, um die Effizienz von Mini-Batch SGD zu verbessern, aber die theoretische Analyse im SGDM-Rahmen ist begrenzt
  3. Theoretische Lücke: Die bestehende SGDM-Theorieanalyse ist hauptsächlich auf feste Lernraten beschränkt; ein theoretisches Rahmenwerk für dynamische Zeitpläne ist dringend erforderlich

Einschränkungen bestehender Methoden

  1. Umeda and Iiduka (2025): Analysiert nur dynamische Zeitpläne für Vanilla SGD, nicht für Momentum-Methoden
  2. Kamo and Iiduka (2025): Untersucht SGDM-Konvergenz unter konstanter Lernrate und zunehmender Batch-Größe, berücksichtigt aber keine dynamische Lernrate
  3. Liu et al. (2020): Analysiert NSHB unter fester Lernrate, aber die Erweiterung auf dynamische Zeitpläne bleibt eine Herausforderung

Forschungsmotivation

Schließung der Lücke in der theoretischen Analyse dynamischer Lernrate-Zeitpläne für SGDM und Bereitstellung theoretischer Anleitung für praktisches Training.

Kernbeiträge

  1. Neuartige Lyapunov-Funktion: Vorschlag einer vereinfachten Lyapunov-Funktion, die sich an dynamische Lernrate-Zeitpläne anpasst und einfacher ist als bestehende Methoden
  2. Einheitliches theoretisches Rahmenwerk: Etablierung eines einheitlichen Analyserahmens, der SHB und NSHB abdeckt und auf verschiedene Zeitplanstrategien anwendbar ist
  3. Theoretische Erweiterung: Erweiterung der Analyse von Kamo and Iiduka (2025) von konstanter Lernrate auf abnehmende Lernrate und Untersuchung des gleichzeitigen Anstiegs von Lernrate und Batch-Größe
  4. Konvergenzhierarchie: Theoretischer Nachweis der Konvergenzleistungsordnung von vier Zeitplanstrategien mit experimenteller Validierung

Methodische Details

Aufgabendefinition

Untersuchung des empirischen Risikominimierungsproblems: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), wobei fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) die Verlustfunktion ist. Das Ziel ist, einen stationären Punkt θRd\theta^* \in \mathbb{R}^d zu finden, so dass f(θ)=0\nabla f(\theta^*) = 0.

Theoretisches Rahmenwerk

Lyapunov-Funktionsdesign

Vorschlag einer neuen Lyapunov-Funktion: Lt:={f(θt),t=0f(θt)+At1mt12,t>0L_t := \begin{cases} f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}

wobei At0A_t \geq 0 ein deterministischer Skalar ist, der nur von tt abhängt. Für die NSHB-Methode: At:=ηtL(1β)ηt22(1β)A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}

Algorithmusbeschreibung

NSHB-Algorithmus:

m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - η_t m_t

SHB-Algorithmus:

m_t = βm_{t-1} + ∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - α_t m_t

Technische Innovationspunkte

1. Vereinfachte Lyapunov-Funktion

Im Vergleich zu bestehenden Methoden (wie der komplexen Form von Liu et al. 2020) ist die Lyapunov-Funktion dieses Papers einfach in der Form und passt sich natürlich an dynamische Lernraten an.

2. Einheitlicher Analyserahmen

Durch Einführung der technischen Bedingung λt+1λtc\frac{\lambda_{t+1}}{\lambda_t} \leq c (wobei 1c<1β21 \leq c < \frac{1}{\beta^2}) werden sowohl abnehmende als auch zunehmende Lernrate-Zeitpläne gleichzeitig behandelt.

3. Kreuzterm-Eliminierungstechnik

Durch geschickte Wahl der Definition von AtA_t wird erfolgreich der Kreuzterm E[f(θt),mt1]E[\langle\nabla f(\theta_t), m_{t-1}\rangle] in der Analyse eliminiert, was ein Schlüsseltechnischer Schwerpunkt dieser Analyse ist.

Experimentelle Einrichtung

Datensätze

  • Datensatz: CIFAR-100
  • Modell: ResNet-18
  • Trainings-Epochen: 300 Epochen
  • Momentum-Koeffizient: β = 0,9

Hardware-Umgebung

  • CPU: Dual Intel Xeon Silver 4316
  • GPU: NVIDIA Tesla A100 80GB
  • Software: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1

Zeitplanstrategien

Untersuchung von vier Trainings-Zeitplänen:

  1. Konstante Batch-Größe + abnehmende Lernrate: Batch-Größe fest auf 128
  2. Zunehmende Batch-Größe + abnehmende Lernrate: Batch-Größe verdoppelt sich alle 30 Epochen (2³ bis 2¹²)
  3. Zunehmende Batch-Größe + zunehmende Lernrate: Batch-Größe und Lernrate wachsen gleichzeitig
  4. Zunehmende Batch-Größe + Warm-up-Lernrate: Lernrate-Zeitplan mit Anstieg und Abfall

Bewertungsmetriken

  • Trainingsverlust
  • Test-Genauigkeit
  • Vollständige Gradientennorm f(θe)\|\nabla f(\theta_e)\|

Experimentelle Ergebnisse

Haupttheoretische Ergebnisse

Satz 1: Einheitliche Konvergenzschranke

Unter den Annahmebedingungen gilt für NSHB und SHB: min0tT1E[f(θt)2]2Calg(f(θ0)f)BT+σ2VT\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T

wobei:

  • BT=1t=0T1λtB_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}
  • VT=1t=0T1λtt=0T1λtbtV_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}
  • Calg=(1β)1C_{alg} = (1-\beta)^{-1} (NSHB), Calg=1C_{alg} = 1 (SHB)

Konvergenzratenanalyse

Konstante Batch-Größe: min0tT1E[f(θt)]=O(1T+1b)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)

Zunehmende Batch-Größe: min0tT1E[f(θt)]=O(1T)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)

Gleichzeitig zunehmende Batch-Größe und Lernrate: min0tT1E[f(θt)]=O(1γM/2)\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)

Experimentelle Validierung

Konvergenzleistungsordnung

Experimentelle Ergebnisse validieren vollständig die theoretisch vorhergesagte Konvergenzhierarchie:

  1. Am schlechtesten: Konstante Batch-Größe + abnehmende Lernrate
  2. Mittel: Zunehmende Batch-Größe + abnehmende Lernrate
  3. Besser: Zunehmende Batch-Größe + zunehmende Lernrate
  4. Optimal: Zunehmende Batch-Größe + Warm-up-Lernrate

Spezifische numerische Ergebnisse

  • NSHB und SHB zeigen die gleiche Ordnung bei der Konvergenz der Gradientennorm
  • Die Warm-up-Strategie erreicht auch die beste Leistung bei der Test-Genauigkeit
  • Für SHB führt hohe Lernrate zu schnellerem Gradientennorm-Abfall, aber niedrige Lernrate erreicht bessere Test-Genauigkeit

Vergleich mit anderen Optimierern

Unter zunehmender Batch-Größen-Zeitplanung zeigen SGD, NSHB und SHB in der frühen Phase schnellen Gradientennorm-Abfall, aber Adam erreicht in der späteren Phase kleinere Gradientennorm.

Verwandte Arbeiten

Theoretische Analyse von Momentum-Methoden

  • Liu et al. (2020): Bahnbrechende Arbeit zu NSHB mit fester Lernrate
  • Gadat et al. (2018), Mai and Johansson (2020): Konvergenzanalyse basierend auf Lyapunov-Funktionen
  • Wilson et al. (2021), Defazio (2021): Theoretische Analyse beschleunigter Methoden

Lernrate- und Batch-Größen-Zeitpläne

  • Umeda and Iiduka (2025): Dynamische Zeitplananalyse für Vanilla SGD
  • Kamo and Iiduka (2025): Analyse von SGDM unter zunehmender Batch-Größe
  • Smith et al. (2018): Effektivität von Batch-Größen-Zeitplänen in der Praxis

Vorteile dieses Papers

Im Vergleich zu bestehenden Arbeiten bietet dieses Paper erstmals ein vollständiges theoretisches Rahmenwerk für dynamische Lernrate-Zeitpläne von SGDM und schließt eine wichtige theoretische Lücke.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Theoretischer Beitrag: Etablierung eines vollständigen theoretischen Rahmens für dynamische SGDM-Zeitpläne
  2. Konvergenzhierarchie: Nachweis, dass zunehmende Batch-Größe besser ist als konstante Batch-Größe, und gleichzeitiger Anstieg beider ist optimal
  3. Experimentelle Validierung: Theoretische Vorhersagen stimmen stark mit experimentellen Ergebnissen überein

Einschränkungen

  1. Annahmebedingungen: Erfordert L-Glattheit und begrenzte Varianzannahmen
  2. Lernrate-Beschränkungen: Technische Bedingung λt+1λtc<1β2\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2} begrenzt die Lernrate-Wachstumsgeschwindigkeit
  3. Experimenteller Umfang: Validierung nur auf CIFAR-100 und ResNet-18, mangelnde großflächige Experimente

Zukünftige Richtungen

  1. Momentum-Koeffizient-Zeitplanung: Erweiterung auf dynamische Zeitplanung des Momentum-Koeffizienten β\beta
  2. Andere Optimierer: Erweiterung der Analyse auf adaptive Methoden wie Adam
  3. Praktische Anwendung: Validierung in größeren Deep-Learning-Aufgaben

Tiefgreifende Bewertung

Stärken

  1. Theoretische Strenge: Lyapunov-Funktionsdesign ist geschickt, mathematische Herleitung ist rigoros
  2. Praktischer Wert: Bietet theoretische Anleitung für Hyperparameter-Zeitplanung im praktischen Training
  3. Einheitliches Rahmenwerk: Gleichzeitige Analyse von SHB und NSHB mit guter Allgemeingültigkeit
  4. Ausreichende Experimente: Theoretische und experimentelle Ergebnisse stimmen stark überein, was die Glaubwürdigkeit der Schlussfolgerungen erhöht

Mängel

  1. Begrenzte Innovation: Hauptsächlich Erweiterung bestehender Techniken, relativ begrenzte Kerninnnovation
  2. Experimenteller Umfang: Experimente beschränkt auf mittlere Probleme, mangelnde großflächige Validierung
  3. Praktische Beschränkungen: Technische Bedingungen in der theoretischen Analyse können in der Praxis schwer streng erfüllt werden
  4. Unzureichender Vergleich: Mangelnde tiefgreifende Vergleiche mit neuesten adaptiven Optimierungsmethoden

Einflussfähigkeit

  1. Theoretischer Wert: Bietet wichtige theoretische Grundlagen für dynamische SGDM-Zeitpläne
  2. Praktische Bedeutung: Leitet Hyperparameter-Einstellung im praktischen Deep-Learning-Training an
  3. Reproduzierbarkeit: Code ist öffentlich, Experimente sind reproduzierbar

Anwendungsszenarien

  1. Deep-Learning-Training: Besonders geeignet für Szenarien, die präzise Lernrate- und Batch-Größen-Zeitplanung erfordern
  2. Theoretische Forschung: Bietet Grundlagen für weitere Optimierungstheorie-Forschung
  3. Ingenieurpraxis: Bietet Anleitung für automatische Hyperparameter-Anpassung in praktischen Trainingssystemen

Referenzen

  • Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
  • Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
  • Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
  • Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size

Gesamtbewertung: Dies ist ein Paper mit soliden theoretischen Beiträgen, das das Problem der dynamischen SGDM-Zeitplanung durch Einführung einer vereinfachten Lyapunov-Funktion erfolgreich analysiert. Obwohl die Innovation relativ begrenzt ist, schließt es eine wichtige theoretische Lücke und bietet wertvolle Anleitung für praktische Anwendungen. Die theoretische Analyse ist rigoros und die experimentelle Validierung ist ausreichend – ein wertvoller Beitrag zum Bereich der Optimierungstheorie.