Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic
Beschleunigung von SGDM durch Lernrate- und Batch-Größen-Zeitpläne: Eine Lyapunov-basierte Analyse
Dieses Paper analysiert das Konvergenzverhalten von stochastischem Gradientenabstieg mit Momentum (SGDM) unter dynamischen Lernrate- und Batch-Größen-Zeitplänen durch Einführung einer neuartigen und vereinfachten Lyapunov-Funktion. Die Forschung erweitert das bestehende theoretische Rahmenwerk und umfasst drei praktische Zeitplanstrategien, die häufig im Deep Learning verwendet werden: konstante Batch-Größe mit abnehmender Lernrate, zunehmende Batch-Größe mit abnehmender Lernrate sowie gleichzeitig zunehmende Batch-Größe und Lernrate. Die Ergebnisse offenbaren eine klare Konvergenzhierarchie: konstante Batch-Größe garantiert keine Konvergenz der erwarteten Gradientennorm, während zunehmende Batch-Größe dies ermöglicht, und gleichzeitig zunehmende Batch-Größe und Lernrate erzielen nachweislich schnellere Abnahme. Experimentelle Ergebnisse validieren die Theorie und zeigen, dass dynamisch geplantes SGDM in der Konvergenzgeschwindigkeit deutlich besser ist als entsprechende Methoden mit festen Hyperparametern.
Das Kernproblem dieser Forschung ist: Wie können Lernrate und Batch-Größe in SGDM durch theoretische Analyse dynamisch geplant werden, um bessere Konvergenzleistung zu erreichen?
Praktische Anforderung: Dynamische Lernrate-Zeitpläne (wie Cosine Annealing) werden im Deep-Learning-Training weit verbreitet verwendet, verfügen aber über begrenzte theoretische Unterstützung
Effizienzsteigerung: Erhöhung der Batch-Größe wurde berichtet, um die Effizienz von Mini-Batch SGD zu verbessern, aber die theoretische Analyse im SGDM-Rahmen ist begrenzt
Theoretische Lücke: Die bestehende SGDM-Theorieanalyse ist hauptsächlich auf feste Lernraten beschränkt; ein theoretisches Rahmenwerk für dynamische Zeitpläne ist dringend erforderlich
Umeda and Iiduka (2025): Analysiert nur dynamische Zeitpläne für Vanilla SGD, nicht für Momentum-Methoden
Kamo and Iiduka (2025): Untersucht SGDM-Konvergenz unter konstanter Lernrate und zunehmender Batch-Größe, berücksichtigt aber keine dynamische Lernrate
Liu et al. (2020): Analysiert NSHB unter fester Lernrate, aber die Erweiterung auf dynamische Zeitpläne bleibt eine Herausforderung
Schließung der Lücke in der theoretischen Analyse dynamischer Lernrate-Zeitpläne für SGDM und Bereitstellung theoretischer Anleitung für praktisches Training.
Neuartige Lyapunov-Funktion: Vorschlag einer vereinfachten Lyapunov-Funktion, die sich an dynamische Lernrate-Zeitpläne anpasst und einfacher ist als bestehende Methoden
Einheitliches theoretisches Rahmenwerk: Etablierung eines einheitlichen Analyserahmens, der SHB und NSHB abdeckt und auf verschiedene Zeitplanstrategien anwendbar ist
Theoretische Erweiterung: Erweiterung der Analyse von Kamo and Iiduka (2025) von konstanter Lernrate auf abnehmende Lernrate und Untersuchung des gleichzeitigen Anstiegs von Lernrate und Batch-Größe
Konvergenzhierarchie: Theoretischer Nachweis der Konvergenzleistungsordnung von vier Zeitplanstrategien mit experimenteller Validierung
Untersuchung des empirischen Risikominimierungsproblems: minθ∈Rdf(θ)=n1∑i=1nfi(θ), wobei fi(θ)=f(θ;(xi,yi)) die Verlustfunktion ist. Das Ziel ist, einen stationären Punkt θ∗∈Rd zu finden, so dass ∇f(θ∗)=0.
Im Vergleich zu bestehenden Methoden (wie der komplexen Form von Liu et al. 2020) ist die Lyapunov-Funktion dieses Papers einfach in der Form und passt sich natürlich an dynamische Lernraten an.
Durch Einführung der technischen Bedingung λtλt+1≤c (wobei 1≤c<β21) werden sowohl abnehmende als auch zunehmende Lernrate-Zeitpläne gleichzeitig behandelt.
Durch geschickte Wahl der Definition von At wird erfolgreich der Kreuzterm E[⟨∇f(θt),mt−1⟩] in der Analyse eliminiert, was ein Schlüsseltechnischer Schwerpunkt dieser Analyse ist.
Unter zunehmender Batch-Größen-Zeitplanung zeigen SGD, NSHB und SHB in der frühen Phase schnellen Gradientennorm-Abfall, aber Adam erreicht in der späteren Phase kleinere Gradientennorm.
Im Vergleich zu bestehenden Arbeiten bietet dieses Paper erstmals ein vollständiges theoretisches Rahmenwerk für dynamische Lernrate-Zeitpläne von SGDM und schließt eine wichtige theoretische Lücke.
Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size
Gesamtbewertung: Dies ist ein Paper mit soliden theoretischen Beiträgen, das das Problem der dynamischen SGDM-Zeitplanung durch Einführung einer vereinfachten Lyapunov-Funktion erfolgreich analysiert. Obwohl die Innovation relativ begrenzt ist, schließt es eine wichtige theoretische Lücke und bietet wertvolle Anleitung für praktische Anwendungen. Die theoretische Analyse ist rigoros und die experimentelle Validierung ist ausreichend – ein wertvoller Beitrag zum Bereich der Optimierungstheorie.