2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka

We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.

academic

Beschleunigung von SGDM durch Lernrate- und Batch-Größen-Zeitpläne: Eine Lyapunov-basierte Analyse

Grundlegende Informationen

Paper-ID: 2508.03105
Titel: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Autoren: Yuichi Kondo, Hideaki Iiduka (Meiji University)
Klassifizierung: cs.LG (Maschinelles Lernen)
Veröffentlichungsdatum: 10. Oktober 2025 (arXiv v2)
Paper-Link: https://arxiv.org/abs/2508.03105v2

Zusammenfassung

Dieses Paper analysiert das Konvergenzverhalten von stochastischem Gradientenabstieg mit Momentum (SGDM) unter dynamischen Lernrate- und Batch-Größen-Zeitplänen durch Einführung einer neuartigen und vereinfachten Lyapunov-Funktion. Die Forschung erweitert das bestehende theoretische Rahmenwerk und umfasst drei praktische Zeitplanstrategien, die häufig im Deep Learning verwendet werden: konstante Batch-Größe mit abnehmender Lernrate, zunehmende Batch-Größe mit abnehmender Lernrate sowie gleichzeitig zunehmende Batch-Größe und Lernrate. Die Ergebnisse offenbaren eine klare Konvergenzhierarchie: konstante Batch-Größe garantiert keine Konvergenz der erwarteten Gradientennorm, während zunehmende Batch-Größe dies ermöglicht, und gleichzeitig zunehmende Batch-Größe und Lernrate erzielen nachweislich schnellere Abnahme. Experimentelle Ergebnisse validieren die Theorie und zeigen, dass dynamisch geplantes SGDM in der Konvergenzgeschwindigkeit deutlich besser ist als entsprechende Methoden mit festen Hyperparametern.

Forschungshintergrund und Motivation

Problemdefinition

Das Kernproblem dieser Forschung ist: Wie können Lernrate und Batch-Größe in SGDM durch theoretische Analyse dynamisch geplant werden, um bessere Konvergenzleistung zu erreichen?

Bedeutung

Praktische Anforderung: Dynamische Lernrate-Zeitpläne (wie Cosine Annealing) werden im Deep-Learning-Training weit verbreitet verwendet, verfügen aber über begrenzte theoretische Unterstützung
Effizienzsteigerung: Erhöhung der Batch-Größe wurde berichtet, um die Effizienz von Mini-Batch SGD zu verbessern, aber die theoretische Analyse im SGDM-Rahmen ist begrenzt
Theoretische Lücke: Die bestehende SGDM-Theorieanalyse ist hauptsächlich auf feste Lernraten beschränkt; ein theoretisches Rahmenwerk für dynamische Zeitpläne ist dringend erforderlich

Einschränkungen bestehender Methoden

Umeda and Iiduka (2025): Analysiert nur dynamische Zeitpläne für Vanilla SGD, nicht für Momentum-Methoden
Kamo and Iiduka (2025): Untersucht SGDM-Konvergenz unter konstanter Lernrate und zunehmender Batch-Größe, berücksichtigt aber keine dynamische Lernrate
Liu et al. (2020): Analysiert NSHB unter fester Lernrate, aber die Erweiterung auf dynamische Zeitpläne bleibt eine Herausforderung

Forschungsmotivation

Schließung der Lücke in der theoretischen Analyse dynamischer Lernrate-Zeitpläne für SGDM und Bereitstellung theoretischer Anleitung für praktisches Training.

Kernbeiträge

Neuartige Lyapunov-Funktion: Vorschlag einer vereinfachten Lyapunov-Funktion, die sich an dynamische Lernrate-Zeitpläne anpasst und einfacher ist als bestehende Methoden
Einheitliches theoretisches Rahmenwerk: Etablierung eines einheitlichen Analyserahmens, der SHB und NSHB abdeckt und auf verschiedene Zeitplanstrategien anwendbar ist
Theoretische Erweiterung: Erweiterung der Analyse von Kamo and Iiduka (2025) von konstanter Lernrate auf abnehmende Lernrate und Untersuchung des gleichzeitigen Anstiegs von Lernrate und Batch-Größe
Konvergenzhierarchie: Theoretischer Nachweis der Konvergenzleistungsordnung von vier Zeitplanstrategien mit experimenteller Validierung

Methodische Details

Aufgabendefinition

Untersuchung des empirischen Risikominimierungsproblems: $\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta)$ , wobei $f_i(\theta) = f(\theta; (x_i, y_i))$ die Verlustfunktion ist. Das Ziel ist, einen stationären Punkt $\theta^* \in \mathbb{R}^d$ zu finden, so dass $\nabla f(\theta^*) = 0$ .

Theoretisches Rahmenwerk

Lyapunov-Funktionsdesign

Vorschlag einer neuen Lyapunov-Funktion: $L_t := \begin{cases} f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$

wobei $A_t \geq 0$ ein deterministischer Skalar ist, der nur von $t$ abhängt. Für die NSHB-Methode: $A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$

Algorithmusbeschreibung

NSHB-Algorithmus:

m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - η_t m_t

SHB-Algorithmus:

m_t = βm_{t-1} + ∇f_{B_t}(θ_t)
θ_{t+1} = θ_t - α_t m_t

Technische Innovationspunkte

1. Vereinfachte Lyapunov-Funktion

Im Vergleich zu bestehenden Methoden (wie der komplexen Form von Liu et al. 2020) ist die Lyapunov-Funktion dieses Papers einfach in der Form und passt sich natürlich an dynamische Lernraten an.

2. Einheitlicher Analyserahmen

Durch Einführung der technischen Bedingung $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (wobei $1 \leq c < \frac{1}{\beta^2}$ ) werden sowohl abnehmende als auch zunehmende Lernrate-Zeitpläne gleichzeitig behandelt.

3. Kreuzterm-Eliminierungstechnik

Durch geschickte Wahl der Definition von $A_t$ wird erfolgreich der Kreuzterm $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ in der Analyse eliminiert, was ein Schlüsseltechnischer Schwerpunkt dieser Analyse ist.

Experimentelle Einrichtung

Datensätze

Datensatz: CIFAR-100
Modell: ResNet-18
Trainings-Epochen: 300 Epochen
Momentum-Koeffizient: β = 0,9

Hardware-Umgebung

CPU: Dual Intel Xeon Silver 4316
GPU: NVIDIA Tesla A100 80GB
Software: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1

Zeitplanstrategien

Untersuchung von vier Trainings-Zeitplänen:

Konstante Batch-Größe + abnehmende Lernrate: Batch-Größe fest auf 128
Zunehmende Batch-Größe + abnehmende Lernrate: Batch-Größe verdoppelt sich alle 30 Epochen (2³ bis 2¹²)
Zunehmende Batch-Größe + zunehmende Lernrate: Batch-Größe und Lernrate wachsen gleichzeitig
Zunehmende Batch-Größe + Warm-up-Lernrate: Lernrate-Zeitplan mit Anstieg und Abfall

Bewertungsmetriken

Trainingsverlust
Test-Genauigkeit
Vollständige Gradientennorm $\|\nabla f(\theta_e)\|$

Experimentelle Ergebnisse

Haupttheoretische Ergebnisse

Satz 1: Einheitliche Konvergenzschranke

Unter den Annahmebedingungen gilt für NSHB und SHB: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$

wobei:

$B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$
$V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$
$C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB)

Konvergenzratenanalyse

Konstante Batch-Größe: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$

Zunehmende Batch-Größe: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$

Gleichzeitig zunehmende Batch-Größe und Lernrate: $\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$

Experimentelle Validierung

Konvergenzleistungsordnung

Experimentelle Ergebnisse validieren vollständig die theoretisch vorhergesagte Konvergenzhierarchie:

Am schlechtesten: Konstante Batch-Größe + abnehmende Lernrate
Mittel: Zunehmende Batch-Größe + abnehmende Lernrate
Besser: Zunehmende Batch-Größe + zunehmende Lernrate
Optimal: Zunehmende Batch-Größe + Warm-up-Lernrate

Spezifische numerische Ergebnisse

NSHB und SHB zeigen die gleiche Ordnung bei der Konvergenz der Gradientennorm
Die Warm-up-Strategie erreicht auch die beste Leistung bei der Test-Genauigkeit
Für SHB führt hohe Lernrate zu schnellerem Gradientennorm-Abfall, aber niedrige Lernrate erreicht bessere Test-Genauigkeit

Vergleich mit anderen Optimierern

Unter zunehmender Batch-Größen-Zeitplanung zeigen SGD, NSHB und SHB in der frühen Phase schnellen Gradientennorm-Abfall, aber Adam erreicht in der späteren Phase kleinere Gradientennorm.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Theoretischer Beitrag: Etablierung eines vollständigen theoretischen Rahmens für dynamische SGDM-Zeitpläne
Konvergenzhierarchie: Nachweis, dass zunehmende Batch-Größe besser ist als konstante Batch-Größe, und gleichzeitiger Anstieg beider ist optimal
Experimentelle Validierung: Theoretische Vorhersagen stimmen stark mit experimentellen Ergebnissen überein

Einschränkungen

Annahmebedingungen: Erfordert L-Glattheit und begrenzte Varianzannahmen
Lernrate-Beschränkungen: Technische Bedingung $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ begrenzt die Lernrate-Wachstumsgeschwindigkeit
Experimenteller Umfang: Validierung nur auf CIFAR-100 und ResNet-18, mangelnde großflächige Experimente

Zukünftige Richtungen

Momentum-Koeffizient-Zeitplanung: Erweiterung auf dynamische Zeitplanung des Momentum-Koeffizienten $\beta$
Andere Optimierer: Erweiterung der Analyse auf adaptive Methoden wie Adam
Praktische Anwendung: Validierung in größeren Deep-Learning-Aufgaben

Tiefgreifende Bewertung

Stärken

Theoretische Strenge: Lyapunov-Funktionsdesign ist geschickt, mathematische Herleitung ist rigoros
Praktischer Wert: Bietet theoretische Anleitung für Hyperparameter-Zeitplanung im praktischen Training
Einheitliches Rahmenwerk: Gleichzeitige Analyse von SHB und NSHB mit guter Allgemeingültigkeit
Ausreichende Experimente: Theoretische und experimentelle Ergebnisse stimmen stark überein, was die Glaubwürdigkeit der Schlussfolgerungen erhöht

Mängel

Begrenzte Innovation: Hauptsächlich Erweiterung bestehender Techniken, relativ begrenzte Kerninnnovation
Experimenteller Umfang: Experimente beschränkt auf mittlere Probleme, mangelnde großflächige Validierung
Praktische Beschränkungen: Technische Bedingungen in der theoretischen Analyse können in der Praxis schwer streng erfüllt werden
Unzureichender Vergleich: Mangelnde tiefgreifende Vergleiche mit neuesten adaptiven Optimierungsmethoden

Einflussfähigkeit

Theoretischer Wert: Bietet wichtige theoretische Grundlagen für dynamische SGDM-Zeitpläne
Praktische Bedeutung: Leitet Hyperparameter-Einstellung im praktischen Deep-Learning-Training an
Reproduzierbarkeit: Code ist öffentlich, Experimente sind reproduzierbar

Anwendungsszenarien

Deep-Learning-Training: Besonders geeignet für Szenarien, die präzise Lernrate- und Batch-Größen-Zeitplanung erfordern
Theoretische Forschung: Bietet Grundlagen für weitere Optimierungstheorie-Forschung
Ingenieurpraxis: Bietet Anleitung für automatische Hyperparameter-Anpassung in praktischen Trainingssystemen

Referenzen

Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum
Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent
Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum
Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size

Gesamtbewertung: Dies ist ein Paper mit soliden theoretischen Beiträgen, das das Problem der dynamischen SGDM-Zeitplanung durch Einführung einer vereinfachten Lyapunov-Funktion erfolgreich analysiert. Obwohl die Innovation relativ begrenzt ist, schließt es eine wichtige theoretische Lücke und bietet wertvolle Anleitung für praktische Anwendungen. Die theoretische Analyse ist rigoros und die experimentelle Validierung ist ausreichend – ein wertvoller Beitrag zum Bereich der Optimierungstheorie.