2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka

We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.

academic

Ускорение SGDM посредством расписаний скорости обучения и размера пакета: анализ на основе функции Ляпунова

Основная информация

ID статьи: 2508.03105
Название: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
Авторы: Юити Кондо, Хидеаки Иидука (Университет Мэйдзи)
Категория: cs.LG (Машинное обучение)
Дата публикации: 10 октября 2025 г. (arXiv v2)
Ссылка на статью: https://arxiv.org/abs/2508.03105v2

Аннотация

В данной работе анализируется поведение сходимости стохастического градиентного спуска с импульсом (SGDM) при динамических расписаниях скорости обучения и размера пакета путём введения новой и более простой функции Ляпунова. Исследование расширяет существующие теоретические рамки, охватывая три практических стратегии расписания, часто используемые в глубоком обучении: постоянный размер пакета с убывающей скоростью обучения, возрастающий размер пакета с убывающей скоростью обучения, а также одновременное увеличение размера пакета и скорости обучения. Результаты выявляют чёткую иерархию сходимости: постоянный размер пакета не гарантирует сходимость ожидаемой нормы градиента, в то время как возрастающий размер пакета обеспечивает её, а одновременное увеличение размера пакета и скорости обучения достигает доказуемого более быстрого затухания. Экспериментальные результаты подтверждают теорию, демонстрируя, что SGDM с динамическим расписанием значительно превосходит соответствующие методы с фиксированными гиперпараметрами по скорости сходимости.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как посредством теоретического анализа направлять динамическое расписание скорости обучения и размера пакета в SGDM для достижения лучшей производительности сходимости.

Значимость

Практические требования: динамические расписания скорости обучения (например, косинусное отжигание) широко применяются при обучении глубоких нейронных сетей, но им не хватает теоретического обоснования
Повышение эффективности: увеличение размера пакета, как сообщается, повышает эффективность мини-пакетного SGD, однако теоретический анализ в рамках SGDM ограничен
Теоретический пробел: существующий теоретический анализ SGDM в основном ограничивается фиксированной скоростью обучения; теоретическая база для динамических расписаний срочно нуждается в разработке

Ограничения существующих методов

Umeda and Iiduka (2025): анализируют только динамические расписания для ванильного SGD, не рассматривая методы с импульсом
Kamo and Iiduka (2025): исследуют сходимость SGDM при постоянной скорости обучения и возрастающем размере пакета, но не учитывают динамическую скорость обучения
Liu et al. (2020): анализируют NSHB при фиксированной скорости обучения, но расширение на динамические расписания остаётся сложной задачей

Исследовательская мотивация

Заполнить пробел в теоретическом анализе динамических расписаний скорости обучения для SGDM и предоставить теоретическое руководство для практического обучения.

Основные вклады

Новая функция Ляпунова: предложена упрощённая функция Ляпунова, адаптированная к динамическим расписаниям скорости обучения, более простая по сравнению с существующими методами
Единая теоретическая база: установлена единая аналитическая база, охватывающая SHB и NSHB, применимая к различным стратегиям расписания
Теоретическое расширение: расширен анализ Kamo and Iiduka (2025) с фиксированной скорости обучения на убывающую скорость обучения и исследован случай одновременного увеличения скорости обучения и размера пакета
Иерархия сходимости: теоретически доказана упорядоченность производительности сходимости четырёх стратегий расписания и подтверждена экспериментально

Подробное описание методологии

Определение задачи

Исследуется задача минимизации эмпирического риска: $\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta)$ , где $f_i(\theta) = f(\theta; (x_i, y_i))$ — функция потерь. Цель состоит в нахождении стационарной точки $\theta^* \in \mathbb{R}^d$ такой, что $\nabla f(\theta^*) = 0$ .

Теоретическая база

Конструирование функции Ляпунова

Предложена новая функция Ляпунова: