2025-11-20T19:04:15.290366

Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis

Kondo, Iiduka
We analyze the convergence behavior of stochastic gradient descent with momentum (SGDM) under dynamic learning-rate and batch-size schedules by introducing a novel and simpler Lyapunov function. We extend the existing theoretical framework to cover three practical scheduling strategies commonly used in deep learning: a constant batch size with a decaying learning rate, an increasing batch size with a decaying learning rate, and an increasing batch size with an increasing learning rate. Our results reveal a clear hierarchy in convergence: a constant batch size does not guarantee convergence of the expected gradient norm, whereas an increasing batch size does, and simultaneously increasing both the batch size and learning rate achieves a provably faster decay. Empirical results validate our theory, showing that dynamically scheduled SGDM significantly outperforms its fixed-hyperparameter counterpart in convergence speed. We also evaluated a warm-up schedule in experiments, which empirically outperformed all other strategies in convergence behavior.
academic

Ускорение SGDM посредством расписаний скорости обучения и размера пакета: анализ на основе функции Ляпунова

Основная информация

  • ID статьи: 2508.03105
  • Название: Accelerating SGDM via Learning Rate and Batch Size Schedules: A Lyapunov-Based Analysis
  • Авторы: Юити Кондо, Хидеаки Иидука (Университет Мэйдзи)
  • Категория: cs.LG (Машинное обучение)
  • Дата публикации: 10 октября 2025 г. (arXiv v2)
  • Ссылка на статью: https://arxiv.org/abs/2508.03105v2

Аннотация

В данной работе анализируется поведение сходимости стохастического градиентного спуска с импульсом (SGDM) при динамических расписаниях скорости обучения и размера пакета путём введения новой и более простой функции Ляпунова. Исследование расширяет существующие теоретические рамки, охватывая три практических стратегии расписания, часто используемые в глубоком обучении: постоянный размер пакета с убывающей скоростью обучения, возрастающий размер пакета с убывающей скоростью обучения, а также одновременное увеличение размера пакета и скорости обучения. Результаты выявляют чёткую иерархию сходимости: постоянный размер пакета не гарантирует сходимость ожидаемой нормы градиента, в то время как возрастающий размер пакета обеспечивает её, а одновременное увеличение размера пакета и скорости обучения достигает доказуемого более быстрого затухания. Экспериментальные результаты подтверждают теорию, демонстрируя, что SGDM с динамическим расписанием значительно превосходит соответствующие методы с фиксированными гиперпараметрами по скорости сходимости.

Исследовательский контекст и мотивация

Определение проблемы

Основная проблема, которую решает данное исследование: как посредством теоретического анализа направлять динамическое расписание скорости обучения и размера пакета в SGDM для достижения лучшей производительности сходимости.

Значимость

  1. Практические требования: динамические расписания скорости обучения (например, косинусное отжигание) широко применяются при обучении глубоких нейронных сетей, но им не хватает теоретического обоснования
  2. Повышение эффективности: увеличение размера пакета, как сообщается, повышает эффективность мини-пакетного SGD, однако теоретический анализ в рамках SGDM ограничен
  3. Теоретический пробел: существующий теоретический анализ SGDM в основном ограничивается фиксированной скоростью обучения; теоретическая база для динамических расписаний срочно нуждается в разработке

Ограничения существующих методов

  1. Umeda and Iiduka (2025): анализируют только динамические расписания для ванильного SGD, не рассматривая методы с импульсом
  2. Kamo and Iiduka (2025): исследуют сходимость SGDM при постоянной скорости обучения и возрастающем размере пакета, но не учитывают динамическую скорость обучения
  3. Liu et al. (2020): анализируют NSHB при фиксированной скорости обучения, но расширение на динамические расписания остаётся сложной задачей

Исследовательская мотивация

Заполнить пробел в теоретическом анализе динамических расписаний скорости обучения для SGDM и предоставить теоретическое руководство для практического обучения.

Основные вклады

  1. Новая функция Ляпунова: предложена упрощённая функция Ляпунова, адаптированная к динамическим расписаниям скорости обучения, более простая по сравнению с существующими методами
  2. Единая теоретическая база: установлена единая аналитическая база, охватывающая SHB и NSHB, применимая к различным стратегиям расписания
  3. Теоретическое расширение: расширен анализ Kamo and Iiduka (2025) с фиксированной скорости обучения на убывающую скорость обучения и исследован случай одновременного увеличения скорости обучения и размера пакета
  4. Иерархия сходимости: теоретически доказана упорядоченность производительности сходимости четырёх стратегий расписания и подтверждена экспериментально

Подробное описание методологии

Определение задачи

Исследуется задача минимизации эмпирического риска: minθRdf(θ)=1ni=1nfi(θ)\min_{\theta \in \mathbb{R}^d} f(\theta) = \frac{1}{n}\sum_{i=1}^n f_i(\theta), где fi(θ)=f(θ;(xi,yi))f_i(\theta) = f(\theta; (x_i, y_i)) — функция потерь. Цель состоит в нахождении стационарной точки θRd\theta^* \in \mathbb{R}^d такой, что f(θ)=0\nabla f(\theta^*) = 0.

Теоретическая база

Конструирование функции Ляпунова

Предложена новая функция Ляпунова:

f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$$ где $A_t \geq 0$ — детерминированный скаляр, зависящий только от $t$. Для метода NSHB: $$A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$$ #### Описание алгоритма **Алгоритм NSHB**: ``` m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t) θ_{t+1} = θ_t - η_t m_t ``` **Алгоритм SHB**: ``` m_t = βm_{t-1} + ∇f_{B_t}(θ_t) θ_{t+1} = θ_t - α_t m_t ``` ### Технические инновации #### 1. Упрощённая функция Ляпунова По сравнению с существующими методами (например, сложная форма Liu et al. 2020), функция Ляпунова в данной работе имеет простую форму и естественным образом адаптируется к динамической скорости обучения. #### 2. Единая аналитическая база Посредством введения технического условия $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (где $1 \leq c < \frac{1}{\beta^2}$) одновременно обрабатываются убывающие и возрастающие расписания скорости обучения. #### 3. Техника исключения перекрёстных членов Благодаря тщательному выбору определения $A_t$ успешно исключены перекрёстные члены $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ в анализе — это ключевая техническая сложность данного анализа. ## Экспериментальная установка ### Наборы данных - **Набор данных**: CIFAR-100 - **Модель**: ResNet-18 - **Количество эпох обучения**: 300 - **Коэффициент импульса**: β = 0.9 ### Аппаратная среда - **CPU**: двойной Intel Xeon Silver 4316 - **GPU**: NVIDIA Tesla A100 80GB - **Программное обеспечение**: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1 ### Стратегии расписания Исследуются четыре режима обучения: 1. **Постоянный размер пакета + убывающая скорость обучения**: размер пакета фиксирован на 128 2. **Возрастающий размер пакета + убывающая скорость обучения**: размер пакета удваивается каждые 30 эпох (2³ до 2¹²) 3. **Возрастающий размер пакета + возрастающая скорость обучения**: размер пакета и скорость обучения растут одновременно 4. **Возрастающий размер пакета + разминка скорости обучения**: расписание скорости обучения с фазой увеличения и последующего уменьшения ### Показатели оценки - Потери при обучении - Точность тестирования - Норма полного градиента $\|\nabla f(\theta_e)\|$ ## Экспериментальные результаты ### Основные теоретические результаты #### Теорема 1: Единая граница сходимости При выполнении предположений для NSHB и SHB имеет место: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$$ где: - $B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$ - $V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$ - $C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB) #### Анализ скорости сходимости **Случай постоянного размера пакета**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$$ **Случай возрастающего размера пакета**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$$ **Одновременное увеличение размера пакета и скорости обучения**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$$ ### Экспериментальная проверка #### Упорядоченность производительности сходимости Экспериментальные результаты полностью подтверждают предсказанную теорией иерархию сходимости: 1. **Наихудший**: постоянный размер пакета + убывающая скорость обучения 2. **Средний**: возрастающий размер пакета + убывающая скорость обучения 3. **Хороший**: возрастающий размер пакета + возрастающая скорость обучения 4. **Оптимальный**: возрастающий размер пакета + разминка скорости обучения #### Конкретные числовые результаты - NSHB и SHB демонстрируют одинаковую упорядоченность при сходимости нормы градиента - Стратегия разминки достигает наилучшей производительности по точности тестирования - Для SHB высокая скорость обучения, хотя и обеспечивает более быстрое затухание нормы градиента, низкая скорость обучения достигает лучшей точности тестирования #### Сравнение с другими оптимизаторами При возрастающем расписании размера пакета SGD, NSHB и SHB демонстрируют быстрое снижение нормы градиента на ранних этапах, однако Adam достигает меньшей нормы градиента на поздних этапах. ## Связанные работы ### Теоретический анализ методов с импульсом - **Liu et al. (2020)**: пионерская работа по NSHB при фиксированной скорости обучения - **Gadat et al. (2018), Mai and Johansson (2020)**: анализ сходимости на основе функции Ляпунова - **Wilson et al. (2021), Defazio (2021)**: теоретический анализ ускоренных методов ### Расписания скорости обучения и размера пакета - **Umeda and Iiduka (2025)**: анализ динамических расписаний для ванильного SGD - **Kamo and Iiduka (2025)**: анализ SGDM при возрастающем размере пакета - **Smith et al. (2018)**: эффективность расписаний размера пакета на практике ### Преимущества данной работы По сравнению с существующими работами, данная статья впервые предоставляет полную теоретическую базу для динамических расписаний SGDM, заполняя важный теоретический пробел. ## Заключение и обсуждение ### Основные выводы 1. **Теоретический вклад**: установлена полная теоретическая база для динамических расписаний SGDM 2. **Иерархия сходимости**: доказано, что возрастающий размер пакета превосходит постоянный размер пакета, а одновременное увеличение обоих показателей даёт наилучший результат 3. **Экспериментальная проверка**: теоретические предсказания высоко согласуются с экспериментальными результатами ### Ограничения 1. **Предположения**: требуются предположения об L-гладкости и ограниченности дисперсии 2. **Ограничения скорости обучения**: техническое условие $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ ограничивает скорость роста скорости обучения 3. **Масштаб экспериментов**: проверка проведена только на CIFAR-100 и ResNet-18, отсутствуют крупномасштабные эксперименты ### Направления будущих исследований 1. **Расписание коэффициента импульса**: расширение анализа на динамические расписания коэффициента импульса $\beta$ 2. **Другие оптимизаторы**: распространение анализа на адаптивные методы, такие как Adam 3. **Практическое применение**: проверка на более крупномасштабных задачах глубокого обучения ## Глубокая оценка ### Достоинства 1. **Теоретическая строгость**: конструирование функции Ляпунова остроумно, математические выводы строги 2. **Практическая ценность**: предоставляет теоретическое руководство для выбора гиперпараметров при практическом обучении 3. **Единая база**: одновременный анализ SHB и NSHB обладает хорошей универсальностью 4. **Достаточная экспериментальная проверка**: теория и экспериментальные результаты высоко согласуются, повышая достоверность выводов ### Недостатки 1. **Ограниченная новизна**: в основном расширение существующих методов, относительно ограниченная основная инновация 2. **Масштаб экспериментов**: эксперименты ограничены задачами среднего масштаба, отсутствует крупномасштабная проверка 3. **Практические ограничения**: технические условия в теоретическом анализе могут быть сложны для строгого выполнения на практике 4. **Недостаточное сравнение**: отсутствует глубокое сравнение с новейшими адаптивными методами оптимизации ### Влияние 1. **Теоретическая ценность**: предоставляет важную теоретическую основу для динамических расписаний SGDM 2. **Практическое значение**: направляет выбор гиперпараметров при практическом обучении глубоких нейронных сетей 3. **Воспроизводимость**: код открыт, эксперименты воспроизводимы ### Применимые сценарии 1. **Обучение глубоких нейронных сетей**: особенно подходит для сценариев, требующих точной настройки расписаний скорости обучения и размера пакета 2. **Теоретические исследования**: предоставляет основу для дальнейших исследований в области теории оптимизации 3. **Инженерная практика**: направляет автоматическую настройку гиперпараметров в практических системах обучения ## Библиография - Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum - Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent - Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum - Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size --- **Общая оценка**: это статья с прочным теоретическим вкладом, которая успешно анализирует проблему динамических расписаний SGDM посредством введения упрощённой функции Ляпунова. Хотя инновационность относительно ограничена, она заполняет важный теоретический пробел и предоставляет ценное руководство для практического применения. Теоретический анализ строг, экспериментальная проверка достаточна — это полезный вклад в область теории оптимизации.