В данной работе анализируется поведение сходимости стохастического градиентного спуска с импульсом (SGDM) при динамических расписаниях скорости обучения и размера пакета путём введения новой и более простой функции Ляпунова. Исследование расширяет существующие теоретические рамки, охватывая три практических стратегии расписания, часто используемые в глубоком обучении: постоянный размер пакета с убывающей скоростью обучения, возрастающий размер пакета с убывающей скоростью обучения, а также одновременное увеличение размера пакета и скорости обучения. Результаты выявляют чёткую иерархию сходимости: постоянный размер пакета не гарантирует сходимость ожидаемой нормы градиента, в то время как возрастающий размер пакета обеспечивает её, а одновременное увеличение размера пакета и скорости обучения достигает доказуемого более быстрого затухания. Экспериментальные результаты подтверждают теорию, демонстрируя, что SGDM с динамическим расписанием значительно превосходит соответствующие методы с фиксированными гиперпараметрами по скорости сходимости.
Основная проблема, которую решает данное исследование: как посредством теоретического анализа направлять динамическое расписание скорости обучения и размера пакета в SGDM для достижения лучшей производительности сходимости.
Заполнить пробел в теоретическом анализе динамических расписаний скорости обучения для SGDM и предоставить теоретическое руководство для практического обучения.
Исследуется задача минимизации эмпирического риска: , где — функция потерь. Цель состоит в нахождении стационарной точки такой, что .
Предложена новая функция Ляпунова:
f(\theta_t), & t = 0 \\ f(\theta_t) + A_{t-1}\|m_{t-1}\|^2, & t > 0 \end{cases}$$ где $A_t \geq 0$ — детерминированный скаляр, зависящий только от $t$. Для метода NSHB: $$A_t := \frac{\eta_t - L(1-\beta)\eta_t^2}{2(1-\beta)}$$ #### Описание алгоритма **Алгоритм NSHB**: ``` m_t = βm_{t-1} + (1-β)∇f_{B_t}(θ_t) θ_{t+1} = θ_t - η_t m_t ``` **Алгоритм SHB**: ``` m_t = βm_{t-1} + ∇f_{B_t}(θ_t) θ_{t+1} = θ_t - α_t m_t ``` ### Технические инновации #### 1. Упрощённая функция Ляпунова По сравнению с существующими методами (например, сложная форма Liu et al. 2020), функция Ляпунова в данной работе имеет простую форму и естественным образом адаптируется к динамической скорости обучения. #### 2. Единая аналитическая база Посредством введения технического условия $\frac{\lambda_{t+1}}{\lambda_t} \leq c$ (где $1 \leq c < \frac{1}{\beta^2}$) одновременно обрабатываются убывающие и возрастающие расписания скорости обучения. #### 3. Техника исключения перекрёстных членов Благодаря тщательному выбору определения $A_t$ успешно исключены перекрёстные члены $E[\langle\nabla f(\theta_t), m_{t-1}\rangle]$ в анализе — это ключевая техническая сложность данного анализа. ## Экспериментальная установка ### Наборы данных - **Набор данных**: CIFAR-100 - **Модель**: ResNet-18 - **Количество эпох обучения**: 300 - **Коэффициент импульса**: β = 0.9 ### Аппаратная среда - **CPU**: двойной Intel Xeon Silver 4316 - **GPU**: NVIDIA Tesla A100 80GB - **Программное обеспечение**: Python 3.8.2, CUDA 12.2, PyTorch 2.4.1 ### Стратегии расписания Исследуются четыре режима обучения: 1. **Постоянный размер пакета + убывающая скорость обучения**: размер пакета фиксирован на 128 2. **Возрастающий размер пакета + убывающая скорость обучения**: размер пакета удваивается каждые 30 эпох (2³ до 2¹²) 3. **Возрастающий размер пакета + возрастающая скорость обучения**: размер пакета и скорость обучения растут одновременно 4. **Возрастающий размер пакета + разминка скорости обучения**: расписание скорости обучения с фазой увеличения и последующего уменьшения ### Показатели оценки - Потери при обучении - Точность тестирования - Норма полного градиента $\|\nabla f(\theta_e)\|$ ## Экспериментальные результаты ### Основные теоретические результаты #### Теорема 1: Единая граница сходимости При выполнении предположений для NSHB и SHB имеет место: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|^2] \leq 2C_{alg}(f(\theta_0) - f^*)B_T + \sigma^2 V_T$$ где: - $B_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}$ - $V_T = \frac{1}{\sum_{t=0}^{T-1}\lambda_t}\sum_{t=0}^{T-1}\frac{\lambda_t}{b_t}$ - $C_{alg} = (1-\beta)^{-1}$ (NSHB), $C_{alg} = 1$ (SHB) #### Анализ скорости сходимости **Случай постоянного размера пакета**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\sqrt{\frac{1}{T} + \frac{1}{b}}\right)$$ **Случай возрастающего размера пакета**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\sqrt{T}}\right)$$ **Одновременное увеличение размера пакета и скорости обучения**: $$\min_{0 \leq t \leq T-1} E[\|\nabla f(\theta_t)\|] = O\left(\frac{1}{\gamma^{M/2}}\right)$$ ### Экспериментальная проверка #### Упорядоченность производительности сходимости Экспериментальные результаты полностью подтверждают предсказанную теорией иерархию сходимости: 1. **Наихудший**: постоянный размер пакета + убывающая скорость обучения 2. **Средний**: возрастающий размер пакета + убывающая скорость обучения 3. **Хороший**: возрастающий размер пакета + возрастающая скорость обучения 4. **Оптимальный**: возрастающий размер пакета + разминка скорости обучения #### Конкретные числовые результаты - NSHB и SHB демонстрируют одинаковую упорядоченность при сходимости нормы градиента - Стратегия разминки достигает наилучшей производительности по точности тестирования - Для SHB высокая скорость обучения, хотя и обеспечивает более быстрое затухание нормы градиента, низкая скорость обучения достигает лучшей точности тестирования #### Сравнение с другими оптимизаторами При возрастающем расписании размера пакета SGD, NSHB и SHB демонстрируют быстрое снижение нормы градиента на ранних этапах, однако Adam достигает меньшей нормы градиента на поздних этапах. ## Связанные работы ### Теоретический анализ методов с импульсом - **Liu et al. (2020)**: пионерская работа по NSHB при фиксированной скорости обучения - **Gadat et al. (2018), Mai and Johansson (2020)**: анализ сходимости на основе функции Ляпунова - **Wilson et al. (2021), Defazio (2021)**: теоретический анализ ускоренных методов ### Расписания скорости обучения и размера пакета - **Umeda and Iiduka (2025)**: анализ динамических расписаний для ванильного SGD - **Kamo and Iiduka (2025)**: анализ SGDM при возрастающем размере пакета - **Smith et al. (2018)**: эффективность расписаний размера пакета на практике ### Преимущества данной работы По сравнению с существующими работами, данная статья впервые предоставляет полную теоретическую базу для динамических расписаний SGDM, заполняя важный теоретический пробел. ## Заключение и обсуждение ### Основные выводы 1. **Теоретический вклад**: установлена полная теоретическая база для динамических расписаний SGDM 2. **Иерархия сходимости**: доказано, что возрастающий размер пакета превосходит постоянный размер пакета, а одновременное увеличение обоих показателей даёт наилучший результат 3. **Экспериментальная проверка**: теоретические предсказания высоко согласуются с экспериментальными результатами ### Ограничения 1. **Предположения**: требуются предположения об L-гладкости и ограниченности дисперсии 2. **Ограничения скорости обучения**: техническое условие $\frac{\lambda_{t+1}}{\lambda_t} \leq c < \frac{1}{\beta^2}$ ограничивает скорость роста скорости обучения 3. **Масштаб экспериментов**: проверка проведена только на CIFAR-100 и ResNet-18, отсутствуют крупномасштабные эксперименты ### Направления будущих исследований 1. **Расписание коэффициента импульса**: расширение анализа на динамические расписания коэффициента импульса $\beta$ 2. **Другие оптимизаторы**: распространение анализа на адаптивные методы, такие как Adam 3. **Практическое применение**: проверка на более крупномасштабных задачах глубокого обучения ## Глубокая оценка ### Достоинства 1. **Теоретическая строгость**: конструирование функции Ляпунова остроумно, математические выводы строги 2. **Практическая ценность**: предоставляет теоретическое руководство для выбора гиперпараметров при практическом обучении 3. **Единая база**: одновременный анализ SHB и NSHB обладает хорошей универсальностью 4. **Достаточная экспериментальная проверка**: теория и экспериментальные результаты высоко согласуются, повышая достоверность выводов ### Недостатки 1. **Ограниченная новизна**: в основном расширение существующих методов, относительно ограниченная основная инновация 2. **Масштаб экспериментов**: эксперименты ограничены задачами среднего масштаба, отсутствует крупномасштабная проверка 3. **Практические ограничения**: технические условия в теоретическом анализе могут быть сложны для строгого выполнения на практике 4. **Недостаточное сравнение**: отсутствует глубокое сравнение с новейшими адаптивными методами оптимизации ### Влияние 1. **Теоретическая ценность**: предоставляет важную теоретическую основу для динамических расписаний SGDM 2. **Практическое значение**: направляет выбор гиперпараметров при практическом обучении глубоких нейронных сетей 3. **Воспроизводимость**: код открыт, эксперименты воспроизводимы ### Применимые сценарии 1. **Обучение глубоких нейронных сетей**: особенно подходит для сценариев, требующих точной настройки расписаний скорости обучения и размера пакета 2. **Теоретические исследования**: предоставляет основу для дальнейших исследований в области теории оптимизации 3. **Инженерная практика**: направляет автоматическую настройку гиперпараметров в практических системах обучения ## Библиография - Liu, Y., Gao, Y., and Yin, W. (2020). An improved analysis of stochastic gradient descent with momentum - Umeda, H. and Iiduka, H. (2025). Increasing both batch size and learning rate accelerates stochastic gradient descent - Kamo, K. and Iiduka, H. (2025). Increasing batch size improves convergence of stochastic gradient descent with momentum - Smith, S. L., Kindermans, P.-J., and Le, Q. V. (2018). Don't decay the learning rate, increase the batch size --- **Общая оценка**: это статья с прочным теоретическим вкладом, которая успешно анализирует проблему динамических расписаний SGDM посредством введения упрощённой функции Ляпунова. Хотя инновационность относительно ограничена, она заполняет важный теоретический пробел и предоставляет ценное руководство для практического применения. Теоретический анализ строг, экспериментальная проверка достаточна — это полезный вклад в область теории оптимизации.