2025-11-27T01:52:18.796624

On the Limits of Momentum in Decentralized and Federated Optimization

Zaccone, Karimireddy, Masone

Recent works have explored the use of momentum in local methods to enhance distributed SGD. This is particularly appealing in Federated Learning (FL), where momentum intuitively appears as a solution to mitigate the effects of statistical heterogeneity. Despite recent progress in this direction, it is still unclear if momentum can guarantee convergence under unbounded heterogeneity in decentralized scenarios, where only some workers participate at each round. In this work we analyze momentum under cyclic client participation, and theoretically prove that it remains inevitably affected by statistical heterogeneity. Similarly to SGD, we prove that decreasing step-sizes do not help either: in fact, any schedule decreasing faster than $Î\left(1/t\right)$ leads to convergence to a constant value that depends on the initialization and the heterogeneity bound. Numerical results corroborate the theory, and deep learning experiments confirm its relevance for realistic settings.

academic

О пределах импульса в децентрализованной и федеративной оптимизации

Основная информация

ID статьи: 2511.20168
Название: On the Limits of Momentum in Decentralized and Federated Optimization
Авторы: Riccardo Zaccone (Политехнический университет Турина), Sai Praneeth Karimireddy (USC), Carlo Masone (Политехнический университет Турина)
Классификация: cs.LG (Машинное обучение), cs.AI
Дата публикации: Ноябрь 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2511.20168

Аннотация

В данной статье глубоко исследуются теоретические ограничения импульса (momentum) в федеративном обучении и децентрализованной оптимизации. Хотя недавние исследования изучали использование импульса в локальных методах для улучшения распределённого SGD, особенно в федеративном обучении для смягчения влияния статистической гетерогенности, остаётся неясным, может ли импульс гарантировать сходимость при неограниченной гетерогенности в децентрализованных сценариях с частичным участием клиентов. Посредством теоретического анализа циклических моделей участия клиентов в статье доказывается, что импульс неизбежно подвержен влиянию статистической гетерогенности. Кроме того, убывающие размеры шагов не помогают: любое расписание с убыванием быстрее, чем Θ(1/t), приводит к сходимости к константе, зависящей от инициализации и границы гетерогенности. Численные эксперименты и эксперименты глубокого обучения подтверждают корректность теории и её релевантность в практических сценариях.

Исследовательский контекст и мотивация

Основная проблема

Основная проблема, которую решает данная статья: Может ли классический метод импульса гарантировать сходимость при неограниченной гетерогенности в децентрализованных сценариях обучения с частичным участием клиентов?

Важность проблемы

Практические требования федеративного обучения: Современные приложения глубокого обучения требуют обучения на распределённых хранилищах данных или персональных устройствах, где клиенты часто не могут участвовать в каждом раунде (из-за сетевых сбоев, ограничений конфиденциальности или временной недоступности)
Вызовы статистической гетерогенности: Неидентичное распределение данных клиентов (non-IID) приводит к дрейфу клиентов (client drift) и смещённым обновлениям сервера
Недостаточное теоретическое понимание: Несмотря на широкое применение импульса в распределённых алгоритмах, теоретическое понимание его поведения в децентрализованной среде остаётся неполным

Ограничения существующих методов

Алгоритмы на основе импульса (FedAvgM и FedCM) хорошо работают на практике, но не имеют теоретических гарантий при частичном участии
Существующие теоретические результаты:
- 8 доказано, что при полном участии импульс может сходиться при неограниченной гетерогенности
- 9 предложенный GHBM также обеспечивает аналогичные гарантии при циклическом частичном участии
- Но теоретические свойства классического импульса при частичном участии остаются неясными

Исследовательская мотивация

Посредством строгого теоретического анализа уточнить фундаментальные ограничения классических методов импульса и обеспечить теоретическое руководство для разработки алгоритмов федеративного обучения.

Основные вклады

Основные вклады статьи включают:

Теоретическое доказательство того, что импульс не может устранить влияние гетерогенности: При циклической выборке клиентов формально доказано, что импульс не может устранить влияние гетерогенности данных — центральной проблемы в децентрализованном и федеративном обучении
Отрицательные результаты для убывающих размеров шагов: Доказано, что любое расписание размера шага с убыванием быстрее, чем Θ(1/t), приводит к сходимости к константе, зависящей от инициализации и границы гетерогенности, а не к оптимальному решению
Систематическая аналитическая структура: Посредством моделирования динамики алгоритма как дискретной линейной системы обеспечивается чёткое разложение:
- Нулевой входной отклик (zero-input response) захватывает общую цель всех клиентов
- Нулевой состояний отклик (zero-state response) изолирует цели гетерогенности
Экспериментальная верификация: Посредством численных экспериментов на теоретических задачах и экспериментов глубокого обучения (CIFAR-10) верифицируются теоретические находки в практических сценариях

Подробное описание методологии

Определение задачи

Рассмотрим распределённую систему обучения, где множество клиентов S сотрудничают для решения задачи обучения, формализуемой как задача оптимизации конечной суммы:

$\theta^* = \arg\min_{\theta \in \mathbb{R}^d} \left[ f(\theta) := \frac{1}{|S|} \sum_{i \in S} f_i(\theta) \right]$

где:

$f_i(\theta)$ — локальная целевая функция клиента $i$
$f(\theta)$ — глобальная целевая функция
На каждом раунде $t$ участвует только подмножество $S_t \subset S$ клиентов (частичное участие)

Теоретическая аналитическая структура

1. Конструирование минимальной задачи гетерогенности

Для анализа поведения импульса при гетерогенности сконструирована наиболее благоприятная для импульса минимальная сценария:

Два клиента: $f_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta$ , $f_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta$
Циклическая выборка: На каждом раунде поочередно выбирается один клиент
Глобальная цель: $f(\theta) = \frac{1}{2}(f_1(\theta) + f_2(\theta)) = \frac{\mu}{2}\theta^2$ , оптимальное решение $\theta^* = 0$

Эта установка удовлетворяет:

$\mu$ -сильной выпуклости (Предположение III.1)
Ограниченной разнице градиентов: $\frac{1}{|S|}\sum_{i=1}^{|S|} \|\nabla f_i(\theta) - \nabla f(\theta)\| \leq G$ (Предположение III.2)
Циклическому участию (Предположение III.3)

2. Моделирование дискретной линейной системой (Лемма III.4)

Правила обновления FedAvgM и FedCM моделируются как дискретная линейная система: