2025-11-27T01:52:18.796624

On the Limits of Momentum in Decentralized and Federated Optimization

Zaccone, Karimireddy, Masone

Recent works have explored the use of momentum in local methods to enhance distributed SGD. This is particularly appealing in Federated Learning (FL), where momentum intuitively appears as a solution to mitigate the effects of statistical heterogeneity. Despite recent progress in this direction, it is still unclear if momentum can guarantee convergence under unbounded heterogeneity in decentralized scenarios, where only some workers participate at each round. In this work we analyze momentum under cyclic client participation, and theoretically prove that it remains inevitably affected by statistical heterogeneity. Similarly to SGD, we prove that decreasing step-sizes do not help either: in fact, any schedule decreasing faster than $Î\left(1/t\right)$ leads to convergence to a constant value that depends on the initialization and the heterogeneity bound. Numerical results corroborate the theory, and deep learning experiments confirm its relevance for realistic settings.

academic

分散型および連合最適化におけるモメンタムの限界について

基本情報

論文ID: 2511.20168
タイトル: On the Limits of Momentum in Decentralized and Federated Optimization
著者: Riccardo Zaccone (トリノ工科大学)、Sai Praneeth Karimireddy (USC)、Carlo Masone (トリノ工科大学)
分類: cs.LG (機械学習)、cs.AI
発表時期: 2025年11月 (arXiv プレプリント)
論文リンク: https://arxiv.org/abs/2511.20168

要約

本論文は、連合学習および分散型最適化におけるモメンタム（運動量）の理論的限界を深く探究している。近年の研究では、局所的手法におけるモメンタムの使用を通じて分散SGDを強化し、特に連合学習において統計的異質性の影響を緩和することが検討されている。しかし、部分的なクライアント参加の分散型シナリオにおいて、モメンタムが無界の異質性下で収束を保証できるかは依然として不明確である。本論文は、循環的なクライアント参加パターンの理論的分析を通じて、モメンタムが統計的異質性の影響から必然的に逃れられないことを証明している。さらに、ステップサイズの減衰も役に立たない：Θ(1/t)より速く減衰するスケジュールは、初期化と異質性の界に依存する定数値への収束をもたらす。数値実験と深層学習実験により、理論の正確性と実際のシナリオにおける関連性が検証されている。

連合学習の実際的ニーズ：現代の深層学習アプリケーションは、分散データサイロまたは個人デバイス上でのトレーニングを必要とし、クライアントは通常、各ラウンドに参加できない（ネットワーク障害、プライバシー制限、または一時的な利用不可のため）
統計的異質性の課題：クライアントデータの非独立同分布（non-IID）特性は、クライアントドリフトとバイアスのあるサーバー更新をもたらす
理論的理解の不足：モメンタムは分散アルゴリズムで広く適用されているが、分散環境での理論的理解はいまだ不完全である

既存手法の限界

FedAvgMおよびFedCMなどのモメンタムベースの連合学習アルゴリズムは実践では良好に機能するが、部分参加下での理論的保証が不足している
既存の理論的結果：
- 8 完全参加（full participation）下ではモメンタムが無界の異質性下で収束できることを証明
- 9 提案されたGHBMは循環的部分参加下でも同様の保証を実現
- しかし古典的なモメンタムの部分参加下での理論的性質は依然として不明確

研究動機

厳密な理論的分析を通じて、古典的なモメンタム法の根本的な限界を明確にし、連合学習アルゴリズム設計に理論的指導を提供する。

中核的貢献

本論文の主要な貢献は以下の通りである：

モメンタムが異質性の影響を除去できないことの理論的証明：循環的なクライアントサンプリング下で、モメンタムがデータ異質性の影響を除去できないことを形式的に証明する。これは分散型および連合学習の中核的な問題である
ステップサイズ減衰の負の結果：Θ(1/t)より速く減衰するステップサイズスケジュールは、最適解ではなく、初期化と異質性の界に依存する定数値への収束をもたらすことを証明
体系的な分析フレームワーク：アルゴリズムの動的特性を離散時間線形システムとしてモデル化することにより、明確な分解を提供：
- ゼロ入力応答（zero-input response）：すべてのクライアントが共有する目標を捕捉
- ゼロ状態応答（zero-state response）：異質性目標を分離
実験的検証：理論的問題の数値実験と深層学習実験（CIFAR-10）により、理論的発見が実際のシナリオにおける関連性を検証

方法の詳細説明

タスク定義

分散学習システムを考える。クライアント集合Sが協力して学習問題を解く。形式的には有限和最適化問題として表現される：

$\theta^* = \arg\min_{\theta \in \mathbb{R}^d} \left[ f(\theta) := \frac{1}{|S|} \sum_{i \in S} f_i(\theta) \right]$

ここで：

$f_i(\theta)$ はクライアント $i$ の局所目的関数
$f(\theta)$ は全体的な目的関数
各ラウンド $t$ では、部分集合 $S_t \subset S$ のクライアントのみが参加（部分参加）

理論的分析フレームワーク

1. 最小限の異質性問題の構築

モメンタムが異質性下でどのように動作するかを分析するため、モメンタムに最も有利な最小限のシナリオを構築した：

2つのクライアント： $f_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta$ 、 $f_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta$
循環的サンプリング：各ラウンドで1つのクライアントを交互に選択
全体的な目的： $f(\theta) = \frac{1}{2}(f_1(\theta) + f_2(\theta)) = \frac{\mu}{2}\theta^2$ 、最適解 $\theta^* = 0$

この設定は以下を満たす：

$\mu$ -強凸性（仮定III.1）
有界勾配差異： $\frac{1}{|S|}\sum_{i=1}^{|S|} \|\nabla f_i(\theta) - \nabla f(\theta)\| \leq G$ （仮定III.2）
循環的参加（仮定III.3）

2. 離散時間線形システムモデリング（補題III.4）

FedAvgMおよびFedCMの更新規則を離散時間線形システムとしてモデル化：