2025-11-27T01:52:18.796624

On the Limits of Momentum in Decentralized and Federated Optimization

Zaccone, Karimireddy, Masone

Recent works have explored the use of momentum in local methods to enhance distributed SGD. This is particularly appealing in Federated Learning (FL), where momentum intuitively appears as a solution to mitigate the effects of statistical heterogeneity. Despite recent progress in this direction, it is still unclear if momentum can guarantee convergence under unbounded heterogeneity in decentralized scenarios, where only some workers participate at each round. In this work we analyze momentum under cyclic client participation, and theoretically prove that it remains inevitably affected by statistical heterogeneity. Similarly to SGD, we prove that decreasing step-sizes do not help either: in fact, any schedule decreasing faster than $Î\left(1/t\right)$ leads to convergence to a constant value that depends on the initialization and the heterogeneity bound. Numerical results corroborate the theory, and deep learning experiments confirm its relevance for realistic settings.

academic

분산 및 연합 최적화에서의 모멘텀의 한계에 관하여

기본 정보

논문 ID: 2511.20168
제목: On the Limits of Momentum in Decentralized and Federated Optimization
저자: Riccardo Zaccone (Turin Polytechnic), Sai Praneeth Karimireddy (USC), Carlo Masone (Turin Polytechnic)
분류: cs.LG (기계학습), cs.AI
발표 시간: 2025년 11월 (arXiv 프리프린트)
논문 링크: https://arxiv.org/abs/2511.20168

초록

본 논문은 연합학습 및 분산 최적화에서 모멘텀(momentum)의 이론적 한계를 심층적으로 탐구한다. 최근 연구에서 국소 방법에서 모멘텀을 사용하여 분산 SGD를 강화하고, 특히 연합학습에서 통계적 이질성의 영향을 완화하기 위해 모멘텀을 적용하고 있지만, 부분 클라이언트 참여 시나리오에서 무한 이질성 하에서 모멘텀이 수렴을 보장할 수 있는지는 여전히 불명확하다. 본 논문은 순환 클라이언트 참여 패턴의 이론적 분석을 통해 모멘텀이 불가피하게 통계적 이질성의 영향을 받음을 증명한다. 더욱이, 감소하는 스텝 크기도 도움이 되지 않는다: Θ(1/t)보다 빠르게 감소하는 모든 스케줄은 초기화 및 이질성 경계에 의존하는 상수값으로의 수렴을 초래한다. 수치 실험 및 심층학습 실험이 이론의 정확성과 실제 시나리오에서의 관련성을 검증한다.

연합학습의 실제 필요성: 현대 심층학습 응용은 분산된 데이터 사일로 또는 개인 기기에서 학습이 필요하며, 클라이언트는 일반적으로 매 라운드마다 참여할 수 없다 (네트워크 장애, 개인정보 보호 제한 또는 일시적 불가용성으로 인해).
통계적 이질성 문제: 클라이언트 데이터의 비독립동일분포(non-IID) 특성은 클라이언트 드리프트(client drift) 및 편향된 서버 업데이트를 초래한다.
이론적 이해 부족: 모멘텀이 분산 알고리즘에 광범위하게 적용되고 있지만, 분산 환경에서의 이론적 이해는 여전히 불완전하다.

기존 방법의 한계

FedAvgM 및 FedCM 등의 모멘텀 기반 연합학습 알고리즘은 실제로는 우수한 성능을 보이지만, 부분 참여 하에서의 이론적 보장이 부족하다.
기존 이론적 결과:
- 8 전체 참여(full participation) 하에서 모멘텀이 무한 이질성 하에서 수렴할 수 있음을 증명
- 9 제안된 GHBM은 순환 부분 참여 하에서도 유사한 보장을 달성
- 그러나 고전적 모멘텀의 부분 참여 하에서의 이론적 성질은 여전히 불명확함

연구 동기

엄격한 이론적 분석을 통해 고전적 모멘텀 방법의 근본적 한계를 명확히 하고, 연합학습 알고리즘 설계에 대한 이론적 지침을 제공한다.

핵심 기여

본 논문의 주요 기여는 다음과 같다:

모멘텀이 이질성 영향을 제거할 수 없음을 이론적으로 증명: 순환 클라이언트 샘플링 하에서, 모멘텀이 데이터 이질성의 영향을 제거할 수 없음을 형식적으로 증명한다 — 이는 분산 및 연합학습의 핵심 문제이다.
감소하는 스텝 크기의 부정적 결과: Θ(1/t)보다 빠르게 감소하는 모든 스텝 크기 스케줄이 초기화 및 이질성 경계에 의존하는 상수값으로의 수렴을 초래함을 증명한다 (최적해가 아닌).
체계적 분석 프레임워크: 알고리즘 동역학을 이산 시간 선형 시스템으로 모델링함으로써 명확한 분해를 제공한다:
- 영입력 응답(zero-input response): 모든 클라이언트가 공유하는 목표를 포착
- 영상태 응답(zero-state response): 이질성 목표를 분리
실험적 검증: 이론적 문제의 수치 실험 및 심층학습 실험(CIFAR-10)을 통해 이론적 발견이 실제 시나리오에서의 관련성을 검증한다.

방법론 상세 설명

작업 정의

분산 학습 시스템을 고려하며, 여기서 클라이언트 집합 S가 협력하여 학습 문제를 해결하며, 이는 유한합 최적화 문제로 형식화된다:

$\theta^* = \arg\min_{\theta \in \mathbb{R}^d} \left[ f(\theta) := \frac{1}{|S|} \sum_{i \in S} f_i(\theta) \right]$

여기서:

$f_i(\theta)$ 는 클라이언트 $i$ 의 국소 목적 함수
$f(\theta)$ 는 전역 목적 함수
각 라운드 $t$ 에서 부분집합 $S_t \subset S$ 의 클라이언트만 참여한다 (부분 참여).

이론적 분석 프레임워크

1. 최소 이질성 문제 구성

모멘텀이 이질성 하에서의 행동을 분석하기 위해, 모멘텀에 가장 유리한 최소 시나리오를 구성했다:

두 클라이언트: $f_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta$ , $f_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta$
순환 샘플링: 매 라운드마다 한 클라이언트를 교대로 선택
전역 목표: $f(\theta) = \frac{1}{2}(f_1(\theta) + f_2(\theta)) = \frac{\mu}{2}\theta^2$ , 최적해 $\theta^* = 0$

이 설정은 다음을 만족한다:

$\mu$ -강볼록성 (가정 III.1)
유한 그래디언트 차이: $\frac{1}{|S|}\sum_{i=1}^{|S|} \|\nabla f_i(\theta) - \nabla f(\theta)\| \leq G$ (가정 III.2)
순환 참여 (가정 III.3)

2. 이산 시간 선형 시스템 모델링 (보조정리 III.4)

FedAvgM 및 FedCM의 업데이트 규칙을 이산 시간 선형 시스템으로 모델링한다: