2025-11-27T01:52:18.796624

On the Limits of Momentum in Decentralized and Federated Optimization

Zaccone, Karimireddy, Masone

Recent works have explored the use of momentum in local methods to enhance distributed SGD. This is particularly appealing in Federated Learning (FL), where momentum intuitively appears as a solution to mitigate the effects of statistical heterogeneity. Despite recent progress in this direction, it is still unclear if momentum can guarantee convergence under unbounded heterogeneity in decentralized scenarios, where only some workers participate at each round. In this work we analyze momentum under cyclic client participation, and theoretically prove that it remains inevitably affected by statistical heterogeneity. Similarly to SGD, we prove that decreasing step-sizes do not help either: in fact, any schedule decreasing faster than $Î\left(1/t\right)$ leads to convergence to a constant value that depends on the initialization and the heterogeneity bound. Numerical results corroborate the theory, and deep learning experiments confirm its relevance for realistic settings.

academic

বিকেন্দ্রীভূত এবং ফেডারেটেড অপ্টিমাইজেশনে মোমেন্টামের সীমাবদ্ধতা সম্পর্কে

মৌলিক তথ্য

পেপার আইডি: 2511.20168
শিরোনাম: On the Limits of Momentum in Decentralized and Federated Optimization
লেখক: রিকার্ডো জ্যাকোন (পলিটেকনিক অফ টুরিন), সাই প্রণীথ করিমিরেড্ডি (ইউএসসি), কার্লো মাসোন (পলিটেকনিক অফ টুরিন)
শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং), cs.AI
প্রকাশনার সময়: ২০২৫ সালের নভেম্বর (arXiv প্রি-প্রিন্ট)
পেপার লিংক: https://arxiv.org/abs/2511.20168

সারসংক্ষেপ

এই পেপারটি ফেডারেটেড লার্নিং এবং বিকেন্দ্রীভূত অপ্টিমাইজেশনে মোমেন্টাম (momentum) এর তাত্ত্বিক সীমাবদ্ধতা নিয়ে গভীর অনুসন্ধান করে। যদিও সাম্প্রতিক গবেষণা স্থানীয় পদ্ধতিতে মোমেন্টাম ব্যবহার করে বিতরণকৃত এসজিডি উন্নত করার অন্বেষণ করেছে, বিশেষত ফেডারেটেড লার্নিংয়ে পরিসংখ্যানগত বৈষম্যের প্রভাব হ্রাস করার জন্য, আংশিক ক্লায়েন্ট অংশগ্রহণের বিকেন্দ্রীভূত পরিস্থিতিতে মোমেন্টাম সীমাহীন বৈষম্যের অধীনে সংগ্রহ নিশ্চিত করতে পারে কিনা তা অস্পষ্ট রয়েছে। এই পেপারটি চক্রীয় ক্লায়েন্ট অংশগ্রহণ প্যাটার্নের তাত্ত্বিক বিশ্লেষণের মাধ্যমে প্রমাণ করে যে মোমেন্টাম অনিবার্যভাবে পরিসংখ্যানগত বৈষম্যের দ্বারা প্রভাবিত হয়। অধিকন্তু, হ্রাসমান ধাপের আকার কোনো সাহায্য করে না: Θ(1/t) এর চেয়ে দ্রুত হ্রাসমান যেকোনো সময়সূচী প্রাথমিক অবস্থা এবং বৈষম্যের সীমার উপর নির্ভরশীল একটি ধ্রুবক মানে সংগ্রহ করে। সংখ্যাসূচক পরীক্ষা এবং গভীর শিক্ষার পরীক্ষা তত্ত্বের সঠিকতা এবং বাস্তব পরিস্থিতিতে এর প্রাসঙ্গিকতা যাচাই করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই পেপারটি যে মূল সমস্যাটি সমাধান করতে চায় তা হল: আংশিক ক্লায়েন্ট অংশগ্রহণের বিকেন্দ্রীভূত শিক্ষার পরিস্থিতিতে, ক্লাসিক্যাল মোমেন্টাম পদ্ধতি সীমাহীন বৈষম্যের অধীনে সংগ্রহ নিশ্চিত করতে পারে?

সমস্যার গুরুত্ব

ফেডারেটেড লার্নিংয়ের ব্যবহারিক চাহিদা: আধুনিক গভীর শিক্ষার প্রয়োগের জন্য বিতরণকৃত ডেটা সাইলো বা ব্যক্তিগত ডিভাইসে প্রশিক্ষণ প্রয়োজন, ক্লায়েন্টরা সাধারণত প্রতিটি রাউন্ডে অংশগ্রহণ করতে পারে না (নেটওয়ার্ক ব্যর্থতা, গোপনীয়তা সীমাবদ্ধতা বা অস্থায়ী অপ্রাপ্যতার কারণে)
পরিসংখ্যানগত বৈষম্যের চ্যালেঞ্জ: ক্লায়েন্ট ডেটার অ-স্বাধীন এবং সমানভাবে বিতরণকৃত (non-IID) প্রকৃতি ক্লায়েন্ট ড্রিফ্ট এবং পক্ষপাতী সার্ভার আপডেট সৃষ্টি করে
অপর্যাপ্ত তাত্ত্বিক বোঝাপড়া: যদিও মোমেন্টাম বিতরণকৃত অ্যালগরিদমে ব্যাপকভাবে প্রয়োগ করা হয়, বিকেন্দ্রীভূত পরিবেশে এর তাত্ত্বিক বোঝাপড়া এখনও অসম্পূর্ণ

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

FedAvgM এবং FedCM এর মতো মোমেন্টাম-ভিত্তিক ফেডারেটেড লার্নিং অ্যালগরিদম ব্যবহারিক ক্ষেত্রে ভালো পারফরম্যান্স দেখায়, কিন্তু আংশিক অংশগ্রহণের অধীনে তাত্ত্বিক গ্যারান্টি অভাব রয়েছে
বিদ্যমান তাত্ত্বিক ফলাফল:
- 8 সম্পূর্ণ অংশগ্রহণের অধীনে প্রমাণ করেছে যে মোমেন্টাম সীমাহীন বৈষম্যের অধীনে সংগ্রহ করতে পারে
- 9 প্রস্তাবিত GHBM চক্রীয় আংশিক অংশগ্রহণের অধীনেও অনুরূপ গ্যারান্টি অর্জন করে
- কিন্তু ক্লাসিক্যাল মোমেন্টামের আংশিক অংশগ্রহণের অধীনে তাত্ত্বিক বৈশিষ্ট্য এখনও অস্পষ্ট

গবেষণার প্রেরণা

কঠোর তাত্ত্বিক বিশ্লেষণের মাধ্যমে, ক্লাসিক্যাল মোমেন্টাম পদ্ধতির মৌলিক সীমাবদ্ধতা স্পষ্ট করা, ফেডারেটেড লার্নিং অ্যালগরিদম ডিজাইনের জন্য তাত্ত্বিক নির্দেশনা প্রদান করা।

মূল অবদান

এই পেপারের প্রধান অবদানগুলি অন্তর্ভুক্ত করে:

মোমেন্টাম বৈষম্যের প্রভাব দূর করতে পারে না তার তাত্ত্বিক প্রমাণ: চক্রীয় ক্লায়েন্ট স্যাম্পলিংয়ের অধীনে, আনুষ্ঠানিকভাবে প্রমাণ করে যে মোমেন্টাম ডেটা বৈষম্যের প্রভাব দূর করতে পারে না — এটি বিকেন্দ্রীভূত এবং ফেডারেটেড লার্নিংয়ের একটি মূল সমস্যা
হ্রাসমান ধাপের আকারের নেতিবাচক ফলাফল: প্রমাণ করে যে Θ(1/t) এর চেয়ে দ্রুত হ্রাসমান যেকোনো ধাপের আকারের সময়সূচী প্রাথমিক অবস্থা এবং বৈষম্যের সীমার উপর নির্ভরশীল একটি ধ্রুবক মানে সংগ্রহ করে, সর্বোত্তম সমাধানে নয়
সিস্টেম বিশ্লেষণ কাঠামো: অ্যালগরিদম গতিশীলতাকে বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম হিসাবে মডেল করে, একটি স্পষ্ট বিয়োজন প্রদান করে:
- শূন্য-ইনপুট প্রতিক্রিয়া (zero-input response) সমস্ত ক্লায়েন্ট দ্বারা ভাগ করা লক্ষ্য ক্যাপচার করে
- শূন্য-অবস্থা প্রতিক্রিয়া (zero-state response) বৈষম্য লক্ষ্য বিচ্ছিন্ন করে
পরীক্ষামূলক যাচাইকরণ: তাত্ত্বিক সমস্যার সংখ্যাসূচক পরীক্ষা এবং গভীর শিক্ষার পরীক্ষা (CIFAR-10) এর মাধ্যমে বাস্তব পরিস্থিতিতে তাত্ত্বিক আবিষ্কারের প্রাসঙ্গিকতা যাচাই করে

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

একটি বিতরণকৃত শিক্ষা ব্যবস্থা বিবেচনা করুন যেখানে ক্লায়েন্ট সেট S সহযোগিতামূলকভাবে একটি শিক্ষার সমস্যা সমাধান করে, যা একটি সীমিত যোগফল অপ্টিমাইজেশন সমস্যা হিসাবে আনুষ্ঠানিক করা হয়:

$\theta^* = \arg\min_{\theta \in \mathbb{R}^d} \left[ f(\theta) := \frac{1}{|S|} \sum_{i \in S} f_i(\theta) \right]$

যেখানে:

$f_i(\theta)$ ক্লায়েন্ট $i$ এর স্থানীয় লক্ষ্য ফাংশন
$f(\theta)$ বৈশ্বিক লক্ষ্য ফাংশন
প্রতিটি রাউন্ড $t$ এ শুধুমাত্র সাবসেট $S_t \subset S$ এর ক্লায়েন্ট অংশগ্রহণ করে (আংশিক অংশগ্রহণ)

তাত্ত্বিক বিশ্লেষণ কাঠামো

1. সর্বনিম্ন বৈষম্য সমস্যা নির্মাণ

মোমেন্টামের জন্য সবচেয়ে অনুকূল সর্বনিম্ন পরিস্থিতিতে বৈষম্যের অধীনে আচরণ বিশ্লেষণ করার জন্য:

দুটি ক্লায়েন্ট: $f_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta$ , $f_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta$
চক্রীয় স্যাম্পলিং: প্রতিটি রাউন্ডে একটি ক্লায়েন্ট বিকল্পভাবে নির্বাচিত হয়
বৈশ্বিক লক্ষ্য: $f(\theta) = \frac{1}{2}(f_1(\theta) + f_2(\theta)) = \frac{\mu}{2}\theta^2$ , সর্বোত্তম সমাধান $\theta^* = 0$

এই সেটআপ সন্তুষ্ট করে:

$\mu$ -শক্তিশালী উত্তলতা (Assumption III.1)
সীমাবদ্ধ গ্রেডিয়েন্ট পার্থক্য: $\frac{1}{|S|}\sum_{i=1}^{|S|} \|\nabla f_i(\theta) - \nabla f(\theta)\| \leq G$ (Assumption III.2)
চক্রীয় অংশগ্রহণ (Assumption III.3)

2. বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম মডেলিং (Lemma III.4)

FedAvgM এবং FedCM এর আপডেট নিয়ম একটি বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম হিসাবে মডেল করা হয়: