2025-11-27T01:52:18.796624

On the Limits of Momentum in Decentralized and Federated Optimization

Zaccone, Karimireddy, Masone
Recent works have explored the use of momentum in local methods to enhance distributed SGD. This is particularly appealing in Federated Learning (FL), where momentum intuitively appears as a solution to mitigate the effects of statistical heterogeneity. Despite recent progress in this direction, it is still unclear if momentum can guarantee convergence under unbounded heterogeneity in decentralized scenarios, where only some workers participate at each round. In this work we analyze momentum under cyclic client participation, and theoretically prove that it remains inevitably affected by statistical heterogeneity. Similarly to SGD, we prove that decreasing step-sizes do not help either: in fact, any schedule decreasing faster than $Θ\left(1/t\right)$ leads to convergence to a constant value that depends on the initialization and the heterogeneity bound. Numerical results corroborate the theory, and deep learning experiments confirm its relevance for realistic settings.
academic

বিকেন্দ্রীভূত এবং ফেডারেটেড অপ্টিমাইজেশনে মোমেন্টামের সীমাবদ্ধতা সম্পর্কে

মৌলিক তথ্য

  • পেপার আইডি: 2511.20168
  • শিরোনাম: On the Limits of Momentum in Decentralized and Federated Optimization
  • লেখক: রিকার্ডো জ্যাকোন (পলিটেকনিক অফ টুরিন), সাই প্রণীথ করিমিরেড্ডি (ইউএসসি), কার্লো মাসোন (পলিটেকনিক অফ টুরিন)
  • শ্রেণীবিভাগ: cs.LG (মেশিন লার্নিং), cs.AI
  • প্রকাশনার সময়: ২০২৫ সালের নভেম্বর (arXiv প্রি-প্রিন্ট)
  • পেপার লিংক: https://arxiv.org/abs/2511.20168

সারসংক্ষেপ

এই পেপারটি ফেডারেটেড লার্নিং এবং বিকেন্দ্রীভূত অপ্টিমাইজেশনে মোমেন্টাম (momentum) এর তাত্ত্বিক সীমাবদ্ধতা নিয়ে গভীর অনুসন্ধান করে। যদিও সাম্প্রতিক গবেষণা স্থানীয় পদ্ধতিতে মোমেন্টাম ব্যবহার করে বিতরণকৃত এসজিডি উন্নত করার অন্বেষণ করেছে, বিশেষত ফেডারেটেড লার্নিংয়ে পরিসংখ্যানগত বৈষম্যের প্রভাব হ্রাস করার জন্য, আংশিক ক্লায়েন্ট অংশগ্রহণের বিকেন্দ্রীভূত পরিস্থিতিতে মোমেন্টাম সীমাহীন বৈষম্যের অধীনে সংগ্রহ নিশ্চিত করতে পারে কিনা তা অস্পষ্ট রয়েছে। এই পেপারটি চক্রীয় ক্লায়েন্ট অংশগ্রহণ প্যাটার্নের তাত্ত্বিক বিশ্লেষণের মাধ্যমে প্রমাণ করে যে মোমেন্টাম অনিবার্যভাবে পরিসংখ্যানগত বৈষম্যের দ্বারা প্রভাবিত হয়। অধিকন্তু, হ্রাসমান ধাপের আকার কোনো সাহায্য করে না: Θ(1/t) এর চেয়ে দ্রুত হ্রাসমান যেকোনো সময়সূচী প্রাথমিক অবস্থা এবং বৈষম্যের সীমার উপর নির্ভরশীল একটি ধ্রুবক মানে সংগ্রহ করে। সংখ্যাসূচক পরীক্ষা এবং গভীর শিক্ষার পরীক্ষা তত্ত্বের সঠিকতা এবং বাস্তব পরিস্থিতিতে এর প্রাসঙ্গিকতা যাচাই করে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

এই পেপারটি যে মূল সমস্যাটি সমাধান করতে চায় তা হল: আংশিক ক্লায়েন্ট অংশগ্রহণের বিকেন্দ্রীভূত শিক্ষার পরিস্থিতিতে, ক্লাসিক্যাল মোমেন্টাম পদ্ধতি সীমাহীন বৈষম্যের অধীনে সংগ্রহ নিশ্চিত করতে পারে?

সমস্যার গুরুত্ব

  1. ফেডারেটেড লার্নিংয়ের ব্যবহারিক চাহিদা: আধুনিক গভীর শিক্ষার প্রয়োগের জন্য বিতরণকৃত ডেটা সাইলো বা ব্যক্তিগত ডিভাইসে প্রশিক্ষণ প্রয়োজন, ক্লায়েন্টরা সাধারণত প্রতিটি রাউন্ডে অংশগ্রহণ করতে পারে না (নেটওয়ার্ক ব্যর্থতা, গোপনীয়তা সীমাবদ্ধতা বা অস্থায়ী অপ্রাপ্যতার কারণে)
  2. পরিসংখ্যানগত বৈষম্যের চ্যালেঞ্জ: ক্লায়েন্ট ডেটার অ-স্বাধীন এবং সমানভাবে বিতরণকৃত (non-IID) প্রকৃতি ক্লায়েন্ট ড্রিফ্ট এবং পক্ষপাতী সার্ভার আপডেট সৃষ্টি করে
  3. অপর্যাপ্ত তাত্ত্বিক বোঝাপড়া: যদিও মোমেন্টাম বিতরণকৃত অ্যালগরিদমে ব্যাপকভাবে প্রয়োগ করা হয়, বিকেন্দ্রীভূত পরিবেশে এর তাত্ত্বিক বোঝাপড়া এখনও অসম্পূর্ণ

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  • FedAvgM এবং FedCM এর মতো মোমেন্টাম-ভিত্তিক ফেডারেটেড লার্নিং অ্যালগরিদম ব্যবহারিক ক্ষেত্রে ভালো পারফরম্যান্স দেখায়, কিন্তু আংশিক অংশগ্রহণের অধীনে তাত্ত্বিক গ্যারান্টি অভাব রয়েছে
  • বিদ্যমান তাত্ত্বিক ফলাফল:
    • 8 সম্পূর্ণ অংশগ্রহণের অধীনে প্রমাণ করেছে যে মোমেন্টাম সীমাহীন বৈষম্যের অধীনে সংগ্রহ করতে পারে
    • 9 প্রস্তাবিত GHBM চক্রীয় আংশিক অংশগ্রহণের অধীনেও অনুরূপ গ্যারান্টি অর্জন করে
    • কিন্তু ক্লাসিক্যাল মোমেন্টামের আংশিক অংশগ্রহণের অধীনে তাত্ত্বিক বৈশিষ্ট্য এখনও অস্পষ্ট

গবেষণার প্রেরণা

কঠোর তাত্ত্বিক বিশ্লেষণের মাধ্যমে, ক্লাসিক্যাল মোমেন্টাম পদ্ধতির মৌলিক সীমাবদ্ধতা স্পষ্ট করা, ফেডারেটেড লার্নিং অ্যালগরিদম ডিজাইনের জন্য তাত্ত্বিক নির্দেশনা প্রদান করা।

মূল অবদান

এই পেপারের প্রধান অবদানগুলি অন্তর্ভুক্ত করে:

  1. মোমেন্টাম বৈষম্যের প্রভাব দূর করতে পারে না তার তাত্ত্বিক প্রমাণ: চক্রীয় ক্লায়েন্ট স্যাম্পলিংয়ের অধীনে, আনুষ্ঠানিকভাবে প্রমাণ করে যে মোমেন্টাম ডেটা বৈষম্যের প্রভাব দূর করতে পারে না — এটি বিকেন্দ্রীভূত এবং ফেডারেটেড লার্নিংয়ের একটি মূল সমস্যা
  2. হ্রাসমান ধাপের আকারের নেতিবাচক ফলাফল: প্রমাণ করে যে Θ(1/t) এর চেয়ে দ্রুত হ্রাসমান যেকোনো ধাপের আকারের সময়সূচী প্রাথমিক অবস্থা এবং বৈষম্যের সীমার উপর নির্ভরশীল একটি ধ্রুবক মানে সংগ্রহ করে, সর্বোত্তম সমাধানে নয়
  3. সিস্টেম বিশ্লেষণ কাঠামো: অ্যালগরিদম গতিশীলতাকে বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম হিসাবে মডেল করে, একটি স্পষ্ট বিয়োজন প্রদান করে:
    • শূন্য-ইনপুট প্রতিক্রিয়া (zero-input response) সমস্ত ক্লায়েন্ট দ্বারা ভাগ করা লক্ষ্য ক্যাপচার করে
    • শূন্য-অবস্থা প্রতিক্রিয়া (zero-state response) বৈষম্য লক্ষ্য বিচ্ছিন্ন করে
  4. পরীক্ষামূলক যাচাইকরণ: তাত্ত্বিক সমস্যার সংখ্যাসূচক পরীক্ষা এবং গভীর শিক্ষার পরীক্ষা (CIFAR-10) এর মাধ্যমে বাস্তব পরিস্থিতিতে তাত্ত্বিক আবিষ্কারের প্রাসঙ্গিকতা যাচাই করে

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

একটি বিতরণকৃত শিক্ষা ব্যবস্থা বিবেচনা করুন যেখানে ক্লায়েন্ট সেট S সহযোগিতামূলকভাবে একটি শিক্ষার সমস্যা সমাধান করে, যা একটি সীমিত যোগফল অপ্টিমাইজেশন সমস্যা হিসাবে আনুষ্ঠানিক করা হয়:

θ=argminθRd[f(θ):=1SiSfi(θ)]\theta^* = \arg\min_{\theta \in \mathbb{R}^d} \left[ f(\theta) := \frac{1}{|S|} \sum_{i \in S} f_i(\theta) \right]

যেখানে:

  • fi(θ)f_i(\theta) ক্লায়েন্ট ii এর স্থানীয় লক্ষ্য ফাংশন
  • f(θ)f(\theta) বৈশ্বিক লক্ষ্য ফাংশন
  • প্রতিটি রাউন্ড tt এ শুধুমাত্র সাবসেট StSS_t \subset S এর ক্লায়েন্ট অংশগ্রহণ করে (আংশিক অংশগ্রহণ)

তাত্ত্বিক বিশ্লেষণ কাঠামো

1. সর্বনিম্ন বৈষম্য সমস্যা নির্মাণ

মোমেন্টামের জন্য সবচেয়ে অনুকূল সর্বনিম্ন পরিস্থিতিতে বৈষম্যের অধীনে আচরণ বিশ্লেষণ করার জন্য:

  • দুটি ক্লায়েন্ট: f1(θ)=μ2θ2+Gθf_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta, f2(θ)=μ2θ2Gθf_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta
  • চক্রীয় স্যাম্পলিং: প্রতিটি রাউন্ডে একটি ক্লায়েন্ট বিকল্পভাবে নির্বাচিত হয়
  • বৈশ্বিক লক্ষ্য: f(θ)=12(f1(θ)+f2(θ))=μ2θ2f(\theta) = \frac{1}{2}(f_1(\theta) + f_2(\theta)) = \frac{\mu}{2}\theta^2, সর্বোত্তম সমাধান θ=0\theta^* = 0

এই সেটআপ সন্তুষ্ট করে:

  • μ\mu-শক্তিশালী উত্তলতা (Assumption III.1)
  • সীমাবদ্ধ গ্রেডিয়েন্ট পার্থক্য: 1Si=1Sfi(θ)f(θ)G\frac{1}{|S|}\sum_{i=1}^{|S|} \|\nabla f_i(\theta) - \nabla f(\theta)\| \leq G (Assumption III.2)
  • চক্রীয় অংশগ্রহণ (Assumption III.3)

2. বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম মডেলিং (Lemma III.4)

FedAvgM এবং FedCM এর আপডেট নিয়ম একটি বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম হিসাবে মডেল করা হয়:

z[t] = A[t]z[t-1] + Bu[t] \\ y[t] = Cz[t] \end{cases}$$ যেখানে: - অবস্থা: $z[t] = (\theta_t, \theta_{t-1})^T$ - ইনপুট: $u[t] = ((-1)^t q_t^{(a)} G)$ (বৈষম্য চালিত পদ) - আউটপুট: $y[t] = \theta_t$ - অবস্থা ম্যাট্রিক্স: $A[t] = \begin{pmatrix} p_t^{(a)} & -r_t^{(a)} \\ 1 & 0 \end{pmatrix}$ একক ধাপ স্থানীয় আপডেটের জন্য ($J=1$), FedAvgM এবং FedCM একই আপডেট নিয়ম রয়েছে: $$\theta_t = \theta_{t-1}(1 - \mu\tilde{\eta}_t + \beta) - \beta\theta_{t-2} + (-1)^t\tilde{\eta}_t G$$ যেখানে $\tilde{\eta}_t = \eta_t(1-\beta)$। #### 3. সিস্টেম প্রতিক্রিয়া বিয়োজন পুনরাবৃত্তি সম্প্রসারণের মাধ্যমে, সিস্টেম আউটপুট বিয়োজিত হতে পারে: $$y[t] = \underbrace{C\Psi(t,1)z[1]}_{\text{শূন্য-ইনপুট প্রতিক্রিয়া}} + \underbrace{C\sum_{k=2}^t \Psi(t,k)Bu[k]}_{\text{শূন্য-অবস্থা প্রতিক্রিয়া}}$$ যেখানে অবস্থা স্থানান্তর ম্যাট্রিক্স: $\Psi(t,k) := \prod_{s=k+1}^t A[s]$ **শারীরিক ব্যাখ্যা**: - **শূন্য-ইনপুট প্রতিক্রিয়া**: ভাগ করা লক্ষ্য $f_{hom}(\theta) = f(\theta)$ অপ্টিমাইজেশনের সাথে সম্পর্কিত, প্রাথমিক অবস্থার প্রভাব প্রতিফলিত করে - **শূন্য-অবস্থা প্রতিক্রিয়া**: বৈষম্য পদ $f_{het}(\theta) = \pm G\theta$ বাহ্যিক বিঘ্ন হিসাবে কাজ করার সাথে সম্পর্কিত ### প্রযুক্তিগত উদ্ভাবনী পয়েন্ট #### 1. সিস্টেম তত্ত্ব দৃষ্টিভঙ্গি - প্রথমবারের জন্য ফেডারেটেড লার্নিংয়ে মোমেন্টাম অ্যালগরিদমকে বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম হিসাবে মডেল করা - শূন্য-ইনপুট/শূন্য-অবস্থা প্রতিক্রিয়ার বিয়োজনের মাধ্যমে, স্পষ্টভাবে "বিঘ্ন সংকেত" হিসাবে বৈষম্যের কাজের প্রক্রিয়া প্রকাশ করা #### 2. কর্ণ বিন্যাসকরণ কৌশল (Theorem III.6 প্রমাণ) সময়-পরিবর্তনশীল সিস্টেমের জন্য, অবস্থা ম্যাট্রিক্সকে বিয়োজিত করা: $$A[t] = A_\infty + E[t]$$ যেখানে $A_\infty$ $\eta_t \to 0$ এর সীমায় সংশ্লিষ্ট ম্যাট্রিক্স, তারপর কর্ণ বিন্যাসকরণের মাধ্যমে: $$\bar{z}[t] = P^{-1}z[t] = (\Lambda + H[t])\bar{z}[t-1] + Wu[t]$$ বৈশিষ্ট্য মান $\lambda_1 = 1$ (সীমান্ত স্থিতিশীল) এবং $\lambda_2 = \beta < 1$ (অ্যাসিম্পটোটিক্যালি স্থিতিশীল) এর সাথে সম্পর্কিত বিচ্ছিন্ন দিকনির্দেশনা পাওয়া। #### 3. স্ব-সামঞ্জস্যপূর্ণ অনুমান পদ্ধতি (Self-consistent Ansatz) যুক্ত সিস্টেমের জন্য, $\bar{z}_1[t]$ এর অ্যাসিম্পটোটিক ফর্ম অনুমান করা, এটি থেকে অনুমান করা $\bar{z}_2[t]$ সামঞ্জস্যপূর্ণ সিদ্ধান্তের দিকে পরিচালিত করে কিনা তা যাচাই করা। ## প্রধান তাত্ত্বিক ফলাফল ### Theorem III.5: ধ্রুবক ধাপের আকারের অধীনে সংগ্রহের হার **প্রমেয় বিবৃতি**: যেকোনো ইতিবাচক ধ্রুবক $G, \mu$ এর জন্য, Assumption III.2 সন্তুষ্ট করে এমন $\mu$-শক্তিশালী উত্তল ফাংশন বিদ্যমান, উপযুক্ত ধ্রুবক ধাপের আকার $\eta$ এবং যেকোনো মোমেন্টাম ফ্যাক্টর $\beta \in [0,1)$ এর অধীনে, FedCM এবং FedAvgM চক্রীয় আংশিক অংশগ্রহণের অধীনে অ্যাসিম্পটোটিক ত্রুটি: $$f(\theta_t) - f(\theta^*) = \Theta\left(\frac{G^2}{\mu T^2}\right)$$ **মূল অন্তর্দৃষ্টি**: 1. **শূন্য-ইনপুট প্রতিক্রিয়া**: বৈশিষ্ট্য মান শর্ত $\eta \in (0, \frac{2(1+\beta)}{\mu(1-\beta)})$ সন্তুষ্ট করার সময়, সূচকীয় হারে সংগ্রহ করে 2. **শূন্য-অবস্থা প্রতিক্রিয়া**: 2-চক্র সীমা চক্রে সংগ্রহ করে, বিস্তার: $$|\theta_\infty| = \frac{\eta(1-\beta)G}{2(1+\beta) - \mu\eta(1-\beta)}$$ 3. **ধাপের আকারের সীমাবদ্ধতা**: সংগ্রহের ত্রুটি নিয়ন্ত্রণ করার জন্য, অবশ্যই $\eta = \Theta(1/T)$ নির্বাচন করতে হবে, যা রৈখিক সংগ্রহের হার $O(1/T^2)$ এর দিকে পরিচালিত করে **শারীরিক অর্থ**: মোমেন্টাম বৈষম্য দ্বারা সৃষ্ট পর্যায়ক্রমিক দোলন দূর করতে পারে না, অবশ্যই দোলনের বিস্তার নিয়ন্ত্রণ করার জন্য ধাপের আকার হ্রাস করতে হবে। ### Theorem III.6: হ্রাসমান ধাপের আকারের অধীনে সংগ্রহের হার **প্রমেয় বিবৃতি**: বহুপদী হ্রাসমান ধাপের আকার $\eta_t \sim O(1/t^\alpha)$ এর জন্য, এমনকি সর্বোত্তম সমাধান থেকে প্রাথমিক করা হলেও ($\theta_0 = \theta^*$), ত্রুটি: $$f(\theta_t) - f(\theta^*) = \begin{cases} \Theta\left(\frac{G^2}{\mu t^{2\alpha}}\right) & \text{যদি } 0 < \alpha < 1 \\ \Theta\left(\frac{G^2}{\mu t^{2\min(\mu\eta, 1)}}\right) & \text{যদি } \alpha = 1 \\ \Theta\left(\frac{G^2}{\mu}\right) & \text{যদি } \alpha > 1 \end{cases}$$ **মূল আবিষ্কার**: 1. **ধীর হ্রাস ($0 < \alpha < 1$)**: - শূন্য-ইনপুট প্রতিক্রিয়া বহুপদী হার $O(t^{-\alpha})$ এ হ্রাস পায় - শূন্য-অবস্থা প্রতিক্রিয়া এখনও সূচকীয়ভাবে হ্রাস পায় - সংগ্রহের হার $O(t^{-2\alpha})$ ধ্রুবক ধাপের আকারের $O(T^{-2})$ এর চেয়ে ধীর 2. **রৈখিক হ্রাস ($\alpha = 1$)**: - সংগ্রহের হার প্রাথমিক ধাপের আকার $\eta$ এর উপর নির্ভর করে - যখন $\eta < 1/\mu$, প্রাথমিকীকরণ সংগ্রহের হার $O(t^{-\mu\eta})$ কে প্রভাবিত করে - যখন $\eta \geq 1/\mu$, সংগ্রহের হার $O(t^{-1})$ 3. **দ্রুত হ্রাস ($\alpha > 1$)**: - **সর্বোত্তম সমাধানে সংগ্রহ করতে পারে না**, একটি ধ্রুবক $\Theta(G/\mu)$ এ সংগ্রহ করে - অবস্থা স্থানান্তর ম্যাট্রিক্স আর শূন্যে হ্রাস পায় না - শূন্য-ইনপুট এবং শূন্য-অবস্থা প্রতিক্রিয়া উভয়ই $G$ এবং $\theta_0$ এর উপর নির্ভরশীল একটি ধ্রুবকে সংগ্রহ করে **গাণিতিক স্বজ্ঞা**: Lemma B.2-B.9 এর মাধ্যমে প্রতিষ্ঠিত অবস্থা স্থানান্তর ম্যাট্রিক্স $\Psi_1(t,s,\alpha)$ এবং $\Psi_2(t,s,\alpha)$ এর অ্যাসিম্পটোটিক সীমা, বিভিন্ন $\alpha$ পরিসরে সংগ্রহের আচরণ সুনির্দিষ্টভাবে চিহ্নিত করে। ## পরীক্ষামূলক সেটআপ ### তাত্ত্বিক পরীক্ষা **লক্ষ্য ফাংশন**: $f_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta$, $f_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta$ **প্যারামিটার সেটিং**: - $\mu = 1$ (শক্তিশালী উত্তলতা প্যারামিটার) - $G \in \{0, 10, 100\}$ (বৈষম্য স্তর) - $\theta_0 \in \{0, 10\}$ (প্রাথমিকীকরণ) - $\beta = 0.9$ (মোমেন্টাম ফ্যাক্টর) - $T = 10^6$ (পুনরাবৃত্তি সংখ্যা) **ধাপের আকারের সময়সূচী**: 1. **ধ্রুবক ধাপের আকার**: $\eta_t = \eta$ 2. **বহুপদী হ্রাস**: $\eta_t = \eta/t^\alpha$, $\alpha \in \{0.1, 0.5, 1, 2\}$ 3. **সূচকীয় হ্রাস**: $\eta_t = \eta\gamma^t$, $\gamma \in \{0.9999, 0.999, 0.99, 0.9\}$ ### গভীর শিক্ষার পরীক্ষা **ডেটাসেট**: CIFAR-10 - প্রশিক্ষণ সেট প্রাক-প্রক্রিয়াকরণ: র্যান্ডম ক্রপিং, র্যান্ডম অনুভূমিক ফ্লিপিং, স্ট্যান্ডার্ডাইজেশন - ক্লায়েন্ট সংখ্যা: $|S| = 100$ - ডেটা বিভাজন: [19] এর পদ্ধতি অনুযায়ী, সর্বোচ্চ বৈষম্য স্তর অনুকরণ করা (Dirichlet বিতরণ) **মডেল আর্কিটেকচার**: 1. **CNN**: LeNet-5 এর মতো আর্কিটেকচার 2. **ResNet-20**: Batch Normalization এর পরিবর্তে Group Normalization ব্যবহার করা **প্রশিক্ষণ সেটিং**: - ক্লায়েন্ট স্যাম্পলিং হার: $C = 10\%$ (চক্রীয় স্যাম্পলিং) - স্থানীয় পদক্ষেপ সংখ্যা: $J = 1$ - মোমেন্টাম ফ্যাক্টর: $\beta = 0.9$ - পুনরাবৃত্তি সংখ্যা: 5 স্বাধীন চালনা **হাইপারপ্যারামিটার অনুসন্ধান**: - FedAvg: সার্ভার ধাপের আকার $\eta \in \{2, 1.5, 1, 0.5, 0.1\}$, স্থানীয় ধাপের আকার $\eta_l \in \{0.1, 0.05, 0.01, 0.005\}$ - FedCM: অনুরূপ অনুসন্ধান পরিসর ## পরীক্ষামূলক ফলাফল ### তাত্ত্বিক পরীক্ষার ফলাফল (Table I) #### মূল আবিষ্কার: 1. **বৈষম্যের রৈখিক প্রভাব**: - যখন $G = 100$, $\theta_t \approx 2.5 \times 10^{-5}$ (ধ্রুবক ধাপের আকার) - যখন $G = 10$, $\theta_t \approx 2.5 \times 10^{-6}$ (ধ্রুবক ধাপের আকার) - অনুপাত সম্পর্ক $\Theta(G/\mu T)$ এর তাত্ত্বিক পূর্বাভাস যাচাই করে 2. **প্রাথমিকীকরণের প্রভাব**: - ধীর হ্রাস ($\alpha < 1$) এবং ধ্রুবক ধাপের আকারের জন্য, $\theta_0 = 0$ এবং $\theta_0 = 10$ এর চূড়ান্ত মান একই - শূন্য-ইনপুট প্রতিক্রিয়ার সূচকীয় হ্রাস বৈশিষ্ট্য যাচাই করে 3. **দ্রুত হ্রাসের ক্ষতি** ($\alpha = 2$): - $G = 100, \theta_0 = 0$: $\theta_t = 4.8 \times 10^1$ - $G = 100, \theta_0 = 10$: $\theta_t = 5.7 \times 10^1$ - সর্বোত্তম সমাধান $\theta^* = 0$ এ সংগ্রহ করতে পারে না, এবং প্রাথমিকীকরণের উপর নির্ভর করে 4. **মোমেন্টাম বনাম কোনো মোমেন্টাম তুলনা**: - মোমেন্টাম সহ (বাম) এবং মোমেন্টাম ছাড়া (ডান) এর সংগ্রহের আচরণ অনুরূপ - প্রমাণ করে যে মোমেন্টাম বৈষম্যের প্রতি নির্ভরতা থেকে মৌলিকভাবে উন্নতি করতে পারে না ### ধাপের আকারের প্রভাব পরীক্ষা (Table II) Theorem III.6 এ $\alpha = 1$ এর সময় তাত্ত্বিক পূর্বাভাস যাচাই করে: | প্রাথমিক ধাপের আকার | $\theta_t$ ($\theta_0=0$) | $\theta_t$ ($\theta_0=10$) | |---------|--------------------------|---------------------------| | $\eta = \frac{1(1+\beta)}{\mu(1-\beta)} - \epsilon$ | $2.5 \times 10^{-6}$ | $2.5 \times 10^{-6}$ | | $\eta = \frac{1}{\mu} - \epsilon$ | $-3.9 \times 10^{-6}$ | $-1.2 \times 10^{-4}$ | যখন $\eta < 1/\mu$, চূড়ান্ত মান প্রাথমিকীকরণের উপর নির্ভর করে, তত্ত্বে $O(t^{-\mu\eta})$ এর সংগ্রহের হার যাচাই করে। ### গভীর শিক্ষার পরীক্ষার ফলাফল (Figure 1) **পরীক্ষামূলক সেটআপ**: CIFAR-10, চক্রীয় ক্লায়েন্ট অংশগ্রহণ, উচ্চ বৈষম্য **ফলাফল পর্যবেক্ষণ**: 1. **FedAvg বনাম FedCM (ResNet-20)**: - 10000 রাউন্ড পরে পরীক্ষার নির্ভুলতা: প্রায় 60-70% - কেন্দ্রীভূত প্রশিক্ষণ রেফারেন্স নির্ভুলতা: ≈89% - কর্মক্ষমতা ফাঁক উল্লেখযোগ্য, নির্দেশ করে যে মোমেন্টাম বৈষম্য কার্যকরভাবে প্রশমিত করতে পারে না 2. **FedAvg বনাম FedCM (CNN)**: - 10000 রাউন্ড পরে পরীক্ষার নির্ভুলতা: প্রায় 50-60% - কেন্দ্রীভূত প্রশিক্ষণ রেফারেন্স নির্ভুলতা: ≈86% - FedAvg এবং FedCM কর্মক্ষমতা অনুরূপ, কোনো স্পষ্ট সুবিধা নেই 3. **মূল অন্তর্দৃষ্টি**: - উচ্চ বৈষম্য এবং আংশিক অংশগ্রহণের অধীনে, ক্লাসিক্যাল মোমেন্টাম-ভিত্তিক FL পদ্ধতি উল্লেখযোগ্য উন্নতি প্রদান করতে পারে না - পরীক্ষামূলক ফলাফল তাত্ত্বিক বিশ্লেষণের সাথে সামঞ্জস্যপূর্ণ: মোমেন্টাম বৈষম্যের মৌলিক প্রভাব দূর করতে পারে না ## সম্পর্কিত কাজ ### সীমিত যোগফল অপ্টিমাইজেশন এবং SGD ভেরিয়েন্ট 1. **SGD এবং র্যান্ডম শাফলিং পদ্ধতি**: - [12] Safran & Shamir 2020: র্যান্ডম শাফলিং SGD এর কর্মক্ষমতা গবেষণা - [13] Koloskova et al. 2024: অ-উত্তল মসৃণ ফাংশনের IGD সংগ্রহের হার - [14] Liu & Zhou 2024: শাফলিং গ্রেডিয়েন্ট পদ্ধতির চূড়ান্ত পুনরাবৃত্তি সংগ্রহ 2. **SGD এর নিম্ন সীমা**: - [15] Jentzen & von Wurstemberger 2020: হ্রাসমান ধাপের আকারের নিম্ন সীমা - [16] Nguyen et al. 2019: মাত্রা-স্বাধীন নিম্ন সীমা - [17] Kim et al. 2025: রোগাক্রান্ত সমস্যার অধীনে ছোট epoch IGD বিশ্লেষণ **মূল পার্থক্য**: উপরের সমস্ত কাজ মোমেন্টাম বিবেচনা করেনি, এবং বৈষম্য সীমা প্রয়োজন। এই পেপার প্রমাণ করে যে এমনকি মোমেন্টাম যোগ করলেও, এই মৌলিক নির্ভরতা এখনও বিদ্যমান। ### বিতরণকৃত শিক্ষায় মোমেন্টামের প্রয়োগ 1. **ফেডারেটেড লার্নিংয়ে মোমেন্টাম অ্যালগরিদম**: - [2] FedAvgM (Hsu et al. 2019): সার্ভার-পক্ষ মোমেন্টাম - [4] FedCM (Xu et al. 2021): ক্লায়েন্ট-পক্ষ মোমেন্টাম - [5] FedADC: ত্বরিত ড্রিফ্ট নিয়ন্ত্রণ - [6-7] মাল্টি-স্টেপ জড়তা মোমেন্টাম পদ্ধতি 2. **তাত্ত্বিক অগ্রগতি**: - [8] Cheng et al. 2024: সম্পূর্ণ অংশগ্রহণের অধীনে প্রমাণ করে যে মোমেন্টাম সীমাহীন বৈষম্যের অধীনে সংগ্রহ করতে পারে - [9] GHBM (Zaccone et al. 2025): বর্ধিত সংগ্রহ গ্রেডিয়েন্ট দৃষ্টিভঙ্গির মাধ্যমে সীমাবদ্ধতা অতিক্রম করে - [10] SlowMo: যোগাযোগ-দক্ষ বিতরণকৃত SGD - [11] DiLoCo: বিতরণকৃত কম-যোগাযোগ ভাষা মডেল প্রশিক্ষণ ### এই পেপারের অনন্য অবদান এই পেপার **আংশিক অংশগ্রহণের অধীনে ক্লাসিক্যাল মোমেন্টামের মৌলিক সীমাবদ্ধতা সিস্টেমেটিকভাবে বিশ্লেষণ করার প্রথম কাজ**: - স্পষ্টভাবে "মোমেন্টাম কি আংশিক অংশগ্রহণের অধীনে বৈষম্য প্রভাব দূর করতে পারে" এর উন্মুক্ত প্রশ্নের উত্তর দেয় (উত্তর হল না) - সম্পূর্ণ তাত্ত্বিক বিশ্লেষণ কাঠামো প্রদান করে (রৈখিক সিস্টেম দৃষ্টিভঙ্গি) - প্রমাণ করে যে GHBM [9] বর্তমানে এই সীমাবদ্ধতা অতিক্রম করতে পারে একমাত্র পরিচিত মোমেন্টাম অ্যালগরিদম ## সিদ্ধান্ত এবং আলোচনা ### প্রধান সিদ্ধান্ত 1. **মোমেন্টামের মৌলিক সীমাবদ্ধতা**: চক্রীয় ক্লায়েন্ট অংশগ্রহণের অধীনে, ক্লাসিক্যাল মোমেন্টাম (FedAvgM এবং FedCM) **পরিসংখ্যানগত বৈষম্যের প্রভাব দূর করতে পারে না**, সংগ্রহের হার এখনও বৈষম্য সীমা $G$ এর উপর নির্ভর করে 2. **হ্রাসমান ধাপের আকারের নেতিবাচক ফলাফল**: - হ্রাসমান গতি $\Theta(1/t)$ এর চেয়ে ধীর: সংগ্রহের হার ধীর হয় - হ্রাসমান গতি $\Theta(1/t)$ এর সমান: সংগ্রহের হার প্রাথমিক ধাপের আকারের উপর নির্ভর করে - হ্রাসমান গতি $\Theta(1/t)$ এর চেয়ে দ্রুত: **সর্বোত্তম সমাধানে সংগ্রহ করতে পারে না** 3. **স্থানীয় পদক্ষেপ সংখ্যার প্রভাব**: স্থানীয় পদক্ষেপ সংখ্যা $J$ বৃদ্ধি করা ক্লায়েন্ট ড্রিফ্ট প্রভাবের মাধ্যমে বৈষম্যের প্রতি নির্ভরতা খারাপ করে, কিন্তু অ্যাসিম্পটোটিক সংগ্রহের হার পরিবর্তন করে না 4. **GHBM এর বিশেষত্ব**: GHBM [9] বর্তমানে জানা একমাত্র মোমেন্টাম অ্যালগরিদম যা আংশিক অংশগ্রহণের অধীনে এই সীমাবদ্ধতা অতিক্রম করতে পারে ### সীমাবদ্ধতা 1. **বিশ্লেষণ পরিসর**: - শুধুমাত্র চক্রীয় ক্লায়েন্ট অংশগ্রহণ প্যাটার্ন বিশ্লেষণ করা - র্যান্ডম ইউনিফর্ম স্যাম্পলিং ভিন্ন আচরণ থাকতে পারে (কিন্তু [9] এর পরীক্ষা অনুরূপ ফলাফল দেখায়) 2. **সমস্যা সেটআপ**: - শক্তিশালী উত্তল ফাংশন বিবেচনা করা - বাস্তব গভীর শিক্ষা অ-উত্তল অপ্টিমাইজেশন, তাত্ত্বিক ফলাফল সম্পূর্ণভাবে প্রযোজ্য কিনা তা আরও গবেষণা প্রয়োজন 3. **সর্বনিম্নকরণ পরিস্থিতি**: - দুই ক্লায়েন্ট, এক-মাত্রিক প্যারামিটারের নির্মাণ অত্যন্ত আদর্শ - বাস্তব পরিস্থিতি আরও জটিল হতে পারে, কিন্তু তাত্ত্বিক নিম্ন সীমা ইতিমধ্যে মৌলিক সীমাবদ্ধতা প্রকাশ করেছে 4. **পরীক্ষামূলক স্কেল**: - গভীর শিক্ষার পরীক্ষা শুধুমাত্র CIFAR-10 এ পরিচালিত - বৃহত্তর স্কেল ডেটাসেট এবং মডেলের যাচাইকরণ অপেক্ষা করছে ### ভবিষ্যত দিকনির্দেশনা 1. **অ-উত্তল অপ্টিমাইজেশনে সম্প্রসারণ**: তাত্ত্বিক বিশ্লেষণ গভীর শিক্ষায় সাধারণ অ-উত্তল ক্ষতি ফাংশনে সম্প্রসারণ করা 2. **র্যান্ডম স্যাম্পলিং বিশ্লেষণ**: র্যান্ডম ইউনিফর্ম ক্লায়েন্ট স্যাম্পলিংয়ের অধীনে সংগ্রহের বৈশিষ্ট্য বিশ্লেষণ করা 3. **উন্নত অ্যালগরিদম ডিজাইন**: - GHBM এর বাইরে অন্যান্য সম্ভাব্য সীমাবদ্ধতা অতিক্রমকারী মোমেন্টাম ভেরিয়েন্ট অন্বেষণ করা - স্ব-অভিযোজিত শিক্ষার হার এবং মোমেন্টাম সংমিশ্রণকারী নতুন পদ্ধতি 4. **ব্যবহারিক সিস্টেম অপ্টিমাইজেশন**: বাস্তব ফেডারেটেড লার্নিং সিস্টেমে তাত্ত্বিক নির্দেশনা-চালিত অ্যালগরিদম ডিজাইনের কার্যকারিতা যাচাই করা ## গভীর মূল্যায়ন ### শক্তি #### 1. তাত্ত্বিক অবদানের গভীরতা - **কঠোর গাণিতিক প্রমাণ**: বিচ্ছিন্ন সময়ের রৈখিক সিস্টেম তত্ত্বের মাধ্যমে, সম্পূর্ণ সংগ্রহ বিশ্লেষণ প্রদান করা - **নির্ভুল সংগ্রহের হার সীমা**: শুধুমাত্র অ্যাসিম্পটোটিক জটিলতা নয়, ধ্রুবক ফ্যাক্টরের বিশ্লেষণও প্রদান করা - **বহু-পরিস্থিতি কভারেজ**: ধ্রুবক ধাপের আকার, ধীর হ্রাস, রৈখিক হ্রাস এবং দ্রুত হ্রাস চার ধরনের পরিস্থিতি সিস্টেমেটিকভাবে বিশ্লেষণ করা #### 2. পদ্ধতির উদ্ভাবনী প্রকৃতি - **সিস্টেম তত্ত্ব দৃষ্টিভঙ্গি**: প্রথমবারের জন্য ফেডারেটেড লার্নিং অ্যালগরিদমকে রৈখিক সিস্টেম হিসাবে মডেল করা, সম্পূর্ণ নতুন বিশ্লেষণ কাঠামো প্রদান করা - **শূন্য-ইনপুট/শূন্য-অবস্থা প্রতিক্রিয়া বিয়োজন**: স্পষ্টভাবে ভাগ করা লক্ষ্য অপ্টিমাইজেশন এবং বৈষম্য বিঘ্নের পারস্পরিক ক্রিয়া প্রকাশ করা - **কর্ণ বিন্যাসকরণ কৌশল**: সময়-পরিবর্তনশীল সিস্টেম বিশ্লেষণের কঠিন সমস্যা চতুরভাবে সমাধান করা #### 3. পরীক্ষামূলক সম্পূর্ণতা - **তাত্ত্বিক যাচাইকরণ সম্পূর্ণ**: Table I এবং II তাত্ত্বিক পূর্বাভাসের সমস্ত মূল বৈশিষ্ট্য নির্ভুলভাবে যাচাই করে - **ব্যবহারিক প্রাসঙ্গিকতা**: CIFAR-10 পরীক্ষা প্রমাণ করে যে তাত্ত্বিক আবিষ্কার বাস্তব গভীর শিক্ষায় প্রযোজ্য - **ব্যাপক তুলনা**: একই সাথে মোমেন্টাম সহ এবং ছাড়া, বিভিন্ন ধাপের আকারের সময়সূচীর কর্মক্ষমতা তুলনা করা #### 4. লেখার স্পষ্টতা - **ধাপে ধাপে নির্মাণ**: সমস্যা নির্মাণ থেকে সিস্টেম মডেলিং থেকে তাত্ত্বিক বিশ্লেষণ পর্যন্ত, যুক্তি স্পষ্ট - **স্বজ্ঞাত ব্যাখ্যা**: প্রতিটি তাত্ত্বিক ফলাফলের জন্য শারীরিক স্বজ্ঞা এবং গাণিতিক অর্থ প্রদান করা - **বিস্তারিত সংযোজন**: সম্পূর্ণ প্রমাণ বিবরণ (25 পৃষ্ঠা সংযোজন) পুনরুৎপাদনযোগ্যতা নিশ্চিত করা ### অপূর্ণতা #### 1. তাত্ত্বিক বিশ্লেষণের সীমাবদ্ধতা - **শক্তিশালী উত্তলতা অনুমান**: বাস্তব গভীর শিক্ষা অ-উত্তল, তাত্ত্বিক ফলাফলের সাধারণীকরণযোগ্যতা সীমিত - **সরলীকৃত পরিস্থিতি**: দুই ক্লায়েন্ট, এক-মাত্রিক প্যারামিটার সেটআপ অত্যন্ত আদর্শ - **চক্রীয় স্যাম্পলিং**: বাস্তব সিস্টেম বেশিরভাগ র্যান্ডম স্যাম্পলিং ব্যবহার করে, তাত্ত্বিক ফলাফলের প্রযোজ্যতা পরিসর আরও যাচাইকরণ প্রয়োজন #### 2. পরীক্ষামূলক সেটআপের ত্রুটি - **ডেটাসেট একক**: শুধুমাত্র CIFAR-10 এ যাচাইকরণ, ImageNet এর মতো বৃহত্তর স্কেল ডেটাসেটের পরীক্ষা অভাব - **মডেল স্কেল সীমিত**: ResNet-20 একটি ছোট মডেল, আধুনিক বড় মডেল (যেমন Transformer) এর আচরণ অজানা - **তুলনা পদ্ধতি অপর্যাপ্ত**: GHBM এর সাথে সরাসরি তুলনা নেই, কর্মক্ষমতা ফাঁক পরিমাণ করতে পারে না #### 3. ব্যবহারিক বিবেচনা - **নেতিবাচক ফলাফল**: প্রধানত "কী কাজ করে না" প্রমাণ করে, "কী কাজ করে" এর জন্য নির্দেশনা সীমিত - **হাইপারপ্যারামিটার সংবেদনশীলতা**: তত্ত্ব নির্ভুল ধাপের আকার নির্বাচন প্রয়োজন (যেমন $\eta = \Theta(1/T)$), বাস্তবে $T$ পূর্বে নির্ধারণ করা কঠিন - **যোগাযোগ খরচ**: যোগাযোগ রাউন্ড এবং গণনা খরচের মধ্যে ট্রেড-অফ বিবেচনা করা হয়নি #### 4. বিশ্লেষণ গভীরতা - **স্থানীয় পদক্ষেপ বিশ্লেষণ অপর্যাপ্ত**: যদিও $J > 1$ নির্ভরতা খারাপ করে উল্লেখ করা হয়েছে, কিন্তু নির্ভুল পরিমাণগত বিশ্লেষণ অভাব - **বিভিন্ন মোমেন্টাম ফ্যাক্টরের প্রভাব**: তত্ত্বে $\beta$ নির্বিচারে, কিন্তু এর নির্বাচন কৌশল বিস্তারিত অন্বেষণ করা হয়নি - **সংগ্রহ ধ্রুবক**: অ্যাসিম্পটোটিক বিশ্লেষণ ধ্রুবক ফ্যাক্টর লুকায়, বাস্তব সংগ্রহের গতি উল্লেখযোগ্যভাবে ভিন্ন হতে পারে ### প্রভাব #### 1. ক্ষেত্রে অবদান - **তাত্ত্বিক ভিত্তি**: ফেডারেটেড লার্নিংয়ে মোমেন্টাম ব্যবহারের জন্য কঠোর তাত্ত্বিক ভিত্তি প্রদান করা - **উন্মুক্ত প্রশ্নের উত্তর**: সম্প্রদায়ের যত্নশীল "মোমেন্টাম কি বৈষম্য অতিক্রম করতে পারে" প্রশ্নের স্পষ্ট উত্তর দেওয়া - **গবেষণা দিকনির্দেশনা**: GHBM এর মতো নতুন ধরনের মোমেন্টাম পদ্ধতির গুরুত্ব তুলে ধরা #### 2. ব্যবহারিক মূল্য - **অ্যালগরিদম ডিজাইন নির্দেশনা**: - অত্যন্ত দ্রুত হ্রাসমান ধাপের আকারের সময়সূচী এড়ানো ($\alpha > 1$) - উচ্চ বৈষম্য পরিস্থিতিতে, ক্লাসিক্যাল মোমেন্টাম প্রত্যাশার চেয়ে কম কার্যকর হতে পারে - GHBM এর মতো বিকল্প পদ্ধতি ব্যবহার বিবেচনা করা - **হাইপারপ্যারামিটার টিউনিং**: - ধাপের আকার $\Theta(1/T)$ পরিমাপে নির্বাচন করা উচিত - মোমেন্টাম ফ্যাক্টর $\beta$ নির্বাচন সংগ্রহের গতি এবং স্থিতিশীলতার মধ্যে ভারসাম্য প্রয়োজন #### 3. পুনরুৎপাদনযোগ্যতা - **চমৎকার**: - সম্পূর্ণ প্রমাণ বিবরণ (সংযোজন A-B) - স্পষ্ট পরীক্ষামূলক সেটআপ এবং হাইপারপ্যারামিটার - তাত্ত্বিক সমস্যার নির্মাণ সহজ এবং স্পষ্ট - **উন্নতির স্থান**: কোড প্রকাশিত হয়নি (পেপারে কোড সংগ্রহস্থল উল্লেখ নেই) ### প্রযোজ্য পরিস্থিতি #### প্রযোজ্য পরিস্থিতি 1. **তাত্ত্বিক গবেষণা**: - ফেডারেটেড লার্নিং সংগ্রহ বিশ্লেষণ - অপ্টিমাইজেশন অ্যালগরিদমের নিম্ন সীমা গবেষণা - বৈষম্য প্রভাবের পরিমাণগত বিশ্লেষণ 2. **অ্যালগরিদম নির্বাচন নির্দেশনা**: - উচ্চ বৈষম্য, আংশিক অংশগ্রহণের ফেডারেটেড লার্নিং পরিস্থিতি - তাত্ত্বিক গ্যারান্টি প্রয়োজনীয় গুরুত্বপূর্ণ প্রয়োগ (যেমন চিকিৎসা, আর্থিক) #### অপ্রযোজ্য পরিস্থিতি 1. **বৃহত্তর স্কেল অ-উত্তল অপ্টিমাইজেশন**: তত্ত্ব শক্তিশালী উত্তলতার উপর ভিত্তি করে, গভীর শিক্ষার প্রযোজ্যতা সাবধানে বিবেচনা করা প্রয়োজন 2. **সম্পূর্ণ অংশগ্রহণ পরিস্থিতি**: বিদ্যমান কাজ [8] প্রমাণ করেছে সম্পূর্ণ অংশগ্রহণে মোমেন্টাম কার্যকর, এই পেপারের নেতিবাচক ফলাফল প্রযোজ্য নয় 3. **যোগাযোগ-সীমিত পরিস্থিতি**: যোগাযোগ খরচ বিবেচনা করা হয়নি, মোমেন্টামের ব্যবহারিক মূল্য অবমূল্যায়িত হতে পারে ### সামগ্রিক মূল্যায়ন এটি একটি **তাত্ত্বিকভাবে কঠোর এবং অবদান স্পষ্ট** উৎকৃষ্ট পেপার। উদ্ভাবনী রৈখিক সিস্টেম বিশ্লেষণ কাঠামোর মাধ্যমে, এটি প্রথমবারের জন্য সিস্টেমেটিকভাবে ফেডারেটেড লার্নিংয়ে ক্লাসিক্যাল মোমেন্টামের মৌলিক সীমাবদ্ধতা প্রকাশ করে। যদিও তাত্ত্বিক অনুমান শক্তিশালী এবং পরীক্ষামূলক স্কেল সীমিত রয়েছে, তবে এর মূল অন্তর্দৃষ্টি — **মোমেন্টাম বৈষম্য প্রভাব দূর করতে পারে না, এবং দ্রুত হ্রাসমান ধাপের আকার ক্ষতিকর** — ফেডারেটেড লার্নিং অ্যালগরিদম ডিজাইনের জন্য গুরুত্বপূর্ণ নির্দেশনা প্রদান করে। পেপারের প্রধান মূল্য: 1. **তাত্ত্বিক সীমানা স্পষ্ট করা**: মোমেন্টাম পদ্ধতির প্রযোজ্যতা পরিসরের জন্য স্পষ্ট সীমানা আঁকা 2. **বিশ্লেষণ সরঞ্জাম প্রদান**: রৈখিক সিস্টেম মডেলিং অন্যান্য বিতরণকৃত অ্যালগরিদম বিশ্লেষণে প্রয়োগ করা যেতে পারে 3. **গবেষণা দিকনির্দেশনা**: GHBM এর মতো নতুন পদ্ধতির প্রয়োজনীয়তা তুলে ধরা ভবিষ্যত কাজের সুপারিশ: 1. অ-উত্তল অপ্টিমাইজেশন এবং র্যান্ডম স্যাম্পলিংয়ে সম্প্রসারণ 2. GHBM এর সাথে বিস্তারিত তাত্ত্বিক এবং পরীক্ষামূলক তুলনা 3. বৃহত্তর স্কেল বাস্তব সিস্টেমে তাত্ত্বিক নির্দেশনা-চালিত অ্যালগরিদম ডিজাইনের কার্যকারিতা যাচাই করা **সুপারিশ সূচক**: ★★★★☆ (4.5/5) - তাত্ত্বিক গভীরতা: ★★★★★ - ব্যবহারিক মূল্য: ★★★★☆ - উদ্ভাবনী প্রকৃতি: ★★★★★ - সম্পূর্ণতা: ★★★★☆ ## রেফারেন্স (মূল রেফারেন্স) [1] Polyak, B. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics. [2] Hsu et al. (2019). Measuring the effects of non-identical data distribution for federated visual classification. arXiv:1909.06335. [8] Cheng et al. (2024). Momentum benefits non-iid federated learning simply and provably. ICLR. [9] Zaccone et al. (2025). Communication-efficient heterogeneous federated learning with generalized heavy-ball momentum. Transactions on Machine Learning Research. [15] Jentzen & von Wurstemberger (2020). Lower error bounds for the stochastic gradient descent optimization algorithm. Journal of Complexity.