2025-11-27T01:52:18.796624

On the Limits of Momentum in Decentralized and Federated Optimization

Zaccone, Karimireddy, Masone
Recent works have explored the use of momentum in local methods to enhance distributed SGD. This is particularly appealing in Federated Learning (FL), where momentum intuitively appears as a solution to mitigate the effects of statistical heterogeneity. Despite recent progress in this direction, it is still unclear if momentum can guarantee convergence under unbounded heterogeneity in decentralized scenarios, where only some workers participate at each round. In this work we analyze momentum under cyclic client participation, and theoretically prove that it remains inevitably affected by statistical heterogeneity. Similarly to SGD, we prove that decreasing step-sizes do not help either: in fact, any schedule decreasing faster than $Θ\left(1/t\right)$ leads to convergence to a constant value that depends on the initialization and the heterogeneity bound. Numerical results corroborate the theory, and deep learning experiments confirm its relevance for realistic settings.
academic

Über die Grenzen von Momentum in dezentralisierter und föderierter Optimierung

Grundlegende Informationen

  • Paper-ID: 2511.20168
  • Titel: On the Limits of Momentum in Decentralized and Federated Optimization
  • Autoren: Riccardo Zaccone (Polytechnikum Turin), Sai Praneeth Karimireddy (USC), Carlo Masone (Polytechnikum Turin)
  • Klassifizierung: cs.LG (Maschinelles Lernen), cs.AI
  • Veröffentlichungsdatum: November 2025 (arXiv-Preprint)
  • Paper-Link: https://arxiv.org/abs/2511.20168

Zusammenfassung

Diese Arbeit untersucht eingehend die theoretischen Grenzen von Momentum (Trägheit) in föderiertem Lernen und dezentralisierter Optimierung. Obwohl neuere Forschungen die Verwendung von Momentum in lokalen Methoden zur Verbesserung von verteiltem SGD erforscht haben, insbesondere im föderativen Lernen zur Abschwächung der Auswirkungen statistischer Heterogenität, bleibt unklar, ob Momentum unter unbegrenzter Heterogenität Konvergenz in dezentralisierten Szenarien mit teilweiser Clientbeteiligung garantieren kann. Diese Arbeit beweist durch theoretische Analyse zyklischer Clientbeteiligungsmuster, dass Momentum unvermeidlich durch statistische Heterogenität beeinflusst wird. Darüber hinaus helfen auch abnehmende Schrittweiten nicht: Jeder Zeitplan mit schnellerer Abnahme als Θ(1/t) führt zu Konvergenz gegen einen konstanten Wert, der von der Initialisierung und der Heterogenitätsschranke abhängt. Numerische Experimente und Deep-Learning-Experimente validieren die Korrektheit der Theorie und ihre Relevanz in praktischen Szenarien.

Forschungshintergrund und Motivation

Kernproblem

Das Kernproblem dieser Arbeit ist: Kann die klassische Momentum-Methode unter Bedingungen unbegrenzter Heterogenität Konvergenz in dezentralisierten Lernszenarien mit teilweiser Clientbeteiligung garantieren?

Bedeutung des Problems

  1. Praktische Anforderungen des föderativen Lernens: Moderne Deep-Learning-Anwendungen erfordern Training auf verteilten Dateninseln oder persönlichen Geräten, wobei Clients typischerweise nicht in jeder Runde teilnehmen können (aufgrund von Netzwerkfehlern, Datenschutzbeschränkungen oder vorübergehender Nichtverfügbarkeit)
  2. Herausforderung der statistischen Heterogenität: Die nicht-identisch verteilte (non-IID) Natur der Clientdaten führt zu Client-Drift und verzerrten Server-Updates
  3. Unvollständiges theoretisches Verständnis: Obwohl Momentum weit verbreitet in verteilten Algorithmen verwendet wird, ist das theoretische Verständnis seiner Eigenschaften in dezentralisierten Umgebungen noch unvollständig

Einschränkungen bestehender Methoden

  • FedAvgM und FedCM und andere Momentum-basierte Föderiertes-Lernen-Algorithmen zeigen gute praktische Leistung, bieten aber keine theoretischen Garantien unter teilweiser Beteiligung
  • Bestehende theoretische Ergebnisse:
    • 8 beweist, dass Momentum unter vollständiger Beteiligung unter unbegrenzter Heterogenität konvergiert
    • 9 Das vorgeschlagene GHBM erreicht auch unter zyklischer teilweiser Beteiligung ähnliche Garantien
    • Aber die theoretischen Eigenschaften von klassischem Momentum unter teilweiser Beteiligung bleiben unklar

Forschungsmotivation

Durch strenge theoretische Analyse die grundlegenden Grenzen klassischer Momentum-Methoden klären und theoretische Richtlinien für das Design von Föderiertes-Lernen-Algorithmen bereitstellen.

Kernbeiträge

Die Hauptbeiträge dieser Arbeit sind:

  1. Theoretischer Beweis, dass Momentum Heterogenität nicht eliminieren kann: Unter zyklischem Client-Sampling wird formal bewiesen, dass Momentum die Auswirkungen von Datenheterogenität nicht eliminieren kann — dies ist ein Kernproblem in dezentralisiertem und föderiertem Lernen
  2. Negative Ergebnisse für abnehmende Schrittweiten: Es wird bewiesen, dass jeder Zeitplan mit schnellerer Abnahme als Θ(1/t) zu Konvergenz gegen einen konstanten Wert führt, der von der Initialisierung und der Heterogenitätsschranke abhängt, nicht gegen die optimale Lösung
  3. Systematischer Analyse-Rahmen: Durch Modellierung der Algorithmusdynamik als zeitdiskretes lineares System wird eine klare Zerlegung bereitgestellt:
    • Nulleingangsantwort (zero-input response) erfasst das gemeinsame Ziel aller Clients
    • Nullzustandsantwort (zero-state response) isoliert die Heterogenitätsziele
  4. Experimentelle Validierung: Durch numerische Experimente zu theoretischen Problemen und Deep-Learning-Experimente (CIFAR-10) wird die Relevanz der theoretischen Erkenntnisse in praktischen Szenarien validiert

Methodische Details

Aufgabendefinition

Betrachten Sie ein verteiltes Lernsystem, bei dem eine Menge von Clients S zusammenarbeitet, um ein Lernproblem zu lösen, formalisiert als endliche Summen-Optimierungsproblem:

θ=argminθRd[f(θ):=1SiSfi(θ)]\theta^* = \arg\min_{\theta \in \mathbb{R}^d} \left[ f(\theta) := \frac{1}{|S|} \sum_{i \in S} f_i(\theta) \right]

Wobei:

  • fi(θ)f_i(\theta) die lokale Zielfunktion von Client ii ist
  • f(θ)f(\theta) die globale Zielfunktion ist
  • In jeder Runde tt nur eine Teilmenge StSS_t \subset S von Clients teilnimmt (teilweise Beteiligung)

Theoretischer Analyse-Rahmen

1. Konstruktion des einfachsten Heterogenitätsproblems

Um das Verhalten von Momentum unter Heterogenität zu analysieren, wurde das einfachste Szenario konstruiert, das am günstigsten für Momentum ist:

  • Zwei Clients: f1(θ)=μ2θ2+Gθf_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta, f2(θ)=μ2θ2Gθf_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta
  • Zyklisches Sampling: In jeder Runde wird abwechselnd ein Client ausgewählt
  • Globales Ziel: f(θ)=12(f1(θ)+f2(θ))=μ2θ2f(\theta) = \frac{1}{2}(f_1(\theta) + f_2(\theta)) = \frac{\mu}{2}\theta^2, optimale Lösung θ=0\theta^* = 0

Diese Einstellung erfüllt:

  • μ\mu-starke Konvexität (Annahme III.1)
  • Begrenzte Gradienten-Differenz: 1Si=1Sfi(θ)f(θ)G\frac{1}{|S|}\sum_{i=1}^{|S|} \|\nabla f_i(\theta) - \nabla f(\theta)\| \leq G (Annahme III.2)
  • Zyklische Beteiligung (Annahme III.3)

2. Modellierung als zeitdiskretes lineares System (Lemma III.4)

Die Aktualisierungsregeln von FedAvgM und FedCM werden als zeitdiskretes lineares System modelliert:

z[t] = A[t]z[t-1] + Bu[t] \\ y[t] = Cz[t] \end{cases}$$ Wobei: - Zustand: $z[t] = (\theta_t, \theta_{t-1})^T$ - Eingang: $u[t] = ((-1)^t q_t^{(a)} G)$ (Heterogenitäts-Antriebsterm) - Ausgang: $y[t] = \theta_t$ - Zustandsmatrix: $A[t] = \begin{pmatrix} p_t^{(a)} & -r_t^{(a)} \\ 1 & 0 \end{pmatrix}$ Für einzelne lokale Updates ($J=1$) haben FedAvgM und FedCM die gleiche Aktualisierungsregel: $$\theta_t = \theta_{t-1}(1 - \mu\tilde{\eta}_t + \beta) - \beta\theta_{t-2} + (-1)^t\tilde{\eta}_t G$$ Wobei $\tilde{\eta}_t = \eta_t(1-\beta)$. #### 3. Zerlegung der Systemantwort Durch Expansion der Rekursion kann die Systemausgabe zerlegt werden in: $$y[t] = \underbrace{C\Psi(t,1)z[1]}_{\text{Nulleingangsantwort}} + \underbrace{C\sum_{k=2}^t \Psi(t,k)Bu[k]}_{\text{Nullzustandsantwort}}$$ Wobei die Zustandsübergangsmatrix: $\Psi(t,k) := \prod_{s=k+1}^t A[s]$ **Physikalische Interpretation**: - **Nulleingangsantwort**: Entspricht der Optimierung des gemeinsamen Ziels $f_{hom}(\theta) = f(\theta)$, spiegelt den Einfluss der Anfangsbedingung wider - **Nullzustandsantwort**: Entspricht dem Heterogenitätsterm $f_{het}(\theta) = \pm G\theta$ als externe Störung ### Technische Innovationen #### 1. Systemtheoretische Perspektive - Erstmalige Modellierung von Momentum-Algorithmen im föderativen Lernen als zeitdiskretes lineares System - Durch die Zerlegung von Nulleingangs-/Nullzustandsantwort wird der Wirkmechanismus von Heterogenität als "Störungssignal" klar offengelegt #### 2. Diagonalisierungstechnik (Beweis von Theorem III.6) Für zeitvariante Systeme wird die Zustandsmatrix zerlegt in: $$A[t] = A_\infty + E[t]$$ Wobei $A_\infty$ der Grenzmatrix für $\eta_t \to 0$ entspricht, dann durch Diagonalisierung: $$\bar{z}[t] = P^{-1}z[t] = (\Lambda + H[t])\bar{z}[t-1] + Wu[t]$$ werden die Eigenwerte $\lambda_1 = 1$ (grenzstabil) und $\lambda_2 = \beta < 1$ (asymptotisch stabil) entsprechenden entkoppelten Richtungen erhalten. #### 3. Selbstkonsistente Ansatz-Methode (Self-consistent Ansatz) Für gekoppelte Systeme wird die asymptotische Form von $\bar{z}_1[t]$ angenommen und überprüft, ob die daraus abgeleitete $\bar{z}_2[t]$ zu konsistenten Schlussfolgerungen führt. ## Haupttheoretische Ergebnisse ### Theorem III.5: Konvergenzrate bei konstanter Schrittweite **Theorem-Aussage**: Für beliebige positive Konstanten $G, \mu$ existieren $\mu$-stark konvexe Funktionen, die Annahme III.2 erfüllen. Unter angemessener konstanter Schrittweite $\eta$ und beliebigem Momentum-Faktor $\beta \in [0,1)$ ist der asymptotische Fehler von FedCM und FedAvgM unter zyklischer teilweiser Beteiligung: $$f(\theta_t) - f(\theta^*) = \Theta\left(\frac{G^2}{\mu T^2}\right)$$ **Schlüsselerkenntnisse**: 1. **Nulleingangsantwort**: Unter Erfüllung der Eigenwert-Bedingung $\eta \in (0, \frac{2(1+\beta)}{\mu(1-\beta)})$ konvergiert sie mit exponentieller Rate 2. **Nullzustandsantwort**: Konvergiert zu einem 2-Perioden-Grenzzyklus mit Amplitude: $$|\theta_\infty| = \frac{\eta(1-\beta)G}{2(1+\beta) - \mu\eta(1-\beta)}$$ 3. **Schrittweiten-Beschränkung**: Um den Konvergenzfehler zu kontrollieren, muss $\eta = \Theta(1/T)$ gewählt werden, was zu linearer Konvergenzrate $O(1/T^2)$ führt **Physikalische Bedeutung**: Momentum kann die durch Heterogenität verursachten periodischen Oszillationen nicht eliminieren; die Amplitude muss durch Verringerung der Schrittweite kontrolliert werden. ### Theorem III.6: Konvergenzrate bei abnehmender Schrittweite **Theorem-Aussage**: Für polynomisch abnehmende Schrittweite $\eta_t \sim O(1/t^\alpha)$ ist der Fehler, selbst wenn von der optimalen Lösung initialisiert ($\theta_0 = \theta^*$): $$f(\theta_t) - f(\theta^*) = \begin{cases} \Theta\left(\frac{G^2}{\mu t^{2\alpha}}\right) & \text{wenn } 0 < \alpha < 1 \\ \Theta\left(\frac{G^2}{\mu t^{2\min(\mu\eta, 1)}}\right) & \text{wenn } \alpha = 1 \\ \Theta\left(\frac{G^2}{\mu}\right) & \text{wenn } \alpha > 1 \end{cases}$$ **Schlüsselfunde**: 1. **Langsame Abnahme ($0 < \alpha < 1$)**: - Nulleingangsantwort fällt mit polynomialer Rate $O(t^{-\alpha})$ ab - Nullzustandsantwort fällt weiterhin exponentiell ab - Konvergenzrate $O(t^{-2\alpha})$ ist langsamer als konstante Schrittweite $O(T^{-2})$ 2. **Lineare Abnahme ($\alpha = 1$)**: - Konvergenzrate hängt von der anfänglichen Schrittweite $\eta$ ab - Wenn $\eta < 1/\mu$, beeinflusst die Initialisierung die Konvergenzrate $O(t^{-\mu\eta})$ - Wenn $\eta \geq 1/\mu$, ist die Konvergenzrate $O(t^{-1})$ 3. **Schnelle Abnahme ($\alpha > 1$)**: - **Konvergiert nicht zur optimalen Lösung**, konvergiert zu einer Konstante $\Theta(G/\mu)$ - Zustandsübergangsmatrix fällt nicht mehr auf Null ab - Sowohl Nulleingangs- als auch Nullzustandsantwort konvergieren zu einer Konstante, die von $G$ und $\theta_0$ abhängt **Mathematische Intuition**: Durch die in Lemmas B.2-B.9 etablierten asymptotischen Schranken der Zustandsübergangsmatrizen $\Psi_1(t,s,\alpha)$ und $\Psi_2(t,s,\alpha)$ wird das Konvergenzverhalten in verschiedenen $\alpha$-Bereichen präzise charakterisiert. ## Experimentelle Einrichtung ### Theoretische Experimente **Zielfunktionen**: $f_1(\theta) = \frac{\mu}{2}\theta^2 + G\theta$, $f_2(\theta) = \frac{\mu}{2}\theta^2 - G\theta$ **Parametereinstellung**: - $\mu = 1$ (Parameter der starken Konvexität) - $G \in \{0, 10, 100\}$ (Heterogenitätsniveaus) - $\theta_0 \in \{0, 10\}$ (Initialisierung) - $\beta = 0.9$ (Momentum-Faktor) - $T = 10^6$ (Iterationen) **Schrittweiten-Zeitpläne**: 1. **Konstante Schrittweite**: $\eta_t = \eta$ 2. **Polynomische Abnahme**: $\eta_t = \eta/t^\alpha$, $\alpha \in \{0.1, 0.5, 1, 2\}$ 3. **Exponentielle Abnahme**: $\eta_t = \eta\gamma^t$, $\gamma \in \{0.9999, 0.999, 0.99, 0.9\}$ ### Deep-Learning-Experimente **Datensatz**: CIFAR-10 - Trainings-Vorverarbeitung: zufälliges Zuschneiden, zufälliges horizontales Spiegeln, Normalisierung - Anzahl der Clients: $|S| = 100$ - Datenaufteilung: Nach der Methode von [19], Simulation des höchsten Heterogenitätsniveaus (Dirichlet-Verteilung) **Modellarchitektur**: 1. **CNN**: Ähnliche LeNet-5-Architektur 2. **ResNet-20**: Verwendung von Group Normalization anstelle von Batch Normalization **Trainingseinstellung**: - Client-Sampling-Rate: $C = 10\%$ (zyklisches Sampling) - Lokale Schritte: $J = 1$ - Momentum-Faktor: $\beta = 0.9$ - Wiederholungen: 5 unabhängige Läufe **Hyperparameter-Suche**: - FedAvg: Server-Schrittweite $\eta \in \{2, 1.5, 1, 0.5, 0.1\}$, lokale Schrittweite $\eta_l \in \{0.1, 0.05, 0.01, 0.005\}$ - FedCM: ähnlicher Suchbereich ## Experimentelle Ergebnisse ### Theoretische Experimentergebnisse (Tabelle I) #### Schlüsselfunde: 1. **Lineare Auswirkung der Heterogenität**: - Wenn $G = 100$, dann $\theta_t \approx 2.5 \times 10^{-5}$ (konstante Schrittweite) - Wenn $G = 10$, dann $\theta_t \approx 2.5 \times 10^{-6}$ (konstante Schrittweite) - Das Verhältnis validiert die theoretische Vorhersage von $\Theta(G/\mu T)$ 2. **Auswirkung der Initialisierung**: - Für langsame Abnahme ($\alpha < 1$) und konstante Schrittweite sind die Endwerte für $\theta_0 = 0$ und $\theta_0 = 10$ identisch - Validiert die exponentielle Abnahmeeigenschaft der Nulleingangsantwort 3. **Schaden durch schnelle Abnahme** ($\alpha = 2$): - $G = 100, \theta_0 = 0$: $\theta_t = 4.8 \times 10^1$ - $G = 100, \theta_0 = 10$: $\theta_t = 5.7 \times 10^1$ - Konvergiert nicht zur optimalen Lösung $\theta^* = 0$ und hängt von der Initialisierung ab 4. **Momentum vs. kein Momentum Vergleich**: - Mit Momentum (links) und ohne Momentum (rechts) zeigen ähnliches Konvergenzverhalten - Beweist, dass Momentum die grundlegende Abhängigkeit von Heterogenität nicht verbessern kann ### Schrittweiten-Einfluss-Experiment (Tabelle II) Validiert die theoretischen Vorhersagen aus Theorem III.6 für $\alpha = 1$: | Anfängliche Schrittweite | $\theta_t$ ($\theta_0=0$) | $\theta_t$ ($\theta_0=10$) | |--------------------------|--------------------------|---------------------------| | $\eta = \frac{1(1+\beta)}{\mu(1-\beta)} - \epsilon$ | $2.5 \times 10^{-6}$ | $2.5 \times 10^{-6}$ | | $\eta = \frac{1}{\mu} - \epsilon$ | $-3.9 \times 10^{-6}$ | $-1.2 \times 10^{-4}$ | Wenn $\eta < 1/\mu$, hängt der Endwert von der Initialisierung ab, validiert die theoretische Konvergenzrate von $O(t^{-\mu\eta})$. ### Deep-Learning-Experimentergebnisse (Abbildung 1) **Experimenteinstellung**: CIFAR-10, zyklische Client-Beteiligung, hohe Heterogenität **Ergebnis-Beobachtungen**: 1. **FedAvg vs. FedCM (ResNet-20)**: - Test-Genauigkeit nach 10000 Runden: etwa 60-70% - Zentralisierte Trainings-Referenz-Genauigkeit: ≈89% - Leistungslücke ist erheblich, zeigt, dass Momentum Heterogenität nicht wirksam abschwächen kann 2. **FedAvg vs. FedCM (CNN)**: - Test-Genauigkeit nach 10000 Runden: etwa 50-60% - Zentralisierte Trainings-Referenz-Genauigkeit: ≈86% - FedAvg und FedCM zeigen ähnliche Leistung, kein offensichtlicher Vorteil 3. **Schlüsselerkenntnisse**: - Unter hoher Heterogenität und teilweiser Beteiligung können auf klassischem Momentum basierende FL-Methoden keine wesentliche Verbesserung bieten - Experimentelle Ergebnisse stimmen mit theoretischer Analyse überein: Momentum kann die grundlegende Auswirkung von Heterogenität nicht eliminieren ## Verwandte Arbeiten ### Endliche-Summen-Optimierung und SGD-Varianten 1. **SGD und zufällige Shuffle-Methoden**: - [12] Safran & Shamir 2020: Untersuchung der Leistung von zufälligem Shuffle-SGD - [13] Koloskova et al. 2024: IGD-Konvergenzrate für nicht-konvexe glatte Funktionen - [14] Liu & Zhou 2024: Konvergenz der letzten Iteration von Shuffle-Gradient-Methoden 2. **Untergrenzen für SGD**: - [15] Jentzen & von Wurstemberger 2020: Untergrenzen für abnehmende Schrittweiten - [16] Nguyen et al. 2019: Dimensions-unabhängige Untergrenzen - [17] Kim et al. 2025: IGD-Analyse für kleine Epochen bei schlecht konditionierten Problemen **Schlüsseldifferenz**: Alle oben genannten Arbeiten berücksichtigen nicht Momentum und erfordern Heterogenitätsschranken. Diese Arbeit beweist, dass selbst mit Momentum diese grundlegende Abhängigkeit bestehen bleibt. ### Momentum in verteiltem Lernen 1. **Momentum-Algorithmen im föderativen Lernen**: - [2] FedAvgM (Hsu et al. 2019): Server-seitiges Momentum - [4] FedCM (Xu et al. 2021): Client-seitiges Momentum - [5] FedADC: Beschleunigte Drift-Kontrolle - [6-7] Multi-Schritt-Trägheits-Momentum-Methoden 2. **Theoretische Fortschritte**: - [8] Cheng et al. 2024: Beweis, dass Momentum unter vollständiger Beteiligung unter unbegrenzter Heterogenität konvergiert - [9] GHBM (Zaccone et al. 2025): Umgeht die Einschränkung durch inkrementelle Gradienten-Aggregations-Perspektive - [10] SlowMo: Kommunikationseffizientes verteiltes SGD - [11] DiLoCo: Verteiltes Training von Sprachmodellen mit niedriger Kommunikation ### Einzigartige Beiträge dieser Arbeit Diese Arbeit ist die **erste systematische Analyse der grundlegenden Grenzen von klassischem Momentum unter teilweiser Beteiligung**: - Beantwortet eindeutig die offene Frage "Kann Momentum unter teilweiser Beteiligung Heterogenität eliminieren" (Antwort: Nein) - Bietet einen vollständigen theoretischen Analyse-Rahmen (lineare Systemsicht) - Beweist, dass GHBM [9] derzeit der einzige Momentum-Algorithmus ist, der diese Einschränkung umgeht ## Schlussfolgerungen und Diskussion ### Hauptschlussfolgerungen 1. **Grundlegende Grenzen von Momentum**: Unter zyklischer Client-Beteiligung können klassische Momentum-Methoden (FedAvgM und FedCM) **statistische Heterogenität nicht eliminieren**, die Konvergenzrate hängt weiterhin von der Heterogenitätsschranke $G$ ab 2. **Negative Ergebnisse für abnehmende Schrittweiten**: - Abnahme langsamer als $\Theta(1/t)$: Konvergenzrate wird langsamer - Abnahme gleich $\Theta(1/t)$: Konvergenzrate hängt von der anfänglichen Schrittweite ab - Abnahme schneller als $\Theta(1/t)$: **Konvergiert nicht zur optimalen Lösung** 3. **Auswirkung lokaler Schritte**: Das Erhöhen lokaler Schritte $J$ verschärft die Abhängigkeit von Heterogenität durch Client-Drift-Effekte, ändert aber nicht die asymptotische Konvergenzrate 4. **Besonderheit von GHBM**: GHBM [9] ist derzeit der einzige bekannte Momentum-Algorithmus, der diese Einschränkung unter teilweiser Beteiligung umgehen kann ### Einschränkungen 1. **Analyse-Umfang**: - Analysiert nur zyklische Client-Beteiligungsmuster - Zufälliges gleichmäßiges Sampling könnte unterschiedliches Verhalten zeigen (aber Experimente in [9] zeigen ähnliche Ergebnisse) 2. **Problemeinstellung**: - Betrachtet stark konvexe Funktionen - Praktisches Deep Learning ist nicht-konvex; die vollständige Anwendbarkeit theoretischer Ergebnisse erfordert weitere Forschung 3. **Vereinfachte Szenarien**: - Die Konstruktion mit zwei Clients ist das günstigste Szenario für Momentum - Praktische Szenarien könnten komplexer sein, aber die theoretische Untergrenze offenbart bereits grundlegende Einschränkungen 4. **Experimenteller Umfang**: - Deep-Learning-Experimente nur auf CIFAR-10 - Validierung auf größeren Datensätzen und Modellen erforderlich ### Zukünftige Richtungen 1. **Erweiterung auf nicht-konvexe Optimierung**: Theoretische Analyse auf nicht-konvexe Verlustfunktionen erweitern, die in Deep Learning üblich sind 2. **Analyse zufälliger Sampling**: Konvergenzeigenschaften unter zufälligem gleichmäßigem Client-Sampling analysieren 3. **Verbessertes Algorithmus-Design**: - Andere Momentum-Varianten erkunden, die diese Einschränkung umgehen könnten - Neue Methoden, die adaptive Lernraten und Momentum kombinieren 4. **Praktische Systemoptimierung**: Theoretisch geleitetes Algorithmus-Design in praktischen Föderiertes-Lernen-Systemen validieren ## Tiefgreifende Bewertung ### Stärken #### 1. Tiefe des theoretischen Beitrags - **Strenge mathematische Beweise**: Durch Theorie zeitdiskreter linearer Systeme wird eine vollständige Konvergenzanalyse bereitgestellt - **Präzise Konvergenzraten**: Nicht nur asymptotische Komplexität, sondern auch Analyse von Konstanten-Faktoren - **Mehrfach-Szenario-Abdeckung**: Systematische Analyse von vier Fällen: konstante Schrittweite, langsame Abnahme, lineare Abnahme und schnelle Abnahme #### 2. Innovativität der Methode - **Systemtheoretische Perspektive**: Erstmalige Modellierung von Föderiertes-Lernen-Algorithmen als lineares System, bietet völlig neue Analyse-Rahmen - **Zerlegung von Nulleingangs-/Nullzustandsantwort**: Klar offengelegte gegenseitige Wechselwirkung zwischen gemeinsamer Zieloptimierung und Heterogenitätsstörung - **Diagonalisierungstechnik**: Geschickter Umgang mit der Analyse-Schwierigkeit zeitvarianter Systeme #### 3. Ausreichendheit der Experimente - **Vollständige theoretische Validierung**: Tabellen I und II validieren präzise alle Schlüsseleigenschaften der Theorie - **Praktische Relevanz**: CIFAR-10-Experimente zeigen die Anwendbarkeit theoretischer Erkenntnisse auf praktisches Deep Learning - **Umfassende Vergleiche**: Gleichzeitiger Vergleich von mit/ohne Momentum, verschiedene Schrittweiten-Zeitpläne #### 4. Klarheit des Schreibens - **Schrittweise Konstruktion**: Von Problemkonstruktion über Systemmodellierung bis theoretische Analyse, logisch klar - **Intuitive Erklärungen**: Für jedes theoretische Ergebnis wird physikalische Intuition und mathematische Bedeutung bereitgestellt - **Detaillierter Anhang**: Vollständige Beweis-Details (25-Seiten-Anhang) gewährleisten Reproduzierbarkeit ### Schwächen #### 1. Einschränkungen der theoretischen Analyse - **Stark-Konvexitäts-Annahme**: Praktisches Deep Learning ist nicht-konvex, die Verallgemeinerbarkeit theoretischer Ergebnisse ist begrenzt - **Vereinfachte Szenarien**: Zwei-Client-, eindimensionale Parameter-Einstellung ist zu idealisiert - **Zyklisches Sampling**: Praktische Systeme verwenden meist zufälliges Sampling, der Anwendungsbereich theoretischer Ergebnisse erfordert weitere Verifikation #### 2. Mängel der experimentellen Einrichtung - **Einzelner Datensatz**: Nur CIFAR-10 validiert, Experimente auf großen Datensätzen wie ImageNet fehlen - **Begrenzte Modellgröße**: ResNet-20 ist ein kleineres Modell, das Verhalten moderner großer Modelle (wie Transformer) ist unbekannt - **Unzureichende Vergleichsmethoden**: Keine direkten Vergleiche mit GHBM, Leistungsunterschiede können nicht quantifiziert werden #### 3. Praktische Überlegungen - **Negative Ergebnisse**: Hauptsächlich bewiesen "was nicht funktioniert", Anleitung für "was funktioniert" ist begrenzt - **Hyperparameter-Sensitivität**: Theorie erfordert präzise Schrittweiten-Auswahl (wie $\eta = \Theta(1/T)$), in der Praxis schwer vorab zu bestimmen - **Kommunikationskosten**: Kommunikationsrunden vs. Rechenkosten-Abwägung nicht berücksichtigt #### 4. Analyse-Tiefe - **Unzureichende Analyse lokaler Schritte**: Obwohl erwähnt, dass $J > 1$ die Abhängigkeit verschärft, fehlt präzise Quantifizierung - **Auswirkung verschiedener Momentum-Faktoren**: In der Theorie ist $\beta$ beliebig, aber Auswahlstrategien nicht detailliert erforscht - **Konvergenz-Konstanten**: Asymptotische Analyse verbirgt Konstanten-Faktoren, praktische Konvergenzgeschwindigkeit könnte erheblich variieren ### Einfluss #### 1. Beitrag zum Forschungsgebiet - **Theoretische Grundlagen**: Bietet strenge theoretische Grundlagen für die Verwendung von Momentum im föderativen Lernen - **Beantwortung offener Fragen**: Beantwortet eindeutig die von der Community interessierte Frage "Kann Momentum Heterogenität überwinden" - **Forschungsrichtung**: Weist auf die Wichtigkeit neuer Momentum-Methoden wie GHBM hin #### 2. Praktischer Wert - **Algorithmus-Design-Richtlinien**: - Vermeidung zu schnell abnehmender Schrittweiten-Zeitpläne ($\alpha > 1$) - Unter hoher Heterogenität könnte klassisches Momentum weniger wirksam sein als erwartet - Erwägen Sie die Verwendung alternativer Methoden wie GHBM - **Hyperparameter-Tuning**: - Schrittweite sollte $\Theta(1/T)$-Größenordnung sein - Momentum-Faktor $\beta$ erfordert Abwägung zwischen Konvergenzgeschwindigkeit und Stabilität #### 3. Reproduzierbarkeit - **Ausgezeichnet**: - Vollständige Beweis-Details (Anhänge A-B) - Klare experimentelle Einrichtung und Hyperparameter - Theoretische Problemkonstruktion ist einfach und verständlich - **Verbesserungspotential**: Code nicht öffentlich (Paper erwähnt kein Code-Repository) ### Anwendbare Szenarien #### Szenarien, in denen Anwendung geeignet ist 1. **Theoretische Forschung**: - Konvergenzanalyse föderativen Lernens - Untergrenzen-Forschung von Optimierungsalgorithmen - Quantitative Analyse von Heterogenitäts-Auswirkungen 2. **Algorithmus-Auswahl-Richtlinien**: - Föderiertes Lernen mit hoher Heterogenität und teilweiser Beteiligung - Anwendungen, die theoretische Garantien erfordern (wie Medizin, Finanzen) #### Szenarien, in denen Anwendung weniger geeignet ist 1. **Großflächige nicht-konvexe Optimierung**: Theorie basiert auf starker Konvexität, Anwendbarkeit auf Deep Learning erfordert Vorsicht 2. **Vollständige Beteiligungsszenarien**: Bestehende Arbeiten [8] beweisen, dass Momentum unter vollständiger Beteiligung funktioniert, negative Ergebnisse dieser Arbeit nicht anwendbar 3. **Kommunikations-begrenzte Szenarien**: Kommunikationskosten nicht berücksichtigt, könnte den praktischen Wert von Momentum unterschätzen ### Gesamtbewertung Dies ist eine **theoretisch strenge und klar beitragend ausgezeichnete Arbeit**. Durch einen innovativen linearen Systemanalyse-Rahmen werden erstmals systematisch die grundlegenden Grenzen von klassischem Momentum im föderativen Lernen offengelegt. Trotz stärkerer theoretischer Annahmen und begrenztem experimentellem Umfang haben ihre Kernerkenntnisse — **Momentum kann Heterogenität nicht eliminieren, und schnelle Schrittweiten-Abnahme ist schädlich** — wichtige Bedeutung für das Design von Föderiertes-Lernen-Algorithmen. Der Hauptwert der Arbeit liegt in: 1. **Klare theoretische Grenzen**: Zieht klare Grenzen für den Anwendungsbereich von Momentum-Methoden 2. **Bereitstellung von Analyse-Werkzeugen**: Lineare Systemmodellierung kann auf Analyse anderer verteilter Algorithmen verallgemeinert werden 3. **Forschungsrichtung**: Unterstreicht die Notwendigkeit neuer Methoden wie GHBM Empfehlungen für zukünftige Arbeiten: 1. Erweiterung auf nicht-konvexe Optimierung und zufälliges Sampling 2. Detaillierte theoretische und experimentelle Vergleiche mit GHBM 3. Validierung theoretisch geleiteter Algorithmus-Designs in großflächigen praktischen Systemen **Empfehlungsindex**: ★★★★☆ (4.5/5) - Theoretische Tiefe: ★★★★★ - Praktischer Wert: ★★★★☆ - Innovativität: ★★★★★ - Vollständigkeit: ★★★★☆ ## Referenzen (Schlüsselliteratur) [1] Polyak, B. (1964). Some methods of speeding up the convergence of iteration methods. USSR Computational Mathematics and Mathematical Physics. [2] Hsu et al. (2019). Measuring the effects of non-identical data distribution for federated visual classification. arXiv:1909.06335. [8] Cheng et al. (2024). Momentum benefits non-iid federated learning simply and provably. ICLR. [9] Zaccone et al. (2025). Communication-efficient heterogeneous federated learning with generalized heavy-ball momentum. Transactions on Machine Learning Research. [15] Jentzen & von Wurstemberger (2020). Lower error bounds for the stochastic gradient descent optimization algorithm. Journal of Complexity.