2025-11-11T23:28:21.956833

Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients

Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
academic

Überbrückung von Speicherlücken: Skalierung des Föderativen Lernens für heterogene Clients

Grundinformationen

  • Paper-ID: 2408.10826
  • Titel: Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
  • Autoren: Yebo Wu, Jingguang Li, Chunlin Tian, KaHou Tam, Li Li, Chengzhong Xu (Universität Macau)
  • Klassifizierung: cs.DC (Verteiltes Rechnen)
  • Veröffentlichungsdatum: August 2024 (arXiv v2: Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2408.10826v2

Zusammenfassung

Föderatives Lernen (FL) ermöglicht es mehreren Clients, ein gemeinsames Modell zu trainieren und dabei die Datenschutzbestimmungen einzuhalten. Jedoch beschränken hohe Speicheranforderungen während des Modelltrainings erheblich die Bereitstellung von FL auf ressourcenbeschränkten Clients. Zu diesem Zweck wird SCALEFL vorgestellt, ein skalierbares und inklusives FL-Framework, das Speicherbeschränkungen durch sequenzielles Block-Training überwindet. Die Kernidee von SCALEFL besteht darin, das globale Modell in Blöcke zu unterteilen und diese sequenziell zu trainieren, wodurch der Speicherbedarf beim Training reduziert wird. Um Informationsverluste beim Block-Training zu mildern, führt SCALEFL einen Curriculum-Mentor ein, der für jeden Block lehrplanbewusste Trainingsziele festlegt. Darüber hinaus integriert SCALEFL einen Training-Harmonizer, um ein parametersynergistisches adaptives Trainingsschema zu entwerfen, das die Informationsisolation zwischen Blöcken wirksam durchbricht.

Forschungshintergrund und Motivation

Kernprobleme

  1. Speicherwand-Problem: Während des Trainings des föderativen Lernens müssen alle Zwischenaktivierungen, Modellgewichte und Optimiererzustände im Speicher behalten werden, was zu hohem Speicherverbrauch führt. Beispielsweise verbraucht das Training von ResNet34 auf ImageNet über 12 GB Speicher, während handelsübliche Mobilgeräte typischerweise nur 4-12 GB RAM haben.
  2. Geräte-Heterogenität: Ressourcenbeschränkte Edge-Geräte können nicht am lokalen Training teilnehmen, was verhindert, dass ihre wertvollen Daten zum globalen Modell beitragen.
  3. Einschränkungen bestehender Methoden:
    • Modell-heterogenes Training: Erfordert hochwertige öffentliche Datensätze für Wissensdestillation, die in FL schwer zu erhalten sind
    • Teiltraining: Breitenskalierung zerstört die Modellarchitektur, Tiefenskalierung wird durch die maximale Speicherkapazität des Clients begrenzt

Forschungsmotivation

Mit der Zunahme tieferer und breiterer Modellarchitekturen zur Erreichung höherer analytischer Fähigkeiten verschärft sich das Speicherproblem weiter. Dieses Paper zielt darauf ab, ein FL-Framework zu entwerfen, das sowohl die Speicheranforderungen beim Training erheblich reduziert als auch die Modellleistung beibehält.

Kernbeiträge

  1. Vorstellung des SCALEFL-Frameworks: Reduziert die Speicheranforderungen beim Training durch sequenzielles Block-Training erheblich und ermöglicht ressourcenbeschränkten Geräten eine effektive Teilnahme
  2. Entwurf zweier Kernkomponenten: Curriculum-Mentor und Training-Harmonizer prägen synergistisch das Lernverhalten jedes Blocks und fördern kohärentes strukturiertes Merkmalslernen
  3. Umfassende experimentelle Validierung: Demonstriert die Effektivität und Robustheit von SCALEFL auf mehreren Benchmark-Datensätzen
  4. Theoretische Analyse: Bietet Konvergenzanalyse und beweist die theoretische Zuverlässigkeit der Methode

Methodische Details

Aufgabendefinition

In einem FL-System mit N Clients besitzt jeder Client n einen lokalen Datensatz Dn. Das Ziel besteht darin, ein globales Modell Θ zu trainieren und gleichzeitig die Speicherbeschränkungen aller Clients zu erfüllen.

Sequenzielles Block-Training-Paradigma

Grundlegende Abläufe:

  1. Modellkonstruktion: Der Server konstruiert das Teilmodell Θg,t = θ1,F, θ2,F, ..., θt, θOp für die aktuelle Trainingsphase t
  2. Lokales Training: Aktualisierung nur des Blocks θt und des Ausgabemoduls θOp
  3. Modellaggregation: Aggregation der Parameteraktualisierungen mittels gewichteter Mittelwertbildung
  4. Fortschrittsbeurteilung: Überwachung des Trainingsfortschritts des Blocks θt und Beurteilung der Konvergenz
  5. Modellwachstum: Einfrieren konvergierter Blöcke und Einführung neuer Blöcke

Kernkomponenten der Technologie

1. Curriculum-Mentor

Problemanalyse: Basierend auf der Informationsengpass-Theorie wird festgestellt, dass sequenzielles Block-Training zu erheblichem Informationsverlust führt. Die dynamische Analyse der nHSIC-Ebene zeigt, dass SBT nach dem Training des ersten Blocks große Mengen an Eingabeinformationen verliert, was verhindert, dass nachfolgende Blöcke kritische Merkmale extrahieren.

Lösungsansatz: Entwurf lehrplanbewusster Trainingsziele

L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)

Wobei:

  • L_CE die Kreuzentropie-Verlustfunktion ist
  • nHSIC(X;Zt) die Beibehaltung von Eingabeinformationen misst
  • nHSIC(Y;Zt) die aufgabenbezogene Relevanz misst
  • λt und γt je nach Trainingsphase dynamisch angepasst werden

Strategie: In der Anfangsphase werden höhere λt und niedrigere γt verwendet, um die Beibehaltung von Eingabeinformationen zu betonen. In der späteren Phase werden λt schrittweise reduziert und γt erhöht, um zur aufgabenspezifischen Merkmalsextraktion überzugehen.

2. Training-Harmonizer

Problemidentifikation:

  • Begrenzte Vorwärtsinformationsfluss: Nachgelagerte Blöcke beginnen erst mit dem Training, nachdem vorgelagerte Blöcke konvergiert sind
  • Begrenzte Rückwärtsinformationsfluss: Gradienten sind auf den Block beschränkt, was zu Gradienten-Isolation führt

Parametersynergistisches Adaptationsschema:

  1. Dynamisches Modellwachstum: Dynamische Orchestrierung des Lernprozesses jedes Blocks in jeder Runde, sodass nachgelagerte Blöcke sich in Echtzeit an Aktualisierungen vorgelagerter Blöcke anpassen können
  2. Gleichzeitige Trainingsstrategie: Gleichzeitiges Training des aktuellen Blocks mit den letzten Schichten vorgelagerter Blöcke, um den Gradientenfluss zu fördern

Aktualisierungsformel:

θ^(k+1)_(n,t) + L^(k+1)_(n,t-1) ← (θ^k_(n,t) + L^k_(n,t-1)) - η · ∂L^k_(n,t)/∂(θ^k_(n,t) + L^k_(n,t-1))

Vollständiges Trainingsziel

Kombination mit L2-Regularisierung zur Behandlung von Daten-Heterogenität:

L^r_t = L_θt + (μ/2)||θ^r_t - θ^(r-1)_t||^2_2

Experimentelle Einrichtung

Datensätze

  • CIFAR10/CIFAR100: Klassische Bildklassifizierungsdatensätze
  • CINIC10: CIFAR10-Erweiterungsversion
  • Mini-ImageNet: Kleinformatige ImageNet-Version
  • FEMNIST: Großformatiger FL-Datensatz (805.263 Bilder)

Modellarchitekturen

  • ResNet18/ResNet34: Tiefe Residualnetzwerke
  • VGG11 BN: Klassisches Faltungsnetzwerk
  • SqueezeNet: Leichtgewichtiges Netzwerk
  • Vision Transformer (ViT): Transformer-Architektur

Experimentelle Umgebung

  • Hybride Einrichtung: Simulation und echte Gerätetestbetten
  • Gerätekonfiguration: 100 heterogene Mobilgeräte, 10% zufällig pro Runde ausgewählt
  • Speicherbudget: 100-1000 MB zufällig zugewiesen
  • Optimierer: SGD, Gewichtsabfall 5e-4, lokale Epochen=5

Vergleichsmethoden

  1. AllSmall: Globales Modell basierend auf dem schwächsten Gerätespeicher verkleinert
  2. ExclusiveFL: Nur Geräte mit ausreichendem Speicher dürfen teilnehmen
  3. DepthFL: Tiefenskalierung zur Anpassung an heterogene Geräte
  4. HeteroFL: Statische Kanalskalierung
  5. FedRolex: Dynamische Breitenskalierung
  6. SmartFreeze: Einfaches sequenzielles Block-Training
  7. ProFL: Zerlegtes sequenzielles Training

Experimentelle Ergebnisse

Hauptergebnisse

Leistung in nicht-IID-Szenarien:

MethodeCIFAR10 (ResNet18/VGG11/SqueezeNet)Teilnahmequote
AllSmall69,5%/75,1%/49,6%100%/100%/100%
ExclusiveFL76,8%/79,3%/40,6%18%/22%/11%
SCALEFL80,4%/87,6%/58,0%100%/100%/100%

Wichtigste Erkenntnisse:

  1. Signifikante Leistungssteigerung: Verbesserung um 10,9%, 12,5%, 8,4% gegenüber AllSmall
  2. Vollständige Gerätebeteiligung: Erreicht 100% Gerätebeteiligungsquote, während ExclusiveFL nur 18-22% erreicht
  3. Speichereffizienz: Spitzenspeichernutzung um bis zu 50,4% reduziert
  4. Trainingsacceleration: Konvergenzgeschwindigkeit um das 1,9-fache erhöht

Skalierbarkeitsanalyse

Robustheit unter verschiedenen Speicherbeschränkungen:

  • Im ResNet34-Szenario ist ExclusiveFL völlig unbrauchbar (0% Beteiligungsquote)
  • SCALEFL bietet Verbesserungen von bis zu 27,4% gegenüber anderen Methoden

Großformatige Datensätze:

  • FEMNIST-Datensatz zeigt 3% Genauigkeitsverbesserung gegenüber FedAvg
  • Unterstützt Skalierung auf 120-500 Geräte

Transformer-Kompatibilität:

  • Auf ViT-Modellen nur 2% unter theoretischer Baseline, aber theoretische Baseline ist praktisch nicht durchführbar

Hardware-Evaluierung

Speichereffizienz:

  • Tests auf Jetson TX2 zeigen 50,4% Reduktion der Spitzenspeichernutzung
  • Trainingszeit pro Runde um 1,84-2,31-fach reduziert

Trainingseffizienz:

  • Signifikante Reduktion der Trainingszeit pro Runde gegenüber End-to-End-Training
  • 1,9-fache Beschleunigung auf ViT

Ablationsstudien

Komponentenbeitragsanalyse:

  • Entfernung des Curriculum-Mentors: Genauigkeitsabfall um 1,2% im CIFAR100 IID-Szenario
  • Entfernung des Training-Harmonizers: Signifikanter Genauigkeitsabfall um 9,0%
  • Synergistische Zusammenarbeit beider Komponenten ist für Leistung entscheidend

Verwandte Arbeiten

Ressourcenbeschränktes FL

  1. Modell-heterogenes Training: Methoden wie FedMD erfordern öffentliche Datensätze für Wissensdestillation
  2. Teiltraining: HeteroFL, FedRolex durch Breitenskalierung, DepthFL, InclusiveFL durch Tiefenskalierung

Block-Training

  1. ProgFed: Progressive Einführung neuer Blöcke, erfordert aber immer noch End-to-End-Training
  2. SmartFreeze: Sequenzielles Training jedes Blocks, ignoriert aber Informationsverlustprobleme
  3. ProFL: Zerlegung in Schrumpfungs- und Wachstumsphasen, löst aber Kernherausforderungen nicht

Theoretische Analyse

Konvergenzbeweis

Das Paper bietet eine Konvergenzanalyse von SCALEFL und beweist unter Standardannahmen (Glattheit, begrenzte Gradienten):

(1/R) Σ E[||∇L^r_t(Θ^r_(g,t))||^2] ≤ Ψ/√R

Das heißt, die durchschnittliche Gradientennorm konvergiert gegen 0, und das Modell konvergiert zu einem stabilen Punkt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. SCALEFL löst erfolgreich das Speicherwand-Problem in FL und ermöglicht ressourcenbeschränkten Geräten die Teilnahme am Training
  2. Curriculum-Mentor und Training-Harmonizer mildern wirksam die Kernherausforderungen des sequenziellen Block-Trainings
  3. Erreicht signifikante Leistungssteigerungen und Speichereinsparungen auf mehreren Datensätzen und Modellen

Einschränkungen

  1. Block-Partitionierungsstrategie: Das Paper diskutiert nicht ausführlich optimale Block-Partitionierungsmethoden
  2. Kommunikationsaufwand: Obwohl die Speichernutzung reduziert wird, kann die Anzahl der Kommunikationsrunden zunehmen
  3. Hyperparameter-Sensitivität: Die Einstellung von λt und γt erfordert sorgfältige Abstimmung

Zukünftige Richtungen

  1. Adaptive Block-Partitionierungsstrategien
  2. Integration mit anderen FL-Optimierungstechniken
  3. Validierung in größeren realen Bereitstellungen

Tiefgreifende Bewertung

Stärken

  1. Problemrelevanz: Löst einen kritischen Engpass bei der praktischen Bereitstellung von FL
  2. Methodische Innovativität: Lehrplanbewusste Trainingsziele und parametersynergistisches Adaptationsschema sind originell
  3. Theoretische Grundlagen: Analyse basierend auf Informationsengpass-Theorie bietet solide theoretische Unterstützung
  4. Experimentelle Vollständigkeit: Umfasst mehrere Modelle, Datensätze und echte Hardware-Tests
  5. Praktischer Wert: Signifikante Speichereinsparungen und Leistungssteigerungen haben praktischen Anwendungswert

Mängel

  1. Komplexität: Die Einführung der beiden Komponenten erhöht die Systemkomplexität
  2. Hyperparameter-Abstimmung: Parameter wie λt, γt erfordern Abstimmung für verschiedene Szenarien
  3. Kommunikationsanalyse: Mangelnde detaillierte Analyse des Kommunikationsaufwands
  4. Konvergenzgeschwindigkeit: Obwohl einzelne Runden schneller sind, kann die Gesamtkonvergenzrundenzahl zunehmen

Auswirkungen

  1. Akademischer Beitrag: Bietet neue Lösungsansätze für ressourcenbeschränktes FL
  2. Praktischer Wert: Kann in ressourcenbeschränkten Umgebungen wie Mobilgeräten tatsächlich bereitgestellt werden
  3. Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtungen und Parameterkonfigurationen

Anwendungsszenarien

  1. Mobiles Geräte-FL: Speicherbeschränkte Szenarien wie Smartphones und IoT-Geräte
  2. Edge-Computing: Umgebungen mit begrenzten Edge-Server-Ressourcen
  3. Großmodell-Training: Szenarien, in denen große Modelle trainiert werden müssen, aber Geräteressourcen begrenzt sind

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten im FL-Bereich, einschließlich klassischer Methoden wie FedAvg, HeteroFL, FedRolex sowie theoretischer Grundlagen wie Informationsengpass-Theorie und HSIC. Die Literaturzitate sind umfassend und autoritativ.


Gesamtbewertung: Dies ist ein hochqualitatives Federated-Learning-Paper, das eine innovative Lösung für ein kritisches Problem bei der praktischen Bereitstellung bietet. Das Methodendesign ist vernünftig, die experimentelle Validierung ist umfassend, die theoretische Analyse ist vollständig und hat wichtigen akademischen und praktischen Wert.