2025-11-11T23:28:21.956833

Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients

Wu, Li, Tian et al.

Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.

academic

Überbrückung von Speicherlücken: Skalierung des Föderativen Lernens für heterogene Clients

Grundinformationen

Paper-ID: 2408.10826
Titel: Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Autoren: Yebo Wu, Jingguang Li, Chunlin Tian, KaHou Tam, Li Li, Chengzhong Xu (Universität Macau)
Klassifizierung: cs.DC (Verteiltes Rechnen)
Veröffentlichungsdatum: August 2024 (arXiv v2: Oktober 2025)
Paper-Link: https://arxiv.org/abs/2408.10826v2

Zusammenfassung

Föderatives Lernen (FL) ermöglicht es mehreren Clients, ein gemeinsames Modell zu trainieren und dabei die Datenschutzbestimmungen einzuhalten. Jedoch beschränken hohe Speicheranforderungen während des Modelltrainings erheblich die Bereitstellung von FL auf ressourcenbeschränkten Clients. Zu diesem Zweck wird SCALEFL vorgestellt, ein skalierbares und inklusives FL-Framework, das Speicherbeschränkungen durch sequenzielles Block-Training überwindet. Die Kernidee von SCALEFL besteht darin, das globale Modell in Blöcke zu unterteilen und diese sequenziell zu trainieren, wodurch der Speicherbedarf beim Training reduziert wird. Um Informationsverluste beim Block-Training zu mildern, führt SCALEFL einen Curriculum-Mentor ein, der für jeden Block lehrplanbewusste Trainingsziele festlegt. Darüber hinaus integriert SCALEFL einen Training-Harmonizer, um ein parametersynergistisches adaptives Trainingsschema zu entwerfen, das die Informationsisolation zwischen Blöcken wirksam durchbricht.

Forschungshintergrund und Motivation

Kernprobleme

Speicherwand-Problem: Während des Trainings des föderativen Lernens müssen alle Zwischenaktivierungen, Modellgewichte und Optimiererzustände im Speicher behalten werden, was zu hohem Speicherverbrauch führt. Beispielsweise verbraucht das Training von ResNet34 auf ImageNet über 12 GB Speicher, während handelsübliche Mobilgeräte typischerweise nur 4-12 GB RAM haben.
Geräte-Heterogenität: Ressourcenbeschränkte Edge-Geräte können nicht am lokalen Training teilnehmen, was verhindert, dass ihre wertvollen Daten zum globalen Modell beitragen.
Einschränkungen bestehender Methoden:
- Modell-heterogenes Training: Erfordert hochwertige öffentliche Datensätze für Wissensdestillation, die in FL schwer zu erhalten sind
- Teiltraining: Breitenskalierung zerstört die Modellarchitektur, Tiefenskalierung wird durch die maximale Speicherkapazität des Clients begrenzt

Forschungsmotivation

Mit der Zunahme tieferer und breiterer Modellarchitekturen zur Erreichung höherer analytischer Fähigkeiten verschärft sich das Speicherproblem weiter. Dieses Paper zielt darauf ab, ein FL-Framework zu entwerfen, das sowohl die Speicheranforderungen beim Training erheblich reduziert als auch die Modellleistung beibehält.

Kernbeiträge

Vorstellung des SCALEFL-Frameworks: Reduziert die Speicheranforderungen beim Training durch sequenzielles Block-Training erheblich und ermöglicht ressourcenbeschränkten Geräten eine effektive Teilnahme
Entwurf zweier Kernkomponenten: Curriculum-Mentor und Training-Harmonizer prägen synergistisch das Lernverhalten jedes Blocks und fördern kohärentes strukturiertes Merkmalslernen
Umfassende experimentelle Validierung: Demonstriert die Effektivität und Robustheit von SCALEFL auf mehreren Benchmark-Datensätzen
Theoretische Analyse: Bietet Konvergenzanalyse und beweist die theoretische Zuverlässigkeit der Methode

Methodische Details

Aufgabendefinition

In einem FL-System mit N Clients besitzt jeder Client n einen lokalen Datensatz Dn. Das Ziel besteht darin, ein globales Modell Θ zu trainieren und gleichzeitig die Speicherbeschränkungen aller Clients zu erfüllen.

Sequenzielles Block-Training-Paradigma

Grundlegende Abläufe:

Modellkonstruktion: Der Server konstruiert das Teilmodell Θg,t = θ1,F, θ2,F, ..., θt, θOp für die aktuelle Trainingsphase t
Lokales Training: Aktualisierung nur des Blocks θt und des Ausgabemoduls θOp
Modellaggregation: Aggregation der Parameteraktualisierungen mittels gewichteter Mittelwertbildung
Fortschrittsbeurteilung: Überwachung des Trainingsfortschritts des Blocks θt und Beurteilung der Konvergenz
Modellwachstum: Einfrieren konvergierter Blöcke und Einführung neuer Blöcke

Kernkomponenten der Technologie

1. Curriculum-Mentor

Problemanalyse: Basierend auf der Informationsengpass-Theorie wird festgestellt, dass sequenzielles Block-Training zu erheblichem Informationsverlust führt. Die dynamische Analyse der nHSIC-Ebene zeigt, dass SBT nach dem Training des ersten Blocks große Mengen an Eingabeinformationen verliert, was verhindert, dass nachfolgende Blöcke kritische Merkmale extrahieren.

Lösungsansatz: Entwurf lehrplanbewusster Trainingsziele

L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)

Wobei:

L_CE die Kreuzentropie-Verlustfunktion ist
nHSIC(X;Zt) die Beibehaltung von Eingabeinformationen misst
nHSIC(Y;Zt) die aufgabenbezogene Relevanz misst
λt und γt je nach Trainingsphase dynamisch angepasst werden

Strategie: In der Anfangsphase werden höhere λt und niedrigere γt verwendet, um die Beibehaltung von Eingabeinformationen zu betonen. In der späteren Phase werden λt schrittweise reduziert und γt erhöht, um zur aufgabenspezifischen Merkmalsextraktion überzugehen.

2. Training-Harmonizer

Problemidentifikation:

Begrenzte Vorwärtsinformationsfluss: Nachgelagerte Blöcke beginnen erst mit dem Training, nachdem vorgelagerte Blöcke konvergiert sind
Begrenzte Rückwärtsinformationsfluss: Gradienten sind auf den Block beschränkt, was zu Gradienten-Isolation führt

Parametersynergistisches Adaptationsschema:

Dynamisches Modellwachstum: Dynamische Orchestrierung des Lernprozesses jedes Blocks in jeder Runde, sodass nachgelagerte Blöcke sich in Echtzeit an Aktualisierungen vorgelagerter Blöcke anpassen können
Gleichzeitige Trainingsstrategie: Gleichzeitiges Training des aktuellen Blocks mit den letzten Schichten vorgelagerter Blöcke, um den Gradientenfluss zu fördern

Aktualisierungsformel:

θ^(k+1)_(n,t) + L^(k+1)_(n,t-1) ← (θ^k_(n,t) + L^k_(n,t-1)) - η · ∂L^k_(n,t)/∂(θ^k_(n,t) + L^k_(n,t-1))

Vollständiges Trainingsziel

Kombination mit L2-Regularisierung zur Behandlung von Daten-Heterogenität:

L^r_t = L_θt + (μ/2)||θ^r_t - θ^(r-1)_t||^2_2

Experimentelle Einrichtung

Datensätze

CIFAR10/CIFAR100: Klassische Bildklassifizierungsdatensätze
CINIC10: CIFAR10-Erweiterungsversion
Mini-ImageNet: Kleinformatige ImageNet-Version
FEMNIST: Großformatiger FL-Datensatz (805.263 Bilder)

Modellarchitekturen

ResNet18/ResNet34: Tiefe Residualnetzwerke
VGG11 BN: Klassisches Faltungsnetzwerk
SqueezeNet: Leichtgewichtiges Netzwerk
Vision Transformer (ViT): Transformer-Architektur

Experimentelle Umgebung

Hybride Einrichtung: Simulation und echte Gerätetestbetten
Gerätekonfiguration: 100 heterogene Mobilgeräte, 10% zufällig pro Runde ausgewählt
Speicherbudget: 100-1000 MB zufällig zugewiesen
Optimierer: SGD, Gewichtsabfall 5e-4, lokale Epochen=5

Vergleichsmethoden

AllSmall: Globales Modell basierend auf dem schwächsten Gerätespeicher verkleinert
ExclusiveFL: Nur Geräte mit ausreichendem Speicher dürfen teilnehmen
DepthFL: Tiefenskalierung zur Anpassung an heterogene Geräte
HeteroFL: Statische Kanalskalierung
FedRolex: Dynamische Breitenskalierung
SmartFreeze: Einfaches sequenzielles Block-Training
ProFL: Zerlegtes sequenzielles Training

Experimentelle Ergebnisse

Hauptergebnisse

Leistung in nicht-IID-Szenarien:

Methode	CIFAR10 (ResNet18/VGG11/SqueezeNet)	Teilnahmequote
AllSmall	69,5%/75,1%/49,6%	100%/100%/100%
ExclusiveFL	76,8%/79,3%/40,6%	18%/22%/11%
SCALEFL	80,4%/87,6%/58,0%	100%/100%/100%

Wichtigste Erkenntnisse:

Signifikante Leistungssteigerung: Verbesserung um 10,9%, 12,5%, 8,4% gegenüber AllSmall
Vollständige Gerätebeteiligung: Erreicht 100% Gerätebeteiligungsquote, während ExclusiveFL nur 18-22% erreicht
Speichereffizienz: Spitzenspeichernutzung um bis zu 50,4% reduziert
Trainingsacceleration: Konvergenzgeschwindigkeit um das 1,9-fache erhöht

Skalierbarkeitsanalyse

Robustheit unter verschiedenen Speicherbeschränkungen:

Im ResNet34-Szenario ist ExclusiveFL völlig unbrauchbar (0% Beteiligungsquote)
SCALEFL bietet Verbesserungen von bis zu 27,4% gegenüber anderen Methoden

Großformatige Datensätze:

FEMNIST-Datensatz zeigt 3% Genauigkeitsverbesserung gegenüber FedAvg
Unterstützt Skalierung auf 120-500 Geräte

Transformer-Kompatibilität:

Auf ViT-Modellen nur 2% unter theoretischer Baseline, aber theoretische Baseline ist praktisch nicht durchführbar

Hardware-Evaluierung

Speichereffizienz:

Tests auf Jetson TX2 zeigen 50,4% Reduktion der Spitzenspeichernutzung
Trainingszeit pro Runde um 1,84-2,31-fach reduziert

Trainingseffizienz:

Signifikante Reduktion der Trainingszeit pro Runde gegenüber End-to-End-Training
1,9-fache Beschleunigung auf ViT

Ablationsstudien

Komponentenbeitragsanalyse:

Entfernung des Curriculum-Mentors: Genauigkeitsabfall um 1,2% im CIFAR100 IID-Szenario
Entfernung des Training-Harmonizers: Signifikanter Genauigkeitsabfall um 9,0%
Synergistische Zusammenarbeit beider Komponenten ist für Leistung entscheidend

Theoretische Analyse

Konvergenzbeweis

Das Paper bietet eine Konvergenzanalyse von SCALEFL und beweist unter Standardannahmen (Glattheit, begrenzte Gradienten):

(1/R) Σ E[||∇L^r_t(Θ^r_(g,t))||^2] ≤ Ψ/√R

Das heißt, die durchschnittliche Gradientennorm konvergiert gegen 0, und das Modell konvergiert zu einem stabilen Punkt.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

SCALEFL löst erfolgreich das Speicherwand-Problem in FL und ermöglicht ressourcenbeschränkten Geräten die Teilnahme am Training
Curriculum-Mentor und Training-Harmonizer mildern wirksam die Kernherausforderungen des sequenziellen Block-Trainings
Erreicht signifikante Leistungssteigerungen und Speichereinsparungen auf mehreren Datensätzen und Modellen

Einschränkungen

Block-Partitionierungsstrategie: Das Paper diskutiert nicht ausführlich optimale Block-Partitionierungsmethoden
Kommunikationsaufwand: Obwohl die Speichernutzung reduziert wird, kann die Anzahl der Kommunikationsrunden zunehmen
Hyperparameter-Sensitivität: Die Einstellung von λt und γt erfordert sorgfältige Abstimmung

Zukünftige Richtungen

Adaptive Block-Partitionierungsstrategien
Integration mit anderen FL-Optimierungstechniken
Validierung in größeren realen Bereitstellungen

Tiefgreifende Bewertung

Stärken

Problemrelevanz: Löst einen kritischen Engpass bei der praktischen Bereitstellung von FL
Methodische Innovativität: Lehrplanbewusste Trainingsziele und parametersynergistisches Adaptationsschema sind originell
Theoretische Grundlagen: Analyse basierend auf Informationsengpass-Theorie bietet solide theoretische Unterstützung
Experimentelle Vollständigkeit: Umfasst mehrere Modelle, Datensätze und echte Hardware-Tests
Praktischer Wert: Signifikante Speichereinsparungen und Leistungssteigerungen haben praktischen Anwendungswert

Mängel

Komplexität: Die Einführung der beiden Komponenten erhöht die Systemkomplexität
Hyperparameter-Abstimmung: Parameter wie λt, γt erfordern Abstimmung für verschiedene Szenarien
Kommunikationsanalyse: Mangelnde detaillierte Analyse des Kommunikationsaufwands
Konvergenzgeschwindigkeit: Obwohl einzelne Runden schneller sind, kann die Gesamtkonvergenzrundenzahl zunehmen

Auswirkungen

Akademischer Beitrag: Bietet neue Lösungsansätze für ressourcenbeschränktes FL
Praktischer Wert: Kann in ressourcenbeschränkten Umgebungen wie Mobilgeräten tatsächlich bereitgestellt werden
Reproduzierbarkeit: Bietet detaillierte experimentelle Einrichtungen und Parameterkonfigurationen

Anwendungsszenarien

Mobiles Geräte-FL: Speicherbeschränkte Szenarien wie Smartphones und IoT-Geräte
Edge-Computing: Umgebungen mit begrenzten Edge-Server-Ressourcen
Großmodell-Training: Szenarien, in denen große Modelle trainiert werden müssen, aber Geräteressourcen begrenzt sind

Literaturverzeichnis

Das Paper zitiert wichtige Arbeiten im FL-Bereich, einschließlich klassischer Methoden wie FedAvg, HeteroFL, FedRolex sowie theoretischer Grundlagen wie Informationsengpass-Theorie und HSIC. Die Literaturzitate sind umfassend und autoritativ.

Gesamtbewertung: Dies ist ein hochqualitatives Federated-Learning-Paper, das eine innovative Lösung für ein kritisches Problem bei der praktischen Bereitstellung bietet. Das Methodendesign ist vernünftig, die experimentelle Validierung ist umfassend, die theoretische Analyse ist vollständig und hat wichtigen akademischen und praktischen Wert.