2025-11-11T23:28:21.956833

Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients

Wu, Li, Tian et al.

Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.

academic

Combler les Lacunes Mémoire : Mise à l'Échelle de l'Apprentissage Fédéré pour Clients Hétérogènes

Informations Fondamentales

ID de l'article : 2408.10826
Titre : Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Auteurs : Yebo Wu, Jingguang Li, Chunlin Tian, KaHou Tam, Li Li, Chengzhong Xu (Université de Macao)
Classification : cs.DC (Informatique Distribuée)
Date de Publication : Août 2024 (arXiv v2 : Octobre 2025)
Lien de l'article : https://arxiv.org/abs/2408.10826v2

Résumé

L'apprentissage fédéré (AF) permet à plusieurs clients de collaborer à l'entraînement d'un modèle partagé tout en préservant la confidentialité des données. Cependant, les exigences élevées en matière de mémoire lors de l'entraînement du modèle limitent considérablement le déploiement de l'AF sur les clients aux ressources limitées. À cet effet, cet article propose SCALEFL, un cadre d'AF évolutif et inclusif qui surmonte les limitations de mémoire grâce à l'entraînement par blocs séquentiels. L'idée centrale de SCALEFL est de partitionner le modèle global en blocs et de les entraîner séquentiellement, réduisant ainsi les besoins en mémoire d'entraînement. Pour atténuer la perte d'information lors de l'entraînement par blocs, SCALEFL introduit un Mentor Pédagogique (Curriculum Mentor) qui formule des objectifs d'entraînement conscients du curriculum pour chaque bloc. De plus, SCALEFL intègre un Harmoniseur d'Entraînement (Training Harmonizer) conçu pour adapter les schémas d'entraînement par co-adaptation des paramètres, brisant efficacement l'isolement informationnel entre blocs.

Contexte de Recherche et Motivation

Problèmes Fondamentaux

Le Mur Mémoire : L'entraînement en apprentissage fédéré nécessite de conserver en mémoire toutes les activations intermédiaires, les poids du modèle et les états de l'optimiseur, entraînant une occupation mémoire élevée. Par exemple, l'entraînement de ResNet34 sur ImageNet consomme plus de 12 Go de mémoire, tandis que la RAM des appareils mobiles actuels est généralement limitée à 4-12 Go.
Hétérogénéité des Appareils : Les appareils périphériques aux ressources limitées ne peuvent pas participer à l'entraînement local, empêchant leurs données précieuses de contribuer au modèle global.
Limitations des Approches Existantes :
- Entraînement Hétérogène du Modèle : Nécessite des ensembles de données publics de haute qualité pour la distillation de connaissances, difficiles à obtenir en AF
- Entraînement Partiel : La mise à l'échelle en largeur déforme l'architecture du modèle, la mise à l'échelle en profondeur est limitée par la capacité mémoire maximale du client

Motivation de la Recherche

À mesure que les architectures de modèles deviennent plus profondes et plus larges pour obtenir une capacité analytique supérieure, le problème de mémoire s'aggrave. Cet article vise à concevoir un cadre d'AF capable de réduire considérablement les besoins en mémoire tout en maintenant les performances du modèle.

Contributions Principales

Proposition du Cadre SCALEFL : Réduit considérablement les besoins en mémoire d'entraînement grâce à l'entraînement par blocs séquentiels, permettant aux appareils aux ressources limitées de participer efficacement
Conception de Deux Composants Fondamentaux : Le Mentor Pédagogique et l'Harmoniseur d'Entraînement façonnent conjointement le comportement d'apprentissage de chaque bloc, favorisant l'apprentissage de caractéristiques structurées et cohérentes
Vérification Expérimentale Complète : Démontre l'efficacité et la robustesse de SCALEFL sur plusieurs ensembles de données de référence
Analyse Théorique : Fournit une analyse de convergence prouvant la fiabilité théorique de la méthode

Détails de la Méthode

Définition de la Tâche

Dans un système d'AF contenant N clients, chaque client n possède un ensemble de données local Dn. L'objectif est d'entraîner un modèle global Θ tout en satisfaisant les contraintes mémoire de chaque client.

Paradigme d'Entraînement par Blocs Séquentiels

Processus Fondamental :

Construction du Modèle : Le serveur construit un sous-modèle pour l'étape d'entraînement actuelle t : Θg,t = θ1,F, θ2,F, ..., θt, θOp
Entraînement Local : Mise à jour uniquement du bloc θt et du module de sortie θOp
Agrégation du Modèle : Agrégation des mises à jour de paramètres par moyenne pondérée
Évaluation de la Progression : Surveillance de la progression d'entraînement du bloc θt et jugement de la convergence
Croissance du Modèle : Gel des blocs convergents et introduction de nouveaux blocs

Composants Techniques Fondamentaux

1. Mentor Pédagogique (Curriculum Mentor)

Analyse du Problème : Basée sur la théorie du goulot d'étranglement informationnel, l'analyse révèle que l'entraînement par blocs séquentiels entraîne une perte d'information grave. L'analyse dynamique du plan nHSIC montre que l'EBS perd une grande quantité d'information d'entrée après l'entraînement du premier bloc, empêchant les blocs ultérieurs d'extraire les caractéristiques critiques.

Solution : Conception d'objectifs d'entraînement conscients du curriculum

L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)

Où :

L_CE est la perte d'entropie croisée
nHSIC(X;Zt) mesure la préservation de l'information d'entrée
nHSIC(Y;Zt) mesure la pertinence pour la tâche
λt et γt s'ajustent dynamiquement selon l'étape d'entraînement

Stratégie : En phase initiale, λt élevé et γt faible mettent l'accent sur la préservation de l'information d'entrée, tandis qu'en phase ultérieure, λt diminue progressivement et γt augmente, se tournant vers l'extraction de caractéristiques spécifiques à la tâche.

2. Harmoniseur d'Entraînement (Training Harmonizer)

Identification du Problème :

Flux d'Information Avant Limité : Les blocs en aval commencent l'entraînement uniquement après la convergence des blocs précédents
Flux d'Information Arrière Limité : Les gradients sont limités au bloc, entraînant un isolement des gradients

Schéma d'Adaptation par Co-adaptation des Paramètres :

Croissance Dynamique du Modèle : Orchestration dynamique du processus d'apprentissage de chaque bloc à chaque tour, permettant aux blocs en aval de s'adapter en temps réel aux mises à jour des blocs précédents
Stratégie d'Entraînement Concurrent : Entraînement simultané du bloc actuel avec les dernières couches du bloc précédent, favorisant le flux de gradients

Formule de mise à jour :

θ^(k+1)_(n,t) + L^(k+1)_(n,t-1) ← (θ^k_(n,t) + L^k_(n,t-1)) - η · ∂L^k_(n,t)/∂(θ^k_(n,t) + L^k_(n,t-1))

Objectif d'Entraînement Complet

Combinaison avec la régularisation L2 pour traiter l'hétérogénéité des données :

L^r_t = L_θt + (μ/2)||θ^r_t - θ^(r-1)_t||^2_2

Configuration Expérimentale

Ensembles de Données

CIFAR10/CIFAR100 : Ensembles de données classiques de classification d'images
CINIC10 : Version étendue de CIFAR10
Mini-ImageNet : Version à petite échelle d'ImageNet
FEMNIST : Ensemble de données d'AF à grande échelle (805 263 images)

Architectures de Modèles

ResNet18/ResNet34 : Réseaux résiduels profonds
VGG11 BN : Réseau convolutif classique
SqueezeNet : Réseau léger
Vision Transformer (ViT) : Architecture Transformer

Environnement Expérimental

Configuration Mixte : Tests de simulation et de banc d'essai d'appareils réels
Configuration des Appareils : 100 appareils mobiles hétérogènes, 10% sélectionnés aléatoirement par tour
Budget Mémoire : 100-1000 Mo alloués aléatoirement
Optimiseur : SGD, décroissance des poids 5e-4, epoch local=5

Méthodes de Comparaison

AllSmall : Réduction du modèle global basée sur la mémoire du dispositif le plus faible
ExclusiveFL : Permet uniquement la participation des appareils disposant de suffisamment de mémoire
DepthFL : Mise à l'échelle en profondeur adaptée aux appareils hétérogènes
HeteroFL : Mise à l'échelle statique des canaux
FedRolex : Mise à l'échelle dynamique en largeur
SmartFreeze : Entraînement simple par blocs séquentiels
ProFL : Entraînement par blocs séquentiels décomposé

Résultats Expérimentaux

Résultats Principaux

Performance dans les Scénarios Non-IID :

Méthode	CIFAR10 (ResNet18/VGG11/SqueezeNet)	Taux de Participation
AllSmall	69,5 %/75,1 %/49,6 %	100 %/100 %/100 %
ExclusiveFL	76,8 %/79,3 %/40,6 %	18 %/22 %/11 %
SCALEFL	80,4 %/87,6 %/58,0 %	100 %/100 %/100 %

Découvertes Clés :

Amélioration Significative des Performances : Amélioration de 10,9 %, 12,5 %, 8,4 % par rapport à AllSmall
Participation de Tous les Appareils : Réalise un taux de participation de 100 %, tandis qu'ExclusiveFL n'atteint que 18-22 %
Efficacité Mémoire : Réduction de l'utilisation maximale de mémoire jusqu'à 50,4 %
Accélération de l'Entraînement : Amélioration de la vitesse de convergence de 1,9 fois

Analyse d'Évolutivité

Robustesse sous Différentes Contraintes Mémoire :

Dans le scénario ResNet34, ExclusiveFL est complètement non viable (taux de participation 0 %)
SCALEFL améliore les autres méthodes jusqu'à 27,4 %

Ensembles de Données à Grande Échelle :

Amélioration de 3 % de la précision par rapport à FedAvg sur l'ensemble de données FEMNIST
Support d'échelles de 120-500 appareils

Compatibilité Transformer :

Sur le modèle ViT, seulement 2 % en dessous de la ligne de base théorique, mais cette dernière n'est pas viable en pratique

Évaluation Matérielle

Efficacité Mémoire :

Les tests sur Jetson TX2 montrent une réduction de 50,4 % de l'utilisation maximale de mémoire
Réduction du temps d'entraînement par tour de 1,84-2,31 fois

Efficacité d'Entraînement :

Réduction significative du temps d'entraînement par tour par rapport à l'entraînement de bout en bout
Accélération de 1,9 fois sur ViT

Étude d'Ablation

Analyse de la Contribution des Composants :

Suppression du Mentor Pédagogique : Baisse de précision de 1,2 % dans le scénario CIFAR100 IID
Suppression de l'Harmoniseur d'Entraînement : Baisse significative de précision de 9,0 %
L'action conjointe des deux composants est essentielle pour les performances

Travaux Connexes

Apprentissage Fédéré aux Ressources Limitées

Entraînement Hétérogène du Modèle : Les méthodes comme FedMD nécessitent des ensembles de données publics pour la distillation de connaissances
Entraînement Partiel : HeteroFL, FedRolex par mise à l'échelle en largeur, DepthFL, InclusiveFL par mise à l'échelle en profondeur

Entraînement par Blocs

ProgFed : Introduction progressive de nouveaux blocs mais nécessite toujours un entraînement de bout en bout
SmartFreeze : Entraînement séquentiel de chaque bloc mais ignore le problème de perte d'information
ProFL : Décomposition en phases de contraction et d'expansion mais ne résout pas les défis fondamentaux

Analyse Théorique

Preuve de Convergence

L'article fournit une analyse de convergence de SCALEFL, prouvant sous des hypothèses standard (lissité, gradients bornés) que :

(1/R) Σ E[||∇L^r_t(Θ^r_(g,t))||^2] ≤ Ψ/√R

C'est-à-dire que la norme moyenne des gradients converge vers 0, et le modèle converge vers un point stable.

Conclusion et Discussion

Conclusions Principales

SCALEFL résout avec succès le problème du mur mémoire en AF, permettant aux appareils aux ressources limitées de participer à l'entraînement
Le Mentor Pédagogique et l'Harmoniseur d'Entraînement atténuent efficacement les défis fondamentaux de l'entraînement par blocs séquentiels
Réalise des améliorations significatives de performance et des économies de mémoire sur plusieurs ensembles de données et modèles

Limitations

Stratégie de Partitionnement en Blocs : L'article n'approfondit pas la méthode optimale de partitionnement en blocs
Frais de Communication : Bien que réduisant l'utilisation de mémoire, cela peut augmenter le nombre de tours de communication
Sensibilité aux Hyperparamètres : La configuration de λt et γt nécessite un ajustement minutieux

Directions Futures

Stratégies de partitionnement en blocs adaptatives
Combinaison avec d'autres techniques d'optimisation d'AF
Validation dans des déploiements réels à plus grande échelle

Évaluation Approfondie

Points Forts

Importance du Problème : Résout un goulot d'étranglement clé du déploiement pratique de l'AF
Originalité de la Méthode : L'objectif d'entraînement conscient du curriculum et le schéma d'adaptation par co-adaptation des paramètres sont originaux
Fondement Théorique : L'analyse basée sur la théorie du goulot d'étranglement informationnel fournit un soutien théorique solide
Complétude Expérimentale : Couvre plusieurs modèles, ensembles de données et tests sur matériel réel
Valeur Pratique : Les économies de mémoire et améliorations de performance significatives ont une valeur d'application pratique

Insuffisances

Complexité : L'introduction des deux composants augmente la complexité du système
Ajustement des Hyperparamètres : Les paramètres tels que λt, γt nécessitent un ajustement pour différents scénarios
Analyse de Communication : Manque d'analyse détaillée des frais de communication
Vitesse de Convergence : Bien que plus rapide par tour, le nombre total de tours de convergence peut augmenter

Impact

Contribution Académique : Fournit une nouvelle approche pour l'AF aux ressources limitées
Valeur Pratique : Peut être déployé sur des appareils mobiles et autres environnements aux ressources limitées
Reproductibilité : Fournit des configurations expérimentales détaillées et des paramètres

Scénarios Applicables

AF sur Appareils Mobiles : Smartphones, appareils IoT et autres scénarios à mémoire limitée
Informatique Périphérique : Environnements où les ressources des serveurs périphériques sont limitées
Entraînement de Grands Modèles : Scénarios nécessitant l'entraînement de grands modèles avec des ressources d'appareils insuffisantes

Références

L'article cite les travaux importants du domaine de l'AF, notamment FedAvg, HeteroFL, FedRolex et d'autres méthodes classiques, ainsi que les fondements théoriques tels que la théorie du goulot d'étranglement informationnel et HSIC. Les citations sont relativement complètes et faisant autorité.

Évaluation Globale : Cet article est un travail de haute qualité en apprentissage fédéré qui propose une solution innovante à un problème clé du déploiement pratique. La conception de la méthode est raisonnable, la vérification expérimentale est complète, l'analyse théorique est exhaustive, et il possède une valeur académique et pratique importante.