Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
academic
Combler les Lacunes Mémoire : Mise à l'Échelle de l'Apprentissage Fédéré pour Clients Hétérogènes
L'apprentissage fédéré (AF) permet à plusieurs clients de collaborer à l'entraînement d'un modèle partagé tout en préservant la confidentialité des données. Cependant, les exigences élevées en matière de mémoire lors de l'entraînement du modèle limitent considérablement le déploiement de l'AF sur les clients aux ressources limitées. À cet effet, cet article propose SCALEFL, un cadre d'AF évolutif et inclusif qui surmonte les limitations de mémoire grâce à l'entraînement par blocs séquentiels. L'idée centrale de SCALEFL est de partitionner le modèle global en blocs et de les entraîner séquentiellement, réduisant ainsi les besoins en mémoire d'entraînement. Pour atténuer la perte d'information lors de l'entraînement par blocs, SCALEFL introduit un Mentor Pédagogique (Curriculum Mentor) qui formule des objectifs d'entraînement conscients du curriculum pour chaque bloc. De plus, SCALEFL intègre un Harmoniseur d'Entraînement (Training Harmonizer) conçu pour adapter les schémas d'entraînement par co-adaptation des paramètres, brisant efficacement l'isolement informationnel entre blocs.
Le Mur Mémoire : L'entraînement en apprentissage fédéré nécessite de conserver en mémoire toutes les activations intermédiaires, les poids du modèle et les états de l'optimiseur, entraînant une occupation mémoire élevée. Par exemple, l'entraînement de ResNet34 sur ImageNet consomme plus de 12 Go de mémoire, tandis que la RAM des appareils mobiles actuels est généralement limitée à 4-12 Go.
Hétérogénéité des Appareils : Les appareils périphériques aux ressources limitées ne peuvent pas participer à l'entraînement local, empêchant leurs données précieuses de contribuer au modèle global.
Limitations des Approches Existantes :
Entraînement Hétérogène du Modèle : Nécessite des ensembles de données publics de haute qualité pour la distillation de connaissances, difficiles à obtenir en AF
Entraînement Partiel : La mise à l'échelle en largeur déforme l'architecture du modèle, la mise à l'échelle en profondeur est limitée par la capacité mémoire maximale du client
À mesure que les architectures de modèles deviennent plus profondes et plus larges pour obtenir une capacité analytique supérieure, le problème de mémoire s'aggrave. Cet article vise à concevoir un cadre d'AF capable de réduire considérablement les besoins en mémoire tout en maintenant les performances du modèle.
Proposition du Cadre SCALEFL : Réduit considérablement les besoins en mémoire d'entraînement grâce à l'entraînement par blocs séquentiels, permettant aux appareils aux ressources limitées de participer efficacement
Conception de Deux Composants Fondamentaux : Le Mentor Pédagogique et l'Harmoniseur d'Entraînement façonnent conjointement le comportement d'apprentissage de chaque bloc, favorisant l'apprentissage de caractéristiques structurées et cohérentes
Vérification Expérimentale Complète : Démontre l'efficacité et la robustesse de SCALEFL sur plusieurs ensembles de données de référence
Analyse Théorique : Fournit une analyse de convergence prouvant la fiabilité théorique de la méthode
Dans un système d'AF contenant N clients, chaque client n possède un ensemble de données local Dn. L'objectif est d'entraîner un modèle global Θ tout en satisfaisant les contraintes mémoire de chaque client.
Analyse du Problème : Basée sur la théorie du goulot d'étranglement informationnel, l'analyse révèle que l'entraînement par blocs séquentiels entraîne une perte d'information grave. L'analyse dynamique du plan nHSIC montre que l'EBS perd une grande quantité d'information d'entrée après l'entraînement du premier bloc, empêchant les blocs ultérieurs d'extraire les caractéristiques critiques.
Solution : Conception d'objectifs d'entraînement conscients du curriculum
L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)
Où :
L_CE est la perte d'entropie croisée
nHSIC(X;Zt) mesure la préservation de l'information d'entrée
nHSIC(Y;Zt) mesure la pertinence pour la tâche
λt et γt s'ajustent dynamiquement selon l'étape d'entraînement
Stratégie : En phase initiale, λt élevé et γt faible mettent l'accent sur la préservation de l'information d'entrée, tandis qu'en phase ultérieure, λt diminue progressivement et γt augmente, se tournant vers l'extraction de caractéristiques spécifiques à la tâche.
Flux d'Information Avant Limité : Les blocs en aval commencent l'entraînement uniquement après la convergence des blocs précédents
Flux d'Information Arrière Limité : Les gradients sont limités au bloc, entraînant un isolement des gradients
Schéma d'Adaptation par Co-adaptation des Paramètres :
Croissance Dynamique du Modèle : Orchestration dynamique du processus d'apprentissage de chaque bloc à chaque tour, permettant aux blocs en aval de s'adapter en temps réel aux mises à jour des blocs précédents
Stratégie d'Entraînement Concurrent : Entraînement simultané du bloc actuel avec les dernières couches du bloc précédent, favorisant le flux de gradients
Importance du Problème : Résout un goulot d'étranglement clé du déploiement pratique de l'AF
Originalité de la Méthode : L'objectif d'entraînement conscient du curriculum et le schéma d'adaptation par co-adaptation des paramètres sont originaux
Fondement Théorique : L'analyse basée sur la théorie du goulot d'étranglement informationnel fournit un soutien théorique solide
Complétude Expérimentale : Couvre plusieurs modèles, ensembles de données et tests sur matériel réel
Valeur Pratique : Les économies de mémoire et améliorations de performance significatives ont une valeur d'application pratique
L'article cite les travaux importants du domaine de l'AF, notamment FedAvg, HeteroFL, FedRolex et d'autres méthodes classiques, ainsi que les fondements théoriques tels que la théorie du goulot d'étranglement informationnel et HSIC. Les citations sont relativement complètes et faisant autorité.
Évaluation Globale : Cet article est un travail de haute qualité en apprentissage fédéré qui propose une solution innovante à un problème clé du déploiement pratique. La conception de la méthode est raisonnable, la vérification expérimentale est complète, l'analyse théorique est exhaustive, et il possède une valeur académique et pratique importante.