Federated Dropout is an efficient technique to overcome both communication and computation bottlenecks for deploying federated learning at the network edge. In each training round, an edge device only needs to update and transmit a sub-model, which is generated by the typical method of dropout in deep learning, and thus effectively reduces the per-round latency. \textcolor{blue}{However, the theoretical convergence analysis for Federated Dropout is still lacking in the literature, particularly regarding the quantitative influence of dropout rate on convergence}. To address this issue, by using the Taylor expansion method, we mathematically show that the gradient variance increases with a scaling factor of $γ/(1-γ)$, with $γ\in [0, θ)$ denoting the dropout rate and $θ$ being the maximum dropout rate ensuring the loss function reduction. Based on the above approximation, we provide the convergence analysis for Federated Dropout. Specifically, it is shown that a larger dropout rate of each device leads to a slower convergence rate. This provides a theoretical foundation for reducing the convergence latency by making a tradeoff between the per-round latency and the overall rounds till convergence. Moreover, a low-complexity algorithm is proposed to jointly optimize the dropout rate and the bandwidth allocation for minimizing the loss function in all rounds under a given per-round latency and limited network resources. Finally, numerical results are provided to verify the effectiveness of the proposed algorithm.
- ID de l'article: 2501.00379
- Titre: Federated Dropout: Convergence Analysis and Resource Allocation
- Auteurs: Sijing Xie, Dingzhu Wen, Xiaonan Liu, Changsheng You, Tharmalingam Ratnarajah, Kaibin Huang
- Classification: cs.LG cs.IT math.IT
- Date de publication: 31 décembre 2024
- Lien de l'article: https://arxiv.org/abs/2501.00379
Le Federated Dropout est une technique efficace permettant de surmonter les goulots d'étranglement de communication et de calcul lors du déploiement de l'apprentissage fédéré à la périphérie du réseau. À chaque tour d'entraînement, les appareils périphériques ne doivent mettre à jour et transmettre qu'un sous-modèle généré par la méthode de dropout typique de l'apprentissage profond, réduisant ainsi efficacement la latence par tour. Cependant, la littérature manque encore d'une analyse théorique rigoureuse de la convergence du Federated Dropout, en particulier concernant l'impact quantitatif du taux de dropout sur la convergence. Pour résoudre ce problème, cet article utilise la méthode de développement de Taylor pour démontrer mathématiquement que la variance du gradient croît avec un facteur d'échelle γ/(1-γ), où γ∈[0,θ) représente le taux de dropout et θ est le taux de dropout maximal garantissant la réduction de la fonction de perte. Sur la base de cette approximation, l'article fournit une analyse de convergence du Federated Dropout, montrant que plus le taux de dropout de chaque appareil est élevé, plus la vitesse de convergence est lente. Cela fournit une base théorique pour réduire la latence de convergence en effectuant un compromis entre la latence par tour et le nombre total de tours de convergence.
- Demande croissante d'IA périphérique: L'explosion des données mobiles a stimulé le déploiement d'IA à la périphérie du réseau, l'apprentissage fédéré périphérique (FEEL) devenant une technologie prometteuse pour réaliser l'IA périphérique
- Limitations des ressources de calcul: Les appareils périphériques font face à des limitations sévères de ressources de calcul, tandis que les réseaux de neurones profonds (DNNs) modernes et les grands modèles de langage (LLMs) nécessitent une puissance de calcul considérable
- Limitations des méthodes existantes:
- Les méthodes efficaces en communication (compression de gradient, ordonnancement des appareils, etc.) traitent principalement le goulot d'étranglement de communication
- Les méthodes d'élagage de modèle présentent toujours des frais de communication importants en début d'entraînement et réduisent généralement la capacité de représentation du modèle
- Manque de réduction substantielle des frais de calcul
- Lacune théorique: Bien que le cadre FedDrop soit pratique, il manque d'une analyse théorique rigoureuse de la convergence
- Besoins d'optimisation: Nécessité d'une orientation théorique pour optimiser la conception conjointe du taux de dropout et de l'allocation de ressources
- Applications pratiques: Fournir une base théorique et des algorithmes pratiques pour l'apprentissage fédéré dans les environnements aux ressources limitées
- Analyse théorique de la convergence:
- Utilisation du développement de Taylor pour prouver que le vecteur de gradient du sous-réseau est une estimation à variance bornée du vecteur de gradient du DNN original
- Preuve mathématique que la variance du gradient est proportionnelle à γ/(1-γ)
- Établissement d'une relation quantitative entre le taux de dropout et la vitesse de convergence
- Minimisation de la fonction de perte par tour:
- Sur la base de l'analyse théorique, caractérisation de la réduction de perte d'apprentissage à chaque tour
- Maximisation de la réduction de perte d'apprentissage sous les contraintes de bande passante système, de latence d'accomplissement de tâche et de budget énergétique des appareils
- Algorithme d'optimisation conjointe:
- Proposition d'une conception conjointe du taux de dropout adaptatif et de l'allocation de bande passante
- Obtention de solutions en forme fermée via les conditions KKT
- Complexité algorithmique de seulement O(K²)
- Évaluation des performances:
- Expériences numériques dans les deux scénarios de sous-apprentissage et de surapprentissage
- Vérification de l'exactitude de l'analyse théorique
Entrée: K appareils périphériques, chaque appareil k possédant un ensemble de données local Dk
Objectif: Minimiser la fonction de perte globale:
F(w)=∑k=1K∣D∣∣Dk∣fk(w^k;Dk)
où w^k est le sous-réseau généré par dropout correspondant à l'appareil k, et fk est la fonction de perte locale de l'appareil k.
Le cadre FedDrop comprend cinq étapes:
- Phase de génération: Le serveur génère un sous-réseau pour chaque appareil
- Phase de transmission: L'appareil télécharge le sous-réseau correspondant
- Phase de calcul: L'appareil met à jour le sous-réseau en fonction des données locales
- Phase de récupération: L'appareil télécharge le sous-réseau mis à jour
- Phase d'agrégation: Le serveur agrège toutes les mises à jour de sous-réseau pour mettre à jour le modèle global
Pour l'appareil k avec un taux de dropout γk, le sous-réseau est défini comme:
w^k=w∘mk
où le j-ème élément du masque de dropout mk est:
mk,j={1−γk1,0,avec probabiliteˊ (1−γk)avec probabiliteˊ γk
Latence totale par tour:
Tk,t=Tk,tcom,dl+Tk,tcmp+Tk,tcom,ul
Consommation énergétique totale:
Ek,t=Ek,tcom,ul+Ek,tcmp+ξk
Lemme 1: Sous les hypothèses données, le vecteur de gradient du sous-réseau est une estimation à variance bornée:
Emk(t)[g^k(w^k(t))]=g~k(w(t))Dmk(t)[g^k(w^k(t))]≤(AG)2⋅1−γk,tγk,t
Théorème 1: Étant donné le taux d'apprentissage η = 1/(3√TL), le vecteur de gradient ground-truth converge vers:
limT→+∞T1∑t=0T−1∥g(w(t))∥2≤GT=0
Découverte clé: La vitesse de convergence diminue avec l'augmentation du taux de dropout.
min{γk,t,ρk,t}∑k=1K∣D∣∣Dk∣1−γk,t1
Sous les contraintes:
- C1: Contrainte de latence par tour
- C2: Contrainte de consommation énergétique
- C3: Contrainte d'allocation de bande passante
- C4: Contrainte de taux de dropout
- CIFAR-100: Utilisé pour l'entraînement de LeNet et AlexNet
- Distribution des données:
- Distribution IID
- Distribution Non-IID (utilisant la distribution Dirichlet(0.1))
- LeNet (scénario de sous-apprentissage):
- 2 couches de convolution + 2 couches entièrement connectées
- Taille du noyau de convolution: 5×5
- Fonction d'activation: Tanh
- AlexNet (scénario de surapprentissage):
- 5 couches de convolution + 2 couches entièrement connectées
- Taille du noyau de convolution: 3×3
- Fonction d'activation: ReLU
- Nombre de tours de convergence
- Précision de test
- Frais de calcul et de communication
- Schéma proposé: Solution optimale de l'Algorithme 1
- Schéma conscient de la bande passante: Allocation aléatoire de bande passante, optimisation du taux de dropout
- Schéma sans Dropout: Référence idéale, sans considération du dropout
- Scénario de sous-apprentissage: La précision de test diminue avec l'augmentation du taux de dropout
- Scénario de surapprentissage: Un taux de dropout modéré (0,15) obtient les meilleures performances, un taux de dropout trop élevé entraîne une baisse de performance
Impact de la latence par tour:
- Le schéma proposé surpasse toujours le schéma conscient de la bande passante
- Avec l'augmentation de la latence par tour, le nombre de tours de convergence diminue
- Lorsque la latence augmente, l'écart de performance avec le schéma sans dropout se réduit
Impact de la bande passante système:
- Avec l'augmentation de la bande passante système, le nombre de tours de convergence diminue
- Le schéma proposé surpasse les méthodes de base dans diverses conditions de bande passante
Selon le Tableau II, à sparsité égale:
- Sur LeNet, FedDrop sur données Non-IID voit la précision passer de 25,19% (γ=0) à 19,09% (γ=0,4)
- Sur AlexNet, FedDrop sur données Non-IID voit la précision d'abord augmenter puis diminuer, atteignant un pic de 32,77% à γ=0,15
Par comparaison de configurations uniformes avec différents taux de dropout, vérification que:
- Les taux de dropout plus faibles conduisent à une convergence plus rapide
- L'exactitude de l'analyse théorique
- L'effet de régularisation du dropout dans les scénarios de surapprentissage
- Vérification théorique: Les résultats expérimentaux sont cohérents avec l'analyse théorique, prouvant la corrélation négative entre le taux de dropout et la vitesse de convergence
- Compromis de ressources: Plus de ressources réseau permettent des taux de dropout plus faibles, améliorant les performances
- Adaptabilité aux scénarios: Le schéma proposé surpasse le schéma sans dropout dans les scénarios de surapprentissage
- Moyenne de gradient partielle, compression de gradient, gestion des ressources, ordonnancement des appareils, calcul aérien, distillation de connaissances, etc.
- Apprentissage fédéré avec élagage de modèle (PruneFL)
- Élagage de modèle adaptatif
- Cadres d'entraînement de sous-réseau: schémas statiques, roulants, orientés par importance
- Faible complexité de conception: Nécessite uniquement l'opération de dropout
- Adaptabilité multifonctionnelle: Le taux de dropout peut s'adapter aux capacités des appareils et aux conditions réseau
- Diversité de modèle élevée: Entraînement diversifié apporté par la stochasticité
- Robustesse de modèle forte: Améliore la robustesse du modèle, élimine les dépendances simples entre neurones
- Première analyse théorique rigoureuse de la convergence de FedDrop
- Établissement d'une relation quantitative entre le taux de dropout et la vitesse de convergence
- Proposition d'un algorithme d'optimisation conjointe à faible complexité
- Vérification expérimentale de l'analyse théorique et de l'efficacité de l'algorithme
- Hypothèses: Analyse basée sur l'hypothèse d'un taux de dropout faible
- Portée du modèle: Considère principalement les DNNs, les LLMs restant pour les recherches futures
- Modèle de canal: Hypothèse d'un canal non sélectif en fréquence
- Objectif d'optimisation: Utilisation de la limite supérieure de la fonction de perte plutôt que de la valeur exacte
- Extension aux grands modèles de langage (LLMs)
- Combinaison avec les techniques de compression et de calcul aérien
- Considération de modèles de canal plus complexes
- Stratégies adaptatives dans les environnements réseau dynamiques
- Contribution théorique significative: Première analyse rigoureuse de convergence pour FedDrop, comblant une lacune théorique importante
- Dérivation mathématique rigoureuse: Utilisation du développement de Taylor et des conditions KKT, preuve mathématique complète et fiable
- Valeur pratique élevée: L'algorithme de complexité O(K²) convient au déploiement pratique
- Expériences complètes: Couvrant les deux scénarios de sous-apprentissage et de surapprentissage, vérification suffisante
- Rédaction claire: Structure claire, expression précise des détails techniques
- Limitations des hypothèses: L'hypothèse de taux de dropout faible peut limiter la portée des applications pratiques
- Limitations du modèle: Vérification uniquement sur des réseaux relativement simples, manque d'expériences sur des modèles à grande échelle
- Simplification de l'environnement: Modèle réseau monocellulaire, l'environnement de déploiement réel est plus complexe
- Comparaisons limitées: Comparaison insuffisante avec d'autres méthodes d'entraînement de sous-réseau
- Valeur académique: Fournit une base théorique pour la technique de dropout dans l'apprentissage fédéré
- Signification pratique: Fournit une solution viable pour l'apprentissage fédéré dans les environnements informatiques périphériques
- Reproductibilité: Description détaillée de l'algorithme, paramètres clairement définis, facilitant la reproduction
- Appareils périphériques aux ressources limitées: Appareils IoT avec capacités de calcul et de communication limitées
- Réseaux à bande passante limitée: Environnements de réseau sans fil nécessitant une réduction des frais de communication
- Applications sensibles à la latence: Applications d'IA périphérique sensibles à la latence
- Déploiement à grande échelle: Systèmes d'apprentissage fédéré devant supporter la participation d'un grand nombre d'appareils
L'article cite 50 articles connexes, couvrant plusieurs domaines connexes tels que l'apprentissage fédéré, l'informatique périphérique, l'allocation de ressources et la compression de modèle, fournissant une base théorique solide pour la recherche.
Évaluation Globale: Cet article apporte une contribution importante à l'analyse théorique de l'apprentissage fédéré. Les auteurs fournissent pour la première fois une analyse rigoureuse de la convergence de FedDrop, établissent une relation quantitative entre le taux de dropout et les performances de convergence, et proposent un algorithme d'optimisation conjointe pratique. La dérivation théorique est rigoureuse, la vérification expérimentale est suffisante, et l'article a une importance significative pour promouvoir l'application de l'apprentissage fédéré dans les environnements informatiques périphériques.