2025-11-22T18:28:15.174123

Federated Dropout: Convergence Analysis and Resource Allocation

Xie, Wen, Liu et al.

Federated Dropout is an efficient technique to overcome both communication and computation bottlenecks for deploying federated learning at the network edge. In each training round, an edge device only needs to update and transmit a sub-model, which is generated by the typical method of dropout in deep learning, and thus effectively reduces the per-round latency. \textcolor{blue}{However, the theoretical convergence analysis for Federated Dropout is still lacking in the literature, particularly regarding the quantitative influence of dropout rate on convergence}. To address this issue, by using the Taylor expansion method, we mathematically show that the gradient variance increases with a scaling factor of $Î³/(1-Î³)$, with $Î³\in [0, Î¸)$ denoting the dropout rate and $Î¸$ being the maximum dropout rate ensuring the loss function reduction. Based on the above approximation, we provide the convergence analysis for Federated Dropout. Specifically, it is shown that a larger dropout rate of each device leads to a slower convergence rate. This provides a theoretical foundation for reducing the convergence latency by making a tradeoff between the per-round latency and the overall rounds till convergence. Moreover, a low-complexity algorithm is proposed to jointly optimize the dropout rate and the bandwidth allocation for minimizing the loss function in all rounds under a given per-round latency and limited network resources. Finally, numerical results are provided to verify the effectiveness of the proposed algorithm.

academic

Federated Dropout: Analyse de Convergence et Allocation de Ressources

Informations de Base

ID de l'article: 2501.00379
Titre: Federated Dropout: Convergence Analysis and Resource Allocation
Auteurs: Sijing Xie, Dingzhu Wen, Xiaonan Liu, Changsheng You, Tharmalingam Ratnarajah, Kaibin Huang
Classification: cs.LG cs.IT math.IT
Date de publication: 31 décembre 2024
Lien de l'article: https://arxiv.org/abs/2501.00379

Résumé

Le Federated Dropout est une technique efficace permettant de surmonter les goulots d'étranglement de communication et de calcul lors du déploiement de l'apprentissage fédéré à la périphérie du réseau. À chaque tour d'entraînement, les appareils périphériques ne doivent mettre à jour et transmettre qu'un sous-modèle généré par la méthode de dropout typique de l'apprentissage profond, réduisant ainsi efficacement la latence par tour. Cependant, la littérature manque encore d'une analyse théorique rigoureuse de la convergence du Federated Dropout, en particulier concernant l'impact quantitatif du taux de dropout sur la convergence. Pour résoudre ce problème, cet article utilise la méthode de développement de Taylor pour démontrer mathématiquement que la variance du gradient croît avec un facteur d'échelle γ/(1-γ), où γ∈[0,θ) représente le taux de dropout et θ est le taux de dropout maximal garantissant la réduction de la fonction de perte. Sur la base de cette approximation, l'article fournit une analyse de convergence du Federated Dropout, montrant que plus le taux de dropout de chaque appareil est élevé, plus la vitesse de convergence est lente. Cela fournit une base théorique pour réduire la latence de convergence en effectuant un compromis entre la latence par tour et le nombre total de tours de convergence.

Contexte de Recherche et Motivation

Contexte du Problème

Demande croissante d'IA périphérique: L'explosion des données mobiles a stimulé le déploiement d'IA à la périphérie du réseau, l'apprentissage fédéré périphérique (FEEL) devenant une technologie prometteuse pour réaliser l'IA périphérique
Limitations des ressources de calcul: Les appareils périphériques font face à des limitations sévères de ressources de calcul, tandis que les réseaux de neurones profonds (DNNs) modernes et les grands modèles de langage (LLMs) nécessitent une puissance de calcul considérable
Limitations des méthodes existantes:
- Les méthodes efficaces en communication (compression de gradient, ordonnancement des appareils, etc.) traitent principalement le goulot d'étranglement de communication
- Les méthodes d'élagage de modèle présentent toujours des frais de communication importants en début d'entraînement et réduisent généralement la capacité de représentation du modèle
- Manque de réduction substantielle des frais de calcul

Motivation de la Recherche

Lacune théorique: Bien que le cadre FedDrop soit pratique, il manque d'une analyse théorique rigoureuse de la convergence
Besoins d'optimisation: Nécessité d'une orientation théorique pour optimiser la conception conjointe du taux de dropout et de l'allocation de ressources
Applications pratiques: Fournir une base théorique et des algorithmes pratiques pour l'apprentissage fédéré dans les environnements aux ressources limitées

Contributions Principales

Analyse théorique de la convergence:
- Utilisation du développement de Taylor pour prouver que le vecteur de gradient du sous-réseau est une estimation à variance bornée du vecteur de gradient du DNN original
- Preuve mathématique que la variance du gradient est proportionnelle à γ/(1-γ)
- Établissement d'une relation quantitative entre le taux de dropout et la vitesse de convergence
Minimisation de la fonction de perte par tour:
- Sur la base de l'analyse théorique, caractérisation de la réduction de perte d'apprentissage à chaque tour
- Maximisation de la réduction de perte d'apprentissage sous les contraintes de bande passante système, de latence d'accomplissement de tâche et de budget énergétique des appareils
Algorithme d'optimisation conjointe:
- Proposition d'une conception conjointe du taux de dropout adaptatif et de l'allocation de bande passante
- Obtention de solutions en forme fermée via les conditions KKT
- Complexité algorithmique de seulement O(K²)
Évaluation des performances:
- Expériences numériques dans les deux scénarios de sous-apprentissage et de surapprentissage
- Vérification de l'exactitude de l'analyse théorique

Détails de la Méthode

Définition de la Tâche

Entrée: K appareils périphériques, chaque appareil k possédant un ensemble de données local Dk Objectif: Minimiser la fonction de perte globale: $F(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} f_k(\hat{w}_k; D_k)$ où $\hat{w}_k$ est le sous-réseau généré par dropout correspondant à l'appareil k, et $f_k$ est la fonction de perte locale de l'appareil k.

Architecture du Modèle

1. Cadre Federated Dropout

Le cadre FedDrop comprend cinq étapes:

Phase de génération: Le serveur génère un sous-réseau pour chaque appareil
Phase de transmission: L'appareil télécharge le sous-réseau correspondant
Phase de calcul: L'appareil met à jour le sous-réseau en fonction des données locales
Phase de récupération: L'appareil télécharge le sous-réseau mis à jour
Phase d'agrégation: Le serveur agrège toutes les mises à jour de sous-réseau pour mettre à jour le modèle global

2. Mécanisme de Dropout

Pour l'appareil k avec un taux de dropout γk, le sous-réseau est défini comme: $\hat{w}_k = w \circ m_k$ où le j-ème élément du masque de dropout mk est: $m_{k,j} = \begin{cases} \frac{1}{1-\gamma_k}, & \text{avec probabilité } (1-\gamma_k) \\ 0, & \text{avec probabilité } \gamma_k \end{cases}$

3. Modèle de Latence et de Consommation Énergétique

Latence totale par tour: $T_{k,t} = T^{com,dl}_{k,t} + T^{cmp}_{k,t} + T^{com,ul}_{k,t}$

Consommation énergétique totale: $E_{k,t} = E^{com,ul}_{k,t} + E^{cmp}_{k,t} + \xi_k$

Points d'Innovation Technique

1. Théorème de Limitation de la Variance du Gradient

Lemme 1: Sous les hypothèses données, le vecteur de gradient du sous-réseau est une estimation à variance bornée: $E_{m_k^{(t)}}[\hat{g}_k(\hat{w}_k^{(t)})] = \tilde{g}_k(w^{(t)})$ $D_{m_k^{(t)}}[\hat{g}_k(\hat{w}_k^{(t)})] \leq (AG)^2 \cdot \frac{\gamma_{k,t}}{1-\gamma_{k,t}}$

2. Analyse de Convergence

Théorème 1: Étant donné le taux d'apprentissage η = 1/(3√TL), le vecteur de gradient ground-truth converge vers: $\lim_{T→+∞} \frac{1}{T} \sum_{t=0}^{T-1} \|g(w^{(t)})\|^2 ≤ G_T = 0$

Découverte clé: La vitesse de convergence diminue avec l'augmentation du taux de dropout.

3. Problème d'Optimisation Conjointe

$\min_{\{\gamma_{k,t}, \rho_{k,t}\}} \sum_{k=1}^K \frac{|D_k|}{|D|} \frac{1}{1-\gamma_{k,t}}$ Sous les contraintes:

C1: Contrainte de latence par tour
C2: Contrainte de consommation énergétique
C3: Contrainte d'allocation de bande passante
C4: Contrainte de taux de dropout

Configuration Expérimentale

Ensembles de Données

CIFAR-100: Utilisé pour l'entraînement de LeNet et AlexNet
Distribution des données:
- Distribution IID
- Distribution Non-IID (utilisant la distribution Dirichlet(0.1))

Configuration du Modèle

LeNet (scénario de sous-apprentissage):
- 2 couches de convolution + 2 couches entièrement connectées
- Taille du noyau de convolution: 5×5
- Fonction d'activation: Tanh
AlexNet (scénario de surapprentissage):
- 5 couches de convolution + 2 couches entièrement connectées
- Taille du noyau de convolution: 3×3
- Fonction d'activation: ReLU

Indicateurs d'Évaluation

Nombre de tours de convergence
Précision de test
Frais de calcul et de communication

Méthodes de Comparaison

Schéma proposé: Solution optimale de l'Algorithme 1
Schéma conscient de la bande passante: Allocation aléatoire de bande passante, optimisation du taux de dropout
Schéma sans Dropout: Référence idéale, sans considération du dropout

Résultats Expérimentaux

Résultats Principaux

1. Impact du Taux de Dropout sur les Performances

Scénario de sous-apprentissage: La précision de test diminue avec l'augmentation du taux de dropout
Scénario de surapprentissage: Un taux de dropout modéré (0,15) obtient les meilleures performances, un taux de dropout trop élevé entraîne une baisse de performance

2. Impact des Ressources Réseau sur les Performances d'Apprentissage

Impact de la latence par tour:

Le schéma proposé surpasse toujours le schéma conscient de la bande passante
Avec l'augmentation de la latence par tour, le nombre de tours de convergence diminue
Lorsque la latence augmente, l'écart de performance avec le schéma sans dropout se réduit

Impact de la bande passante système:

Avec l'augmentation de la bande passante système, le nombre de tours de convergence diminue
Le schéma proposé surpasse les méthodes de base dans diverses conditions de bande passante

3. Résultats Quantitatifs

Selon le Tableau II, à sparsité égale:

Sur LeNet, FedDrop sur données Non-IID voit la précision passer de 25,19% (γ=0) à 19,09% (γ=0,4)
Sur AlexNet, FedDrop sur données Non-IID voit la précision d'abord augmenter puis diminuer, atteignant un pic de 32,77% à γ=0,15

Expériences d'Ablation

Par comparaison de configurations uniformes avec différents taux de dropout, vérification que:

Les taux de dropout plus faibles conduisent à une convergence plus rapide
L'exactitude de l'analyse théorique
L'effet de régularisation du dropout dans les scénarios de surapprentissage

Découvertes Expérimentales

Vérification théorique: Les résultats expérimentaux sont cohérents avec l'analyse théorique, prouvant la corrélation négative entre le taux de dropout et la vitesse de convergence
Compromis de ressources: Plus de ressources réseau permettent des taux de dropout plus faibles, améliorant les performances
Adaptabilité aux scénarios: Le schéma proposé surpasse le schéma sans dropout dans les scénarios de surapprentissage

Travaux Connexes

Apprentissage Fédéré Efficace en Communication

Moyenne de gradient partielle, compression de gradient, gestion des ressources, ordonnancement des appareils, calcul aérien, distillation de connaissances, etc.

Méthodes Efficaces en Calcul

Apprentissage fédéré avec élagage de modèle (PruneFL)
Élagage de modèle adaptatif
Cadres d'entraînement de sous-réseau: schémas statiques, roulants, orientés par importance

Avantages de cet Article

Faible complexité de conception: Nécessite uniquement l'opération de dropout
Adaptabilité multifonctionnelle: Le taux de dropout peut s'adapter aux capacités des appareils et aux conditions réseau
Diversité de modèle élevée: Entraînement diversifié apporté par la stochasticité
Robustesse de modèle forte: Améliore la robustesse du modèle, élimine les dépendances simples entre neurones

Conclusion et Discussion

Conclusions Principales

Première analyse théorique rigoureuse de la convergence de FedDrop
Établissement d'une relation quantitative entre le taux de dropout et la vitesse de convergence
Proposition d'un algorithme d'optimisation conjointe à faible complexité
Vérification expérimentale de l'analyse théorique et de l'efficacité de l'algorithme

Limitations

Hypothèses: Analyse basée sur l'hypothèse d'un taux de dropout faible
Portée du modèle: Considère principalement les DNNs, les LLMs restant pour les recherches futures
Modèle de canal: Hypothèse d'un canal non sélectif en fréquence
Objectif d'optimisation: Utilisation de la limite supérieure de la fonction de perte plutôt que de la valeur exacte

Directions Futures

Extension aux grands modèles de langage (LLMs)
Combinaison avec les techniques de compression et de calcul aérien
Considération de modèles de canal plus complexes
Stratégies adaptatives dans les environnements réseau dynamiques

Évaluation Approfondie

Points Forts

Contribution théorique significative: Première analyse rigoureuse de convergence pour FedDrop, comblant une lacune théorique importante
Dérivation mathématique rigoureuse: Utilisation du développement de Taylor et des conditions KKT, preuve mathématique complète et fiable
Valeur pratique élevée: L'algorithme de complexité O(K²) convient au déploiement pratique
Expériences complètes: Couvrant les deux scénarios de sous-apprentissage et de surapprentissage, vérification suffisante
Rédaction claire: Structure claire, expression précise des détails techniques

Insuffisances

Limitations des hypothèses: L'hypothèse de taux de dropout faible peut limiter la portée des applications pratiques
Limitations du modèle: Vérification uniquement sur des réseaux relativement simples, manque d'expériences sur des modèles à grande échelle
Simplification de l'environnement: Modèle réseau monocellulaire, l'environnement de déploiement réel est plus complexe
Comparaisons limitées: Comparaison insuffisante avec d'autres méthodes d'entraînement de sous-réseau

Impact

Valeur académique: Fournit une base théorique pour la technique de dropout dans l'apprentissage fédéré
Signification pratique: Fournit une solution viable pour l'apprentissage fédéré dans les environnements informatiques périphériques
Reproductibilité: Description détaillée de l'algorithme, paramètres clairement définis, facilitant la reproduction

Scénarios Applicables

Appareils périphériques aux ressources limitées: Appareils IoT avec capacités de calcul et de communication limitées
Réseaux à bande passante limitée: Environnements de réseau sans fil nécessitant une réduction des frais de communication
Applications sensibles à la latence: Applications d'IA périphérique sensibles à la latence
Déploiement à grande échelle: Systèmes d'apprentissage fédéré devant supporter la participation d'un grand nombre d'appareils

Références

L'article cite 50 articles connexes, couvrant plusieurs domaines connexes tels que l'apprentissage fédéré, l'informatique périphérique, l'allocation de ressources et la compression de modèle, fournissant une base théorique solide pour la recherche.

Évaluation Globale: Cet article apporte une contribution importante à l'analyse théorique de l'apprentissage fédéré. Les auteurs fournissent pour la première fois une analyse rigoureuse de la convergence de FedDrop, établissent une relation quantitative entre le taux de dropout et les performances de convergence, et proposent un algorithme d'optimisation conjointe pratique. La dérivation théorique est rigoureuse, la vérification expérimentale est suffisante, et l'article a une importance significative pour promouvoir l'application de l'apprentissage fédéré dans les environnements informatiques périphériques.