2025-11-22T18:28:15.174123

Federated Dropout: Convergence Analysis and Resource Allocation

Xie, Wen, Liu et al.

Federated Dropout is an efficient technique to overcome both communication and computation bottlenecks for deploying federated learning at the network edge. In each training round, an edge device only needs to update and transmit a sub-model, which is generated by the typical method of dropout in deep learning, and thus effectively reduces the per-round latency. \textcolor{blue}{However, the theoretical convergence analysis for Federated Dropout is still lacking in the literature, particularly regarding the quantitative influence of dropout rate on convergence}. To address this issue, by using the Taylor expansion method, we mathematically show that the gradient variance increases with a scaling factor of $Î³/(1-Î³)$, with $Î³\in [0, Î¸)$ denoting the dropout rate and $Î¸$ being the maximum dropout rate ensuring the loss function reduction. Based on the above approximation, we provide the convergence analysis for Federated Dropout. Specifically, it is shown that a larger dropout rate of each device leads to a slower convergence rate. This provides a theoretical foundation for reducing the convergence latency by making a tradeoff between the per-round latency and the overall rounds till convergence. Moreover, a low-complexity algorithm is proposed to jointly optimize the dropout rate and the bandwidth allocation for minimizing the loss function in all rounds under a given per-round latency and limited network resources. Finally, numerical results are provided to verify the effectiveness of the proposed algorithm.

academic

Federated Dropout: Analisi di Convergenza e Allocazione delle Risorse

Informazioni Fondamentali

ID Articolo: 2501.00379
Titolo: Federated Dropout: Convergence Analysis and Resource Allocation
Autori: Sijing Xie, Dingzhu Wen, Xiaonan Liu, Changsheng You, Tharmalingam Ratnarajah, Kaibin Huang
Classificazione: cs.LG cs.IT math.IT
Data di Pubblicazione: 31 dicembre 2024
Link Articolo: https://arxiv.org/abs/2501.00379

Riassunto

Federated Dropout è una tecnica efficace per superare i colli di bottiglia di comunicazione e calcolo nel dispiegamento dell'apprendimento federato ai margini della rete. In ogni round di addestramento, i dispositivi edge devono solo aggiornare e trasmettere una sottorete generata mediante il metodo di dropout tipico dell'apprendimento profondo, riducendo così efficacemente la latenza per round. Tuttavia, la letteratura manca ancora di un'analisi teorica rigorosa della convergenza per Federated Dropout, in particolare riguardo all'effetto quantitativo del tasso di dropout sulla convergenza. Per affrontare questo problema, il presente articolo utilizza il metodo dell'espansione di Taylor per dimostrare matematicamente che la varianza del gradiente cresce con un fattore di scala γ/(1-γ), dove γ∈[0,θ) rappresenta il tasso di dropout e θ è il tasso di dropout massimo che garantisce la riduzione della funzione di perdita. Sulla base di questa approssimazione, l'articolo fornisce un'analisi di convergenza per Federated Dropout, dimostrando che maggiore è il tasso di dropout di ogni dispositivo, più lenta è la velocità di convergenza. Ciò fornisce una base teorica per ridurre la latenza di convergenza attraverso un compromesso tra la latenza per round e il numero totale di round di convergenza.

Contesto di Ricerca e Motivazione

Contesto del Problema

Crescente Domanda di AI ai Margini: L'esplosione dei dati mobili ha spinto il dispiegamento dell'IA ai margini della rete, rendendo l'apprendimento federato ai margini (FEEL) una tecnologia promettente per realizzare l'IA ai margini
Limitazioni delle Risorse di Calcolo: I dispositivi edge affrontano gravi limitazioni di risorse di calcolo, mentre le moderne reti neurali profonde (DNN) e i modelli linguistici di grandi dimensioni (LLM) richiedono una notevole capacità di calcolo
Limitazioni dei Metodi Esistenti:
- I metodi efficienti in termini di comunicazione (compressione dei gradienti, pianificazione dei dispositivi, ecc.) affrontano principalmente il collo di bottiglia della comunicazione
- I metodi di potatura del modello comportano ancora elevati costi di comunicazione nelle fasi iniziali dell'addestramento e generalmente riducono la capacità rappresentativa del modello
- Mancanza di una riduzione sostanziale dei costi di calcolo

Motivazione della Ricerca

Lacuna Teorica: Sebbene il framework FedDrop sia pratico, manca di un'analisi teorica rigorosa della convergenza
Esigenza di Ottimizzazione: È necessaria una guida teorica per ottimizzare la progettazione congiunta del tasso di dropout e dell'allocazione delle risorse
Applicazione Pratica: Fornire una base teorica e algoritmi pratici per l'apprendimento federato in ambienti con risorse limitate

Contributi Principali

Analisi Teorica della Convergenza:
- Utilizzo dell'espansione di Taylor per dimostrare che il vettore gradiente della sottorete è una stima con varianza limitata del vettore gradiente della DNN originale
- Dimostrazione matematica che la varianza del gradiente è proporzionale a γ/(1-γ)
- Stabilimento di una relazione quantitativa tra il tasso di dropout e la velocità di convergenza
Minimizzazione della Funzione di Perdita per Round:
- Sulla base dell'analisi teorica, caratterizzazione della riduzione della perdita di apprendimento in ogni round
- Massimizzazione della riduzione della perdita di apprendimento sotto vincoli di larghezza di banda del sistema, latenza di completamento dell'attività e budget energetico del dispositivo
Algoritmo di Ottimizzazione Congiunta:
- Proposta di una progettazione congiunta del tasso di dropout adattivo e dell'allocazione della larghezza di banda
- Ottenimento di soluzioni in forma chiusa attraverso le condizioni KKT
- Complessità dell'algoritmo pari a O(K²)
Valutazione delle Prestazioni:
- Esperimenti numerici in scenari di underfitting e overfitting
- Verifica della correttezza dell'analisi teorica

Dettagli del Metodo

Definizione del Compito

Input: K dispositivi edge, ciascuno con dataset locale Dk Obiettivo: Minimizzare la funzione di perdita globale: $F(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} f_k(\hat{w}_k; D_k)$ dove $\hat{w}_k$ è la sottorete generata da dropout corrispondente al dispositivo k, e $f_k$ è la funzione di perdita locale del dispositivo k.

Architettura del Modello

1. Framework Federated Dropout

Il framework FedDrop comprende cinque fasi:

Fase di Generazione: Il server genera sottoreti per ogni dispositivo
Fase di Push: I dispositivi scaricano le sottoreti corrispondenti
Fase di Calcolo: I dispositivi aggiornano le sottoreti in base ai dati locali
Fase di Pull: I dispositivi caricano le sottoreti aggiornate
Fase di Aggregazione: Il server aggrega tutti gli aggiornamenti delle sottoreti per aggiornare il modello globale

2. Meccanismo di Dropout

Per il dispositivo k con tasso di dropout γk, la sottorete è definita come: $\hat{w}_k = w \circ m_k$ dove l'elemento j-esimo della maschera di dropout mk è: $m_{k,j} = \begin{cases} \frac{1}{1-\gamma_k}, & \text{con probabilità } (1-\gamma_k) \\ 0, & \text{con probabilità } \gamma_k \end{cases}$

3. Modello di Latenza e Consumo Energetico

Latenza totale per round: $T_{k,t} = T^{com,dl}_{k,t} + T^{cmp}_{k,t} + T^{com,ul}_{k,t}$

Consumo energetico totale: $E_{k,t} = E^{com,ul}_{k,t} + E^{cmp}_{k,t} + \xi_k$

Punti di Innovazione Tecnica

1. Teorema di Limitazione della Varianza del Gradiente

Lemma 1: Sotto le ipotesi date, il vettore gradiente della sottorete è una stima con varianza limitata: $E_{m_k^{(t)}}[\hat{g}_k(\hat{w}_k^{(t)})] = \tilde{g}_k(w^{(t)})$ $D_{m_k^{(t)}}[\hat{g}_k(\hat{w}_k^{(t)})] \leq (AG)^2 \cdot \frac{\gamma_{k,t}}{1-\gamma_{k,t}}$

2. Analisi di Convergenza

Teorema 1: Dato il tasso di apprendimento η = 1/(3√TL), il vettore gradiente ground-truth converge a: $\lim_{T→+∞} \frac{1}{T} \sum_{t=0}^{T-1} \|g(w^{(t)})\|^2 ≤ G_T = 0$

Scoperta chiave: La velocità di convergenza diminuisce all'aumentare del tasso di dropout.

3. Problema di Ottimizzazione Congiunta

$\min_{\{\gamma_{k,t}, \rho_{k,t}\}} \sum_{k=1}^K \frac{|D_k|}{|D|} \frac{1}{1-\gamma_{k,t}}$ Soggetto a vincoli:

C1: Vincolo di latenza per round
C2: Vincolo di consumo energetico
C3: Vincolo di allocazione della larghezza di banda
C4: Vincolo del tasso di dropout

Configurazione Sperimentale

Dataset

CIFAR-100: Utilizzato per l'addestramento di LeNet e AlexNet
Distribuzione dei Dati:
- Distribuzione IID
- Distribuzione Non-IID (utilizzando Dirichlet(0.1))

Configurazione del Modello

LeNet (scenario di underfitting):
- 2 strati convoluzionali + 2 strati completamente connessi
- Dimensione del kernel: 5×5
- Funzione di attivazione: Tanh
AlexNet (scenario di overfitting):
- 5 strati convoluzionali + 2 strati completamente connessi
- Dimensione del kernel: 3×3
- Funzione di attivazione: ReLU

Metriche di Valutazione

Numero di round di convergenza
Accuratezza del test
Costi di calcolo e comunicazione

Metodi di Confronto

Schema Proposto: Schema ottimale dell'Algoritmo 1
Schema Consapevole della Larghezza di Banda: Allocazione casuale della larghezza di banda, ottimizzazione del tasso di dropout
Schema Senza Dropout: Benchmark ideale, senza considerare il dropout

Risultati Sperimentali

Risultati Principali

1. Impatto del Tasso di Dropout sulle Prestazioni

Scenario di Underfitting: L'accuratezza del test diminuisce all'aumentare del tasso di dropout
Scenario di Overfitting: Un tasso di dropout moderato (0,15) ottiene le migliori prestazioni, con un calo delle prestazioni con tassi di dropout più elevati

2. Impatto delle Risorse di Rete sulle Prestazioni di Apprendimento

Impatto della Latenza per Round:

Lo schema proposto supera costantemente lo schema consapevole della larghezza di banda
All'aumentare della latenza per round, il numero di round di convergenza diminuisce
Quando la latenza aumenta, il divario di prestazioni rispetto allo schema senza dropout si riduce

Impatto della Larghezza di Banda del Sistema:

All'aumentare della larghezza di banda del sistema, il numero di round di convergenza diminuisce
Lo schema proposto supera i metodi di base in varie condizioni di larghezza di banda

3. Risultati Quantitativi

Secondo la Tabella II, con la stessa sparsità:

Su LeNet, FedDrop su dati Non-IID vede l'accuratezza diminuire dal 25,19% (γ=0) al 19,09% (γ=0,4)
Su AlexNet, FedDrop su dati Non-IID vede l'accuratezza aumentare e poi diminuire, raggiungendo il picco del 32,77% quando γ=0,15

Esperimenti di Ablazione

Attraverso il confronto di impostazioni uniformi con diversi tassi di dropout, è stato verificato che:

Tassi di dropout più bassi portano a una convergenza più rapida
La correttezza dell'analisi teorica
L'effetto di regolarizzazione del dropout nello scenario di overfitting

Scoperte Sperimentali

Verifica Teorica: I risultati sperimentali sono coerenti con l'analisi teorica, provando una correlazione negativa tra il tasso di dropout e la velocità di convergenza
Compromesso delle Risorse: Più risorse di rete consentono tassi di dropout più bassi, migliorando le prestazioni
Adattabilità dello Scenario: Lo schema proposto supera lo schema senza dropout nello scenario di overfitting

Lavori Correlati

Apprendimento Federato Efficiente in Comunicazione

Media parziale dei gradienti, compressione dei gradienti, gestione delle risorse, pianificazione dei dispositivi, calcolo aereo, distillazione della conoscenza, ecc.

Metodi Efficienti dal Punto di Vista Computazionale

Apprendimento federato con potatura del modello (PruneFL)
Potatura adattiva del modello
Framework di addestramento della sottorete: schemi statici, rolling e orientati all'importanza

Vantaggi di Questo Articolo

Bassa Complessità di Progettazione: Richiede solo l'operazione di dropout
Adattabilità Multifunzionale: Il tasso di dropout può adattarsi alle capacità del dispositivo e alle condizioni di rete
Alta Diversità del Modello: Addestramento diversificato portato dalla casualità
Forte Robustezza del Modello: Migliora la robustezza del modello, eliminando le dipendenze semplici tra neuroni

Conclusioni e Discussione

Conclusioni Principali

Fornire per la prima volta un'analisi teorica rigorosa della convergenza per FedDrop
Stabilire una relazione quantitativa tra il tasso di dropout e la velocità di convergenza
Proporre un algoritmo di ottimizzazione congiunta a bassa complessità
Verificare sperimentalmente la validità dell'analisi teorica e dell'algoritmo

Limitazioni

Condizioni di Ipotesi: L'analisi si basa sull'ipotesi di tasso di dropout piccolo
Ambito del Modello: Considera principalmente le DNN, lasciando gli LLM per ricerche future
Modello di Canale: Assume canali non selettivi in frequenza
Obiettivo di Ottimizzazione: Utilizza il limite superiore della funzione di perdita piuttosto che il valore esatto

Direzioni Future

Estensione ai modelli linguistici di grandi dimensioni (LLM)
Integrazione con tecniche di compressione e calcolo aereo
Considerazione di modelli di canale più complessi
Strategie adattive in ambienti di rete dinamici

Valutazione Approfondita

Punti di Forza

Contributi Teorici Significativi: Fornisce per la prima volta un'analisi rigorosa della convergenza per FedDrop, colmando un'importante lacuna teorica
Derivazione Matematica Rigorosa: Utilizzo dell'espansione di Taylor e delle condizioni KKT, con dimostrazione matematica completa e affidabile
Alto Valore Pratico: L'algoritmo con complessità O(K²) è adatto al dispiegamento pratico
Esperimenti Completi: Copertura di scenari di underfitting e overfitting, con verifica sufficiente
Scrittura Chiara: Struttura trasparente, esposizione accurata dei dettagli tecnici

Insufficienze

Limitazioni delle Ipotesi: L'ipotesi di tasso di dropout piccolo potrebbe limitare l'ambito di applicazione pratica
Limitazioni del Modello: Verifica solo su reti relativamente semplici, mancanza di esperimenti su modelli su larga scala
Semplificazione dell'Ambiente: Modello di rete a singola cella, l'ambiente di dispiegamento reale è più complesso
Confronto Limitato: Il confronto con altri metodi di addestramento della sottorete non è sufficientemente completo

Impatto

Valore Accademico: Fornisce una base teorica per la tecnica di dropout nell'apprendimento federato
Significato Pratico: Fornisce una soluzione fattibile per l'apprendimento federato in ambienti di edge computing
Riproducibilità: La descrizione dell'algoritmo è dettagliata, le impostazioni dei parametri sono chiare, facilitando la riproduzione

Scenari Applicabili

Dispositivi Edge con Risorse Limitate: Dispositivi IoT con capacità di calcolo e comunicazione limitate
Reti con Larghezza di Banda Limitata: Ambienti di rete wireless che necessitano di riduzione dei costi di comunicazione
Applicazioni Sensibili alla Latenza: Applicazioni di IA ai margini sensibili alla latenza
Dispiegamento su Larga Scala: Sistemi di apprendimento federato che devono supportare la partecipazione di un gran numero di dispositivi

Bibliografia

L'articolo cita 50 articoli correlati, coprendo importanti lavori in più campi correlati come l'apprendimento federato, l'edge computing, l'allocazione delle risorse e la compressione del modello, fornendo una base teorica solida per la ricerca.

Valutazione Complessiva: Questo è un articolo con importanti contributi nell'analisi teorica dell'apprendimento federato. Gli autori forniscono per la prima volta un'analisi rigorosa della convergenza per FedDrop, stabilendo una relazione quantitativa tra il tasso di dropout e le prestazioni di convergenza, e propongono un algoritmo di ottimizzazione congiunta pratico. La derivazione teorica è rigorosa, la verifica sperimentale è completa e ha un significato importante per promuovere l'applicazione dell'apprendimento federato in ambienti di edge computing.