2025-11-11T23:28:21.956833

Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients

Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
academic

Colmare i Divari di Memoria: Scalare l'Apprendimento Federato per Client Eterogenei

Informazioni Fondamentali

  • ID Articolo: 2408.10826
  • Titolo: Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
  • Autori: Yebo Wu, Jingguang Li, Chunlin Tian, KaHou Tam, Li Li, Chengzhong Xu (Università di Macao)
  • Classificazione: cs.DC (Calcolo Distribuito)
  • Data di Pubblicazione: Agosto 2024 (arXiv v2: Ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2408.10826v2

Riassunto

L'apprendimento federato (FL) consente a più client di collaborare nell'addestramento di un modello condiviso proteggendo la privacy dei dati. Tuttavia, gli elevati requisiti di memoria durante l'addestramento del modello limitano gravemente la distribuzione di FL su client con risorse limitate. A tal fine, questo articolo propone SCALEFL, un framework FL scalabile e inclusivo che supera i limiti di memoria attraverso l'addestramento sequenziale a blocchi. L'idea centrale di SCALEFL è dividere il modello globale in blocchi e addestrarli sequenzialmente, riducendo così i requisiti di memoria di addestramento. Per mitigare la perdita di informazioni nell'addestramento a blocchi, SCALEFL introduce un Mentore Curricolare (Curriculum Mentor) che formula obiettivi di addestramento consapevoli del curriculum per ogni blocco. Inoltre, SCALEFL integra un Armonizzatore di Addestramento (Training Harmonizer) che progetta uno schema di adattamento della sinergia parametrica, rompendo efficacemente l'isolamento informativo tra blocchi.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

  1. Problema del Muro di Memoria: Durante l'addestramento dell'apprendimento federato, è necessario mantenere in memoria tutte le attivazioni intermedie, i pesi del modello e gli stati dell'ottimizzatore, causando un elevato consumo di memoria. Ad esempio, l'addestramento di ResNet34 su ImageNet consuma oltre 12GB di memoria, mentre i dispositivi mobili commerciali hanno tipicamente solo 4-12GB di RAM.
  2. Eterogeneità dei Dispositivi: I dispositivi edge con risorse limitate non possono partecipare all'addestramento locale, impedendo ai loro dati preziosi di contribuire al modello globale.
  3. Limitazioni dei Metodi Esistenti:
    • Addestramento Eterogeneo del Modello: Richiede dataset pubblici di alta qualità per la distillazione della conoscenza, difficili da ottenere in FL
    • Addestramento Parziale: Il ridimensionamento della larghezza compromette l'architettura del modello, il ridimensionamento della profondità è limitato dal client con la massima capacità di memoria

Motivazione della Ricerca

Con l'approfondimento e l'allargamento delle architetture di modelli per ottenere maggiore capacità analitica, il problema della memoria si aggrava ulteriormente. Questo articolo mira a progettare un framework FL che riduca significativamente i requisiti di memoria mantenendo le prestazioni del modello.

Contributi Fondamentali

  1. Propone il Framework SCALEFL: Riduce significativamente i requisiti di memoria di addestramento attraverso l'addestramento sequenziale a blocchi, consentendo ai dispositivi con risorse limitate di partecipare efficacemente
  2. Progetta Due Componenti Fondamentali: Il Mentore Curricolare e l'Armonizzatore di Addestramento modellano congiuntamente il comportamento di apprendimento di ogni blocco, promuovendo l'apprendimento di caratteristiche strutturate coerenti
  3. Verifica Sperimentale Completa: Dimostra l'efficacia e la robustezza di SCALEFL su più dataset di riferimento
  4. Analisi Teorica: Fornisce analisi di convergenza, provando l'affidabilità teorica del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

In un sistema FL contenente N client, ogni client n possiede un dataset locale Dn. L'obiettivo è addestrare un modello globale Θ soddisfacendo i vincoli di memoria di ogni client.

Paradigma di Addestramento Sequenziale a Blocchi

Flusso di Base:

  1. Costruzione del Modello: Il server costruisce un sottomodello Θg,t = θ1,F, θ2,F, ..., θt, θOp per la fase di addestramento corrente t
  2. Addestramento Locale: Aggiorna solo il blocco θt e il modulo di output θOp
  3. Aggregazione del Modello: Aggrega gli aggiornamenti dei parametri utilizzando la media ponderata
  4. Valutazione del Progresso: Monitora il progresso di addestramento del blocco θt e determina la convergenza
  5. Crescita del Modello: Congela i blocchi convergenti e introduce nuovi blocchi

Componenti Tecnici Fondamentali

1. Mentore Curricolare (Curriculum Mentor)

Analisi del Problema: Basandosi sulla teoria del collo di bottiglia informativo, scopre che l'addestramento sequenziale a blocchi causa una grave perdita di informazioni. L'analisi dinamica del piano nHSIC mostra che SBT perde una grande quantità di informazioni di input dopo l'addestramento del primo blocco, impedendo ai blocchi successivi di estrarre caratteristiche critiche.

Soluzione: Progetta obiettivi di addestramento consapevoli del curriculum

L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)

Dove:

  • L_CE è la perdita di entropia incrociata
  • nHSIC(X;Zt) misura la conservazione delle informazioni di input
  • nHSIC(Y;Zt) misura la rilevanza per il compito
  • λt e γt si adattano dinamicamente in base alla fase di addestramento

Strategia: Nelle fasi iniziali, λt elevato e γt basso enfatizzano la conservazione delle informazioni di input, mentre nelle fasi successive λt diminuisce e γt aumenta gradualmente, passando all'estrazione di caratteristiche specifiche del compito.

2. Armonizzatore di Addestramento (Training Harmonizer)

Identificazione del Problema:

  • Flusso di Informazioni in Avanti Limitato: I blocchi a valle iniziano l'addestramento solo dopo la convergenza dei blocchi precedenti
  • Flusso di Informazioni all'Indietro Limitato: I gradienti sono limitati al blocco, causando isolamento del gradiente

Schema di Adattamento della Sinergia Parametrica:

  1. Crescita Dinamica del Modello: Organizza dinamicamente il processo di apprendimento di ogni blocco in ogni round, consentendo ai blocchi a valle di adattarsi in tempo reale agli aggiornamenti dei blocchi precedenti
  2. Strategia di Addestramento Concorrente: Addestra il blocco corrente insieme agli ultimi strati del blocco precedente, promuovendo il flusso del gradiente

Formula di aggiornamento:

θ^(k+1)_(n,t) + L^(k+1)_(n,t-1) ← (θ^k_(n,t) + L^k_(n,t-1)) - η · ∂L^k_(n,t)/∂(θ^k_(n,t) + L^k_(n,t-1))

Obiettivo di Addestramento Completo

Combinando la regolarizzazione L2 per gestire l'eterogeneità dei dati:

L^r_t = L_θt + (μ/2)||θ^r_t - θ^(r-1)_t||^2_2

Configurazione Sperimentale

Dataset

  • CIFAR10/CIFAR100: Dataset classici di classificazione di immagini
  • CINIC10: Versione estesa di CIFAR10
  • Mini-ImageNet: ImageNet in scala ridotta
  • FEMNIST: Dataset FL su larga scala (805.263 immagini)

Architetture di Modelli

  • ResNet18/ResNet34: Reti residuali profonde
  • VGG11 BN: Rete convoluzionale classica
  • SqueezeNet: Rete leggera
  • Vision Transformer (ViT): Architettura Transformer

Ambiente Sperimentale

  • Configurazione Mista: Test di simulazione e testbed con dispositivi reali
  • Configurazione dei Dispositivi: 100 dispositivi mobili eterogenei, il 10% selezionato casualmente per round
  • Budget di Memoria: 100-1000MB assegnati casualmente
  • Ottimizzatore: SGD, decadimento dei pesi 5e-4, epoch locali=5

Metodi di Confronto

  1. AllSmall: Ridimensiona il modello globale in base alla memoria del dispositivo più debole
  2. ExclusiveFL: Consente solo ai dispositivi con memoria sufficiente di partecipare
  3. DepthFL: Ridimensionamento della profondità per adattarsi ai dispositivi eterogenei
  4. HeteroFL: Ridimensionamento statico dei canali
  5. FedRolex: Ridimensionamento dinamico della larghezza
  6. SmartFreeze: Semplice addestramento sequenziale a blocchi
  7. ProFL: Addestramento sequenziale decomposito

Risultati Sperimentali

Risultati Principali

Prestazioni in Scenario Non-IID:

MetodoCIFAR10 (ResNet18/VGG11/SqueezeNet)Tasso di Partecipazione
AllSmall69.5%/75.1%/49.6%100%/100%/100%
ExclusiveFL76.8%/79.3%/40.6%18%/22%/11%
SCALEFL80.4%/87.6%/58.0%100%/100%/100%

Scoperte Chiave:

  1. Miglioramento Significativo delle Prestazioni: Miglioramento del 10.9%, 12.5%, 8.4% rispetto a AllSmall
  2. Partecipazione di Tutti i Dispositivi: Raggiunge il 100% di tasso di partecipazione, mentre ExclusiveFL solo 18-22%
  3. Efficienza di Memoria: Riduzione dell'utilizzo di memoria di picco fino al 50.4%
  4. Accelerazione dell'Addestramento: Velocità di convergenza migliorata di 1.9 volte

Analisi di Scalabilità

Robustezza in Diversi Vincoli di Memoria:

  • Nello scenario ResNet34, ExclusiveFL è completamente infattibile (0% tasso di partecipazione)
  • SCALEFL migliora rispetto ad altri metodi fino al 27.4%

Dataset su Larga Scala:

  • Su dataset FEMNIST migliora l'accuratezza di FedAvg del 3%
  • Supporta scala di 120-500 dispositivi

Compatibilità Transformer:

  • Su modello ViT solo il 2% inferiore alla baseline teorica, ma la baseline teorica non è praticabile

Valutazione Hardware

Efficienza di Memoria:

  • Test su Jetson TX2 mostra riduzione dell'utilizzo di memoria di picco del 50.4%
  • Riduzione del tempo di addestramento per singolo round di 1.84-2.31 volte

Efficienza di Addestramento:

  • Riduzione significativa del tempo di addestramento per singolo round rispetto all'addestramento end-to-end
  • Accelerazione di 1.9 volte su ViT

Esperimento di Ablazione

Analisi del Contributo dei Componenti:

  • Rimozione del Mentore Curricolare: Riduzione dell'accuratezza dell'1.2% nello scenario CIFAR100 IID
  • Rimozione dell'Armonizzatore di Addestramento: Riduzione significativa dell'accuratezza del 9.0%
  • L'azione sinergica dei due componenti è critica per le prestazioni

Lavori Correlati

FL con Risorse Limitate

  1. Addestramento Eterogeneo del Modello: Metodi come FedMD richiedono dataset pubblici per la distillazione della conoscenza
  2. Addestramento Parziale: HeteroFL, FedRolex attraverso ridimensionamento della larghezza, DepthFL, InclusiveFL attraverso ridimensionamento della profondità

Addestramento a Blocchi

  1. ProgFed: Introduce progressivamente nuovi blocchi ma richiede ancora addestramento end-to-end
  2. SmartFreeze: Addestramento sequenziale di ogni blocco ma ignora il problema della perdita di informazioni
  3. ProFL: Decompone in fasi di contrazione e crescita ma non risolve le sfide fondamentali

Analisi Teorica

Prova di Convergenza

L'articolo fornisce un'analisi di convergenza di SCALEFL che, sotto ipotesi standard (levigatezza, gradienti limitati), prova:

(1/R) Σ E[||∇L^r_t(Θ^r_(g,t))||^2] ≤ Ψ/√R

Cioè, la norma del gradiente medio converge a 0, il modello converge a un punto stabile.

Conclusioni e Discussione

Conclusioni Principali

  1. SCALEFL risolve con successo il problema del muro di memoria in FL, consentendo ai dispositivi con risorse limitate di partecipare all'addestramento
  2. Il Mentore Curricolare e l'Armonizzatore di Addestramento mitigano efficacemente le sfide fondamentali dell'addestramento sequenziale a blocchi
  3. Raggiunge miglioramenti significativi delle prestazioni e risparmi di memoria su più dataset e modelli

Limitazioni

  1. Strategia di Divisione a Blocchi: L'articolo non approfondisce il metodo di divisione a blocchi ottimale
  2. Overhead di Comunicazione: Sebbene riduca l'utilizzo di memoria, potrebbe aumentare il numero di round di comunicazione
  3. Sensibilità degli Iperparametri: L'impostazione di λt e γt richiede un'attenta sintonizzazione

Direzioni Future

  1. Strategia di divisione a blocchi adattiva
  2. Combinazione con altre tecniche di ottimizzazione FL
  3. Verifica in distribuzione reale su scala più ampia

Valutazione Approfondita

Punti di Forza

  1. Importanza del Problema: Risolve un collo di bottiglia critico nella distribuzione pratica di FL
  2. Innovazione del Metodo: L'obiettivo di addestramento consapevole del curriculum e lo schema di adattamento della sinergia parametrica hanno originalità
  3. Fondamento Teorico: L'analisi basata sulla teoria del collo di bottiglia informativo fornisce un supporto teorico solido
  4. Completezza Sperimentale: Copre più modelli, dataset e test su hardware reale
  5. Valore Pratico: I significativi risparmi di memoria e miglioramenti delle prestazioni hanno valore di applicazione pratica

Insufficienze

  1. Complessità: L'introduzione dei due componenti aumenta la complessità del sistema
  2. Sintonizzazione degli Iperparametri: Parametri come λt, γt richiedono sintonizzazione per diversi scenari
  3. Analisi della Comunicazione: Manca un'analisi dettagliata dell'overhead di comunicazione
  4. Velocità di Convergenza: Sebbene ogni round sia più veloce, il numero totale di round di convergenza potrebbe aumentare

Impatto

  1. Contributo Accademico: Fornisce un nuovo approccio risolutivo per FL con risorse limitate
  2. Valore Pratico: Può essere effettivamente distribuito in ambienti con risorse limitate come dispositivi mobili
  3. Riproducibilità: Fornisce configurazioni sperimentali e parametri dettagliati

Scenari Applicabili

  1. FL su Dispositivi Mobili: Smartphone, dispositivi IoT e altri scenari con memoria limitata
  2. Calcolo Edge: Ambienti in cui le risorse dei server edge sono limitate
  3. Addestramento di Modelli Grandi: Scenari in cui è necessario addestrare modelli di grandi dimensioni ma le risorse dei dispositivi sono insufficienti

Bibliografia

L'articolo cita importanti lavori nel campo di FL, inclusi metodi classici come FedAvg, HeteroFL, FedRolex, nonché fondamenti teorici come la teoria del collo di bottiglia informativo e HSIC, con citazioni bibliografiche relativamente complete e autorevoli.


Valutazione Complessiva: Questo è un articolo di alta qualità nell'apprendimento federato che propone soluzioni innovative per problemi critici nella distribuzione pratica. La progettazione del metodo è ragionevole, la verifica sperimentale è completa, l'analisi teorica è completa e possiede importante valore accademico e pratico.