2025-11-11T23:28:21.956833

Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients

Wu, Li, Tian et al.

Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.

academic

Colmare i Divari di Memoria: Scalare l'Apprendimento Federato per Client Eterogenei

Informazioni Fondamentali

ID Articolo: 2408.10826
Titolo: Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Autori: Yebo Wu, Jingguang Li, Chunlin Tian, KaHou Tam, Li Li, Chengzhong Xu (Università di Macao)
Classificazione: cs.DC (Calcolo Distribuito)
Data di Pubblicazione: Agosto 2024 (arXiv v2: Ottobre 2025)
Link Articolo: https://arxiv.org/abs/2408.10826v2

Riassunto

L'apprendimento federato (FL) consente a più client di collaborare nell'addestramento di un modello condiviso proteggendo la privacy dei dati. Tuttavia, gli elevati requisiti di memoria durante l'addestramento del modello limitano gravemente la distribuzione di FL su client con risorse limitate. A tal fine, questo articolo propone SCALEFL, un framework FL scalabile e inclusivo che supera i limiti di memoria attraverso l'addestramento sequenziale a blocchi. L'idea centrale di SCALEFL è dividere il modello globale in blocchi e addestrarli sequenzialmente, riducendo così i requisiti di memoria di addestramento. Per mitigare la perdita di informazioni nell'addestramento a blocchi, SCALEFL introduce un Mentore Curricolare (Curriculum Mentor) che formula obiettivi di addestramento consapevoli del curriculum per ogni blocco. Inoltre, SCALEFL integra un Armonizzatore di Addestramento (Training Harmonizer) che progetta uno schema di adattamento della sinergia parametrica, rompendo efficacemente l'isolamento informativo tra blocchi.

Contesto di Ricerca e Motivazione

Problemi Fondamentali

Problema del Muro di Memoria: Durante l'addestramento dell'apprendimento federato, è necessario mantenere in memoria tutte le attivazioni intermedie, i pesi del modello e gli stati dell'ottimizzatore, causando un elevato consumo di memoria. Ad esempio, l'addestramento di ResNet34 su ImageNet consuma oltre 12GB di memoria, mentre i dispositivi mobili commerciali hanno tipicamente solo 4-12GB di RAM.
Eterogeneità dei Dispositivi: I dispositivi edge con risorse limitate non possono partecipare all'addestramento locale, impedendo ai loro dati preziosi di contribuire al modello globale.
Limitazioni dei Metodi Esistenti:
- Addestramento Eterogeneo del Modello: Richiede dataset pubblici di alta qualità per la distillazione della conoscenza, difficili da ottenere in FL
- Addestramento Parziale: Il ridimensionamento della larghezza compromette l'architettura del modello, il ridimensionamento della profondità è limitato dal client con la massima capacità di memoria

Motivazione della Ricerca

Con l'approfondimento e l'allargamento delle architetture di modelli per ottenere maggiore capacità analitica, il problema della memoria si aggrava ulteriormente. Questo articolo mira a progettare un framework FL che riduca significativamente i requisiti di memoria mantenendo le prestazioni del modello.

Contributi Fondamentali

Propone il Framework SCALEFL: Riduce significativamente i requisiti di memoria di addestramento attraverso l'addestramento sequenziale a blocchi, consentendo ai dispositivi con risorse limitate di partecipare efficacemente
Progetta Due Componenti Fondamentali: Il Mentore Curricolare e l'Armonizzatore di Addestramento modellano congiuntamente il comportamento di apprendimento di ogni blocco, promuovendo l'apprendimento di caratteristiche strutturate coerenti
Verifica Sperimentale Completa: Dimostra l'efficacia e la robustezza di SCALEFL su più dataset di riferimento
Analisi Teorica: Fornisce analisi di convergenza, provando l'affidabilità teorica del metodo

Spiegazione Dettagliata del Metodo

Definizione del Compito

In un sistema FL contenente N client, ogni client n possiede un dataset locale Dn. L'obiettivo è addestrare un modello globale Θ soddisfacendo i vincoli di memoria di ogni client.

Paradigma di Addestramento Sequenziale a Blocchi

Flusso di Base:

Costruzione del Modello: Il server costruisce un sottomodello Θg,t = θ1,F, θ2,F, ..., θt, θOp per la fase di addestramento corrente t
Addestramento Locale: Aggiorna solo il blocco θt e il modulo di output θOp
Aggregazione del Modello: Aggrega gli aggiornamenti dei parametri utilizzando la media ponderata
Valutazione del Progresso: Monitora il progresso di addestramento del blocco θt e determina la convergenza
Crescita del Modello: Congela i blocchi convergenti e introduce nuovi blocchi

Componenti Tecnici Fondamentali

1. Mentore Curricolare (Curriculum Mentor)

Analisi del Problema: Basandosi sulla teoria del collo di bottiglia informativo, scopre che l'addestramento sequenziale a blocchi causa una grave perdita di informazioni. L'analisi dinamica del piano nHSIC mostra che SBT perde una grande quantità di informazioni di input dopo l'addestramento del primo blocco, impedendo ai blocchi successivi di estrarre caratteristiche critiche.

Soluzione: Progetta obiettivi di addestramento consapevoli del curriculum

L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)

Dove:

L_CE è la perdita di entropia incrociata
nHSIC(X;Zt) misura la conservazione delle informazioni di input
nHSIC(Y;Zt) misura la rilevanza per il compito
λt e γt si adattano dinamicamente in base alla fase di addestramento

Strategia: Nelle fasi iniziali, λt elevato e γt basso enfatizzano la conservazione delle informazioni di input, mentre nelle fasi successive λt diminuisce e γt aumenta gradualmente, passando all'estrazione di caratteristiche specifiche del compito.

2. Armonizzatore di Addestramento (Training Harmonizer)

Identificazione del Problema:

Flusso di Informazioni in Avanti Limitato: I blocchi a valle iniziano l'addestramento solo dopo la convergenza dei blocchi precedenti
Flusso di Informazioni all'Indietro Limitato: I gradienti sono limitati al blocco, causando isolamento del gradiente

Schema di Adattamento della Sinergia Parametrica:

Crescita Dinamica del Modello: Organizza dinamicamente il processo di apprendimento di ogni blocco in ogni round, consentendo ai blocchi a valle di adattarsi in tempo reale agli aggiornamenti dei blocchi precedenti
Strategia di Addestramento Concorrente: Addestra il blocco corrente insieme agli ultimi strati del blocco precedente, promuovendo il flusso del gradiente

Formula di aggiornamento:

θ^(k+1)_(n,t) + L^(k+1)_(n,t-1) ← (θ^k_(n,t) + L^k_(n,t-1)) - η · ∂L^k_(n,t)/∂(θ^k_(n,t) + L^k_(n,t-1))

Obiettivo di Addestramento Completo

Combinando la regolarizzazione L2 per gestire l'eterogeneità dei dati:

L^r_t = L_θt + (μ/2)||θ^r_t - θ^(r-1)_t||^2_2

Configurazione Sperimentale

Dataset

CIFAR10/CIFAR100: Dataset classici di classificazione di immagini
CINIC10: Versione estesa di CIFAR10
Mini-ImageNet: ImageNet in scala ridotta
FEMNIST: Dataset FL su larga scala (805.263 immagini)

Architetture di Modelli

ResNet18/ResNet34: Reti residuali profonde
VGG11 BN: Rete convoluzionale classica
SqueezeNet: Rete leggera
Vision Transformer (ViT): Architettura Transformer

Ambiente Sperimentale

Configurazione Mista: Test di simulazione e testbed con dispositivi reali
Configurazione dei Dispositivi: 100 dispositivi mobili eterogenei, il 10% selezionato casualmente per round
Budget di Memoria: 100-1000MB assegnati casualmente
Ottimizzatore: SGD, decadimento dei pesi 5e-4, epoch locali=5

Metodi di Confronto

AllSmall: Ridimensiona il modello globale in base alla memoria del dispositivo più debole
ExclusiveFL: Consente solo ai dispositivi con memoria sufficiente di partecipare
DepthFL: Ridimensionamento della profondità per adattarsi ai dispositivi eterogenei
HeteroFL: Ridimensionamento statico dei canali
FedRolex: Ridimensionamento dinamico della larghezza
SmartFreeze: Semplice addestramento sequenziale a blocchi
ProFL: Addestramento sequenziale decomposito

Risultati Sperimentali

Risultati Principali

Prestazioni in Scenario Non-IID:

Metodo	CIFAR10 (ResNet18/VGG11/SqueezeNet)	Tasso di Partecipazione
AllSmall	69.5%/75.1%/49.6%	100%/100%/100%
ExclusiveFL	76.8%/79.3%/40.6%	18%/22%/11%
SCALEFL	80.4%/87.6%/58.0%	100%/100%/100%

Scoperte Chiave:

Miglioramento Significativo delle Prestazioni: Miglioramento del 10.9%, 12.5%, 8.4% rispetto a AllSmall
Partecipazione di Tutti i Dispositivi: Raggiunge il 100% di tasso di partecipazione, mentre ExclusiveFL solo 18-22%
Efficienza di Memoria: Riduzione dell'utilizzo di memoria di picco fino al 50.4%
Accelerazione dell'Addestramento: Velocità di convergenza migliorata di 1.9 volte

Analisi di Scalabilità

Robustezza in Diversi Vincoli di Memoria:

Nello scenario ResNet34, ExclusiveFL è completamente infattibile (0% tasso di partecipazione)
SCALEFL migliora rispetto ad altri metodi fino al 27.4%

Dataset su Larga Scala:

Su dataset FEMNIST migliora l'accuratezza di FedAvg del 3%
Supporta scala di 120-500 dispositivi

Compatibilità Transformer:

Su modello ViT solo il 2% inferiore alla baseline teorica, ma la baseline teorica non è praticabile

Valutazione Hardware

Efficienza di Memoria:

Test su Jetson TX2 mostra riduzione dell'utilizzo di memoria di picco del 50.4%
Riduzione del tempo di addestramento per singolo round di 1.84-2.31 volte

Efficienza di Addestramento:

Riduzione significativa del tempo di addestramento per singolo round rispetto all'addestramento end-to-end
Accelerazione di 1.9 volte su ViT

Esperimento di Ablazione

Analisi del Contributo dei Componenti:

Rimozione del Mentore Curricolare: Riduzione dell'accuratezza dell'1.2% nello scenario CIFAR100 IID
Rimozione dell'Armonizzatore di Addestramento: Riduzione significativa dell'accuratezza del 9.0%
L'azione sinergica dei due componenti è critica per le prestazioni

Lavori Correlati

FL con Risorse Limitate

Addestramento Eterogeneo del Modello: Metodi come FedMD richiedono dataset pubblici per la distillazione della conoscenza
Addestramento Parziale: HeteroFL, FedRolex attraverso ridimensionamento della larghezza, DepthFL, InclusiveFL attraverso ridimensionamento della profondità

Addestramento a Blocchi

ProgFed: Introduce progressivamente nuovi blocchi ma richiede ancora addestramento end-to-end
SmartFreeze: Addestramento sequenziale di ogni blocco ma ignora il problema della perdita di informazioni
ProFL: Decompone in fasi di contrazione e crescita ma non risolve le sfide fondamentali

Analisi Teorica

Prova di Convergenza

L'articolo fornisce un'analisi di convergenza di SCALEFL che, sotto ipotesi standard (levigatezza, gradienti limitati), prova:

(1/R) Σ E[||∇L^r_t(Θ^r_(g,t))||^2] ≤ Ψ/√R

Cioè, la norma del gradiente medio converge a 0, il modello converge a un punto stabile.

Conclusioni e Discussione

Conclusioni Principali

SCALEFL risolve con successo il problema del muro di memoria in FL, consentendo ai dispositivi con risorse limitate di partecipare all'addestramento
Il Mentore Curricolare e l'Armonizzatore di Addestramento mitigano efficacemente le sfide fondamentali dell'addestramento sequenziale a blocchi
Raggiunge miglioramenti significativi delle prestazioni e risparmi di memoria su più dataset e modelli

Limitazioni

Strategia di Divisione a Blocchi: L'articolo non approfondisce il metodo di divisione a blocchi ottimale
Overhead di Comunicazione: Sebbene riduca l'utilizzo di memoria, potrebbe aumentare il numero di round di comunicazione
Sensibilità degli Iperparametri: L'impostazione di λt e γt richiede un'attenta sintonizzazione

Direzioni Future

Strategia di divisione a blocchi adattiva
Combinazione con altre tecniche di ottimizzazione FL
Verifica in distribuzione reale su scala più ampia

Valutazione Approfondita

Punti di Forza

Importanza del Problema: Risolve un collo di bottiglia critico nella distribuzione pratica di FL
Innovazione del Metodo: L'obiettivo di addestramento consapevole del curriculum e lo schema di adattamento della sinergia parametrica hanno originalità
Fondamento Teorico: L'analisi basata sulla teoria del collo di bottiglia informativo fornisce un supporto teorico solido
Completezza Sperimentale: Copre più modelli, dataset e test su hardware reale
Valore Pratico: I significativi risparmi di memoria e miglioramenti delle prestazioni hanno valore di applicazione pratica

Insufficienze

Complessità: L'introduzione dei due componenti aumenta la complessità del sistema
Sintonizzazione degli Iperparametri: Parametri come λt, γt richiedono sintonizzazione per diversi scenari
Analisi della Comunicazione: Manca un'analisi dettagliata dell'overhead di comunicazione
Velocità di Convergenza: Sebbene ogni round sia più veloce, il numero totale di round di convergenza potrebbe aumentare

Impatto

Contributo Accademico: Fornisce un nuovo approccio risolutivo per FL con risorse limitate
Valore Pratico: Può essere effettivamente distribuito in ambienti con risorse limitate come dispositivi mobili
Riproducibilità: Fornisce configurazioni sperimentali e parametri dettagliati

Scenari Applicabili

FL su Dispositivi Mobili: Smartphone, dispositivi IoT e altri scenari con memoria limitata
Calcolo Edge: Ambienti in cui le risorse dei server edge sono limitate
Addestramento di Modelli Grandi: Scenari in cui è necessario addestrare modelli di grandi dimensioni ma le risorse dei dispositivi sono insufficienti

Bibliografia

L'articolo cita importanti lavori nel campo di FL, inclusi metodi classici come FedAvg, HeteroFL, FedRolex, nonché fondamenti teorici come la teoria del collo di bottiglia informativo e HSIC, con citazioni bibliografiche relativamente complete e autorevoli.

Valutazione Complessiva: Questo è un articolo di alta qualità nell'apprendimento federato che propone soluzioni innovative per problemi critici nella distribuzione pratica. La progettazione del metodo è ragionevole, la verifica sperimentale è completa, l'analisi teorica è completa e possiede importante valore accademico e pratico.