Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
academic
Colmare i Divari di Memoria: Scalare l'Apprendimento Federato per Client Eterogenei
L'apprendimento federato (FL) consente a più client di collaborare nell'addestramento di un modello condiviso proteggendo la privacy dei dati. Tuttavia, gli elevati requisiti di memoria durante l'addestramento del modello limitano gravemente la distribuzione di FL su client con risorse limitate. A tal fine, questo articolo propone SCALEFL, un framework FL scalabile e inclusivo che supera i limiti di memoria attraverso l'addestramento sequenziale a blocchi. L'idea centrale di SCALEFL è dividere il modello globale in blocchi e addestrarli sequenzialmente, riducendo così i requisiti di memoria di addestramento. Per mitigare la perdita di informazioni nell'addestramento a blocchi, SCALEFL introduce un Mentore Curricolare (Curriculum Mentor) che formula obiettivi di addestramento consapevoli del curriculum per ogni blocco. Inoltre, SCALEFL integra un Armonizzatore di Addestramento (Training Harmonizer) che progetta uno schema di adattamento della sinergia parametrica, rompendo efficacemente l'isolamento informativo tra blocchi.
Problema del Muro di Memoria: Durante l'addestramento dell'apprendimento federato, è necessario mantenere in memoria tutte le attivazioni intermedie, i pesi del modello e gli stati dell'ottimizzatore, causando un elevato consumo di memoria. Ad esempio, l'addestramento di ResNet34 su ImageNet consuma oltre 12GB di memoria, mentre i dispositivi mobili commerciali hanno tipicamente solo 4-12GB di RAM.
Eterogeneità dei Dispositivi: I dispositivi edge con risorse limitate non possono partecipare all'addestramento locale, impedendo ai loro dati preziosi di contribuire al modello globale.
Limitazioni dei Metodi Esistenti:
Addestramento Eterogeneo del Modello: Richiede dataset pubblici di alta qualità per la distillazione della conoscenza, difficili da ottenere in FL
Addestramento Parziale: Il ridimensionamento della larghezza compromette l'architettura del modello, il ridimensionamento della profondità è limitato dal client con la massima capacità di memoria
Con l'approfondimento e l'allargamento delle architetture di modelli per ottenere maggiore capacità analitica, il problema della memoria si aggrava ulteriormente. Questo articolo mira a progettare un framework FL che riduca significativamente i requisiti di memoria mantenendo le prestazioni del modello.
Propone il Framework SCALEFL: Riduce significativamente i requisiti di memoria di addestramento attraverso l'addestramento sequenziale a blocchi, consentendo ai dispositivi con risorse limitate di partecipare efficacemente
Progetta Due Componenti Fondamentali: Il Mentore Curricolare e l'Armonizzatore di Addestramento modellano congiuntamente il comportamento di apprendimento di ogni blocco, promuovendo l'apprendimento di caratteristiche strutturate coerenti
Verifica Sperimentale Completa: Dimostra l'efficacia e la robustezza di SCALEFL su più dataset di riferimento
Analisi Teorica: Fornisce analisi di convergenza, provando l'affidabilità teorica del metodo
In un sistema FL contenente N client, ogni client n possiede un dataset locale Dn. L'obiettivo è addestrare un modello globale Θ soddisfacendo i vincoli di memoria di ogni client.
Analisi del Problema: Basandosi sulla teoria del collo di bottiglia informativo, scopre che l'addestramento sequenziale a blocchi causa una grave perdita di informazioni. L'analisi dinamica del piano nHSIC mostra che SBT perde una grande quantità di informazioni di input dopo l'addestramento del primo blocco, impedendo ai blocchi successivi di estrarre caratteristiche critiche.
Soluzione: Progetta obiettivi di addestramento consapevoli del curriculum
L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)
Dove:
L_CE è la perdita di entropia incrociata
nHSIC(X;Zt) misura la conservazione delle informazioni di input
nHSIC(Y;Zt) misura la rilevanza per il compito
λt e γt si adattano dinamicamente in base alla fase di addestramento
Strategia: Nelle fasi iniziali, λt elevato e γt basso enfatizzano la conservazione delle informazioni di input, mentre nelle fasi successive λt diminuisce e γt aumenta gradualmente, passando all'estrazione di caratteristiche specifiche del compito.
Flusso di Informazioni in Avanti Limitato: I blocchi a valle iniziano l'addestramento solo dopo la convergenza dei blocchi precedenti
Flusso di Informazioni all'Indietro Limitato: I gradienti sono limitati al blocco, causando isolamento del gradiente
Schema di Adattamento della Sinergia Parametrica:
Crescita Dinamica del Modello: Organizza dinamicamente il processo di apprendimento di ogni blocco in ogni round, consentendo ai blocchi a valle di adattarsi in tempo reale agli aggiornamenti dei blocchi precedenti
Strategia di Addestramento Concorrente: Addestra il blocco corrente insieme agli ultimi strati del blocco precedente, promuovendo il flusso del gradiente
Addestramento Eterogeneo del Modello: Metodi come FedMD richiedono dataset pubblici per la distillazione della conoscenza
Addestramento Parziale: HeteroFL, FedRolex attraverso ridimensionamento della larghezza, DepthFL, InclusiveFL attraverso ridimensionamento della profondità
Importanza del Problema: Risolve un collo di bottiglia critico nella distribuzione pratica di FL
Innovazione del Metodo: L'obiettivo di addestramento consapevole del curriculum e lo schema di adattamento della sinergia parametrica hanno originalità
Fondamento Teorico: L'analisi basata sulla teoria del collo di bottiglia informativo fornisce un supporto teorico solido
Completezza Sperimentale: Copre più modelli, dataset e test su hardware reale
Valore Pratico: I significativi risparmi di memoria e miglioramenti delle prestazioni hanno valore di applicazione pratica
L'articolo cita importanti lavori nel campo di FL, inclusi metodi classici come FedAvg, HeteroFL, FedRolex, nonché fondamenti teorici come la teoria del collo di bottiglia informativo e HSIC, con citazioni bibliografiche relativamente complete e autorevoli.
Valutazione Complessiva: Questo è un articolo di alta qualità nell'apprendimento federato che propone soluzioni innovative per problemi critici nella distribuzione pratica. La progettazione del metodo è ragionevole, la verifica sperimentale è completa, l'analisi teorica è completa e possiede importante valore accademico e pratico.