FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment
Li, Bidkhori
We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.
academic
FedGTEA: Apprendimento Federato Incrementale per Classe con Incorporamento e Allineamento di Compiti Gaussiani
Il presente articolo propone un innovativo framework di apprendimento federato incrementale per classe denominato FedGTEA (Federated Gaussian Task Embedding and Alignment). Il framework cattura la conoscenza specifica dei compiti e l'incertezza del modello in modo scalabile ed efficiente dal punto di vista comunicativo. Sul lato client, l'encoder di compiti indipendente dalla cardinalità (CATE) genera incorporamenti di compiti distribuiti gaussianamente, codificando la conoscenza dei compiti, risolvendo l'eterogeneità statistica e quantificando l'incertezza dei dati. La caratteristica chiave di CATE è mantenere una dimensione parametrica fissa indipendentemente dal numero di compiti, garantendo scalabilità per lunghe sequenze di compiti. Sul lato server, FedGTEA utilizza la distanza 2-Wasserstein per misurare i divari tra compiti negli incorporamenti gaussiani, imponendo la separazione tra compiti attraverso la perdita Wasserstein. Questa formulazione probabilistica non solo migliora l'apprendimento della rappresentazione, ma protegge anche la privacy a livello di compito evitando la trasmissione diretta degli incorporamenti latenti.
L'apprendimento federato incrementale per classe (FCIL) è un ibrido tra l'apprendimento federato (FL) e l'apprendimento incrementale per classe (CIL), richiedendo di affrontare simultaneamente tre sfide fondamentali:
Dimenticanza Catastrofica: Si verifica sia a livello locale del client che durante il processo di aggregazione globale
Eterogeneità Statistica: La distribuzione dei dati tra i client è tipicamente non indipendente e identicamente distribuita
Ambiguità del Contesto dei Compiti: L'assenza di identità dei compiti al momento del test porta a deriva semantica e degradazione delle prestazioni
I metodi FCIL esistenti si concentrano principalmente sull'utilizzo di caratteristiche a livello di dati, trascurando l'importanza del contesto a livello di compito. Come mostrato nella Figura 1, lo stesso input in compiti diversi può produrre risposte contraddittorie (ad esempio, "Che oggetto è questo?" vs "Qual è il colore dello sfondo?"), richiedendo diverse informazioni di contesto a livello di compito. Pertanto, come utilizzare efficacemente il contesto dei compiti in FCIL rimane un'area di ricerca relativamente inesplorata.
La maggior parte dei metodi si concentra sull'utilizzo di caratteristiche a livello di dati basate su memoria
I metodi di apprendimento con prompt, sebbene incorporino conoscenza dei compiti, presentano problemi di aumento dell'utilizzo della memoria e dei costi computazionali
Mancanza di design di encoder di compiti parametricamente efficienti
Propone l'Algoritmo FedGTEA: Cattura efficacemente la conoscenza a livello di compito in FCIL in modo scalabile e robusto, introducendo l'encoder di compiti indipendente dalla cardinalità (CATE) sul client che genera incorporamenti di compiti, modellando questi come variabili casuali gaussiane, e utilizzando la distanza 2-Wasserstein sul server per promuovere la separazione tra compiti.
Progetta il Modulo CATE: Capace di inferire incorporamenti di compiti da batch di dati di dimensioni arbitrarie, con caratteristica indipendente dalla cardinalità. Modellando gli incorporamenti come variabili casuali gaussiane, consente al server di quantificare le distanze tra compiti utilizzando la metrica 2-Wasserstein.
Framework di Ottimizzazione Lato Server: Esegue inizialmente l'aggregazione del modello utilizzando il principio FedAvg, quindi formula un problema di ottimizzazione contenente tre componenti di perdita: perdita di distillazione della conoscenza, perdita Wasserstein e perdita di ancoraggio.
Verifica Sperimentale: Realizza prestazioni di accuratezza e dimenticanza superiori rispetto a forti baseline (AC-GAN + FedAvg/FedProx, GLFC, FedCIL, FLwF-2T) su più dataset di riferimento.
Il sistema FCIL contiene N client e un server centrale, elaborando la sequenza globale di compiti T = {T¹, T², ..., Tᵀ}. Ogni client Cₖ raccoglie il dataset locale Dᵗₖ ⊂ Tᵗ durante il compito Tᵗ. L'obiettivo è trovare i parametri globali θᵗₘ che minimizzino la perdita su tutti i compiti visti e su tutti i client.
Il modello client contiene due componenti fondamentali:
1. Encoder di Compiti Indipendente dalla Cardinalità (CATE)
Progettato come rete neurale completamente connessa, dato un batch di dimensioni arbitrarie B = (x₁, x₂, ..., xᵦ), produce un incorporamento di compiti d-dimensionale:
Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
Il numero di parametri non cresce con il numero di compiti, garantendo scalabilità per lunghe sequenze di compiti
2. Modulo AC-GAN
Il discriminatore contiene teste Real/Fake e una testa di classificazione
La testa di classificazione fonde le caratteristiche dei dati F e l'incorporamento dei compiti E per la previsione
Il generatore G sintetizza immagini per la ripetizione
Design Indipendente dalla Cardinalità: CATE può elaborare batch di input di dimensioni arbitrarie, fornendo migliore robustezza e adattabilità
Modellazione Gaussiana: Modella gli incorporamenti dei compiti come variabili casuali gaussiane, facilitando la misurazione della distanza tra compiti utilizzando la distanza Wasserstein
Protezione della Privacy: Protegge la privacy a livello di compito evitando la trasmissione diretta degli incorporamenti latenti
Regolarizzazione Multilivello: Funzione di perdita complessiva che combina distillazione della conoscenza, separazione dei compiti e stabilità del modello
Perdita di Distillazione: La rimozione causa un aumento significativo del tasso di dimenticanza (da 8.6 a 12.2 su CIFAR-100 Superclasse), dimostrando la sua importanza nel mantenimento della conoscenza precedente
Perdita di Ancoraggio: La rimozione causa un calo significativo dell'accuratezza (quasi il 7% su CIFAR-10), indicando la sua necessità per stabilizzare la rappresentazione delle caratteristiche discriminative
Perdita CATE e Wasserstein: La rimozione causa un calo significativo delle prestazioni, convalidando l'efficacia dell'encoder di compiti e del meccanismo di separazione dei compiti
Le principali strategie di aggregazione includono FedAvg e FedProx, che affrontano rispettivamente l'eterogeneità statistica attraverso media ponderata e regolarizzazione.
FedGTEA realizza una modellazione efficace della conoscenza a livello di compito in FCIL introducendo un encoder di compiti indipendente dalla cardinalità e regolarizzazione con distanza Wasserstein, superando i metodi esistenti sia in accuratezza che in prestazioni di dimenticanza.
Complessità Computazionale: La complessità O(n³) del calcolo della distanza 2-Wasserstein potrebbe diventare un collo di bottiglia con incorporamenti ad alta dimensionalità
Sensibilità agli Iperparametri: I pesi dei tre componenti di perdita richiedono un'attenta sintonizzazione
Ambito di Valutazione: Valutato solo su compiti di classificazione di immagini, l'applicabilità ad altri domini rimane sconosciuta
Forte Innovazione: Primo a modellare sistematicamente la conoscenza a livello di compito in FCIL, proponendo un design di encoder di compiti indipendente dalla cardinalità
Fondamenti Teorici Solidi: L'utilizzo delle proprietà matematiche della distanza 2-Wasserstein fornisce supporto teorico rigoroso per la separazione dei compiti
Sperimentazione Completa: Valutazione complessiva su più dataset e configurazioni, con esperimenti di ablazione che dimostrano l'efficacia di ogni componente
Protezione della Privacy: Protegge la privacy a livello di compito evitando la trasmissione diretta degli incorporamenti
Questo lavoro introduce una nuova prospettiva di modellazione a livello di compito nel campo FCIL, potenzialmente ispirando più ricerche focalizzate sul contesto dei compiti. Le caratteristiche di design indipendente dalla cardinalità e protezione della privacy lo rendono promettente per applicazioni pratiche.
L'articolo cita importanti lavori nei campi FCIL, CIL e FL, inclusi metodi classici come FedAvg, iCaRL, AC-GAN, nonché ricerche FCIL recenti come FedCIL, GLFC, fornendo una base teorica solida per questa ricerca.