2025-11-23T22:52:17.543262

FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment

Li, Bidkhori

We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.

academic

FedGTEA: Apprendimento Federato Incrementale per Classe con Incorporamento e Allineamento di Compiti Gaussiani

Informazioni Fondamentali

ID Articolo: 2510.12927
Titolo: FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment
Autori: Haolin Li, Hoda Bidkhori (George Mason University)
Classificazione: cs.LG stat.ML
Conferenza di Pubblicazione: AISTATS 2026, Tangeri, Marocco
Collegamento Articolo: https://arxiv.org/abs/2510.12927

Riassunto

Il presente articolo propone un innovativo framework di apprendimento federato incrementale per classe denominato FedGTEA (Federated Gaussian Task Embedding and Alignment). Il framework cattura la conoscenza specifica dei compiti e l'incertezza del modello in modo scalabile ed efficiente dal punto di vista comunicativo. Sul lato client, l'encoder di compiti indipendente dalla cardinalità (CATE) genera incorporamenti di compiti distribuiti gaussianamente, codificando la conoscenza dei compiti, risolvendo l'eterogeneità statistica e quantificando l'incertezza dei dati. La caratteristica chiave di CATE è mantenere una dimensione parametrica fissa indipendentemente dal numero di compiti, garantendo scalabilità per lunghe sequenze di compiti. Sul lato server, FedGTEA utilizza la distanza 2-Wasserstein per misurare i divari tra compiti negli incorporamenti gaussiani, imponendo la separazione tra compiti attraverso la perdita Wasserstein. Questa formulazione probabilistica non solo migliora l'apprendimento della rappresentazione, ma protegge anche la privacy a livello di compito evitando la trasmissione diretta degli incorporamenti latenti.

Contesto di Ricerca e Motivazione

Definizione del Problema

L'apprendimento federato incrementale per classe (FCIL) è un ibrido tra l'apprendimento federato (FL) e l'apprendimento incrementale per classe (CIL), richiedendo di affrontare simultaneamente tre sfide fondamentali:

Dimenticanza Catastrofica: Si verifica sia a livello locale del client che durante il processo di aggregazione globale
Eterogeneità Statistica: La distribuzione dei dati tra i client è tipicamente non indipendente e identicamente distribuita
Ambiguità del Contesto dei Compiti: L'assenza di identità dei compiti al momento del test porta a deriva semantica e degradazione delle prestazioni

Motivazione della Ricerca

I metodi FCIL esistenti si concentrano principalmente sull'utilizzo di caratteristiche a livello di dati, trascurando l'importanza del contesto a livello di compito. Come mostrato nella Figura 1, lo stesso input in compiti diversi può produrre risposte contraddittorie (ad esempio, "Che oggetto è questo?" vs "Qual è il colore dello sfondo?"), richiedendo diverse informazioni di contesto a livello di compito. Pertanto, come utilizzare efficacemente il contesto dei compiti in FCIL rimane un'area di ricerca relativamente inesplorata.

Limitazioni dei Metodi Esistenti

La maggior parte dei metodi si concentra sull'utilizzo di caratteristiche a livello di dati basate su memoria
I metodi di apprendimento con prompt, sebbene incorporino conoscenza dei compiti, presentano problemi di aumento dell'utilizzo della memoria e dei costi computazionali
Mancanza di design di encoder di compiti parametricamente efficienti

Contributi Principali

Propone l'Algoritmo FedGTEA: Cattura efficacemente la conoscenza a livello di compito in FCIL in modo scalabile e robusto, introducendo l'encoder di compiti indipendente dalla cardinalità (CATE) sul client che genera incorporamenti di compiti, modellando questi come variabili casuali gaussiane, e utilizzando la distanza 2-Wasserstein sul server per promuovere la separazione tra compiti.
Progetta il Modulo CATE: Capace di inferire incorporamenti di compiti da batch di dati di dimensioni arbitrarie, con caratteristica indipendente dalla cardinalità. Modellando gli incorporamenti come variabili casuali gaussiane, consente al server di quantificare le distanze tra compiti utilizzando la metrica 2-Wasserstein.
Framework di Ottimizzazione Lato Server: Esegue inizialmente l'aggregazione del modello utilizzando il principio FedAvg, quindi formula un problema di ottimizzazione contenente tre componenti di perdita: perdita di distillazione della conoscenza, perdita Wasserstein e perdita di ancoraggio.
Verifica Sperimentale: Realizza prestazioni di accuratezza e dimenticanza superiori rispetto a forti baseline (AC-GAN + FedAvg/FedProx, GLFC, FedCIL, FLwF-2T) su più dataset di riferimento.

Spiegazione Dettagliata del Metodo

Definizione dei Compiti

Il sistema FCIL contiene N client e un server centrale, elaborando la sequenza globale di compiti T = {T¹, T², ..., Tᵀ}. Ogni client Cₖ raccoglie il dataset locale Dᵗₖ ⊂ Tᵗ durante il compito Tᵗ. L'obiettivo è trovare i parametri globali θᵗₘ che minimizzino la perdita su tutti i compiti visti e su tutti i client.

Architettura del Modello

Modello Client

Il modello client contiene due componenti fondamentali:

1. Encoder di Compiti Indipendente dalla Cardinalità (CATE)

Progettato come rete neurale completamente connessa, dato un batch di dimensioni arbitrarie B = (x₁, x₂, ..., xᵦ), produce un incorporamento di compiti d-dimensionale:
```
Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
```
Il numero di parametri non cresce con il numero di compiti, garantendo scalabilità per lunghe sequenze di compiti

2. Modulo AC-GAN

Il discriminatore contiene teste Real/Fake e una testa di classificazione
La testa di classificazione fonde le caratteristiche dei dati F e l'incorporamento dei compiti E per la previsione
Il generatore G sintetizza immagini per la ripetizione

Incorporamento di Compiti Gaussiano

Modella l'incorporamento dei compiti come variabile casuale gaussiana:

Globale: Eᵗ ~ N(μᵗ, Σᵗ)
Specifico del client: Eᵗₖ ~ N(μᵗₖ, Σᵗₖ)

Aggregazione Lato Server e Regolarizzazione

Aggregazione Iniziale del Modello

Segue il principio FedAvg:

θ̂ᵗₘ = ∑ₖ₌₁ᴺ wₖθᵗₖ

dove i pesi wₖ sono proporzionali al numero di punti dati locali |Dᵗₖ|.

Regolarizzazione e Integrazione del Modello

La perdita del server contiene tre componenti:

Lserver = αLKD + βLWasserstein + γLanchor

1. Perdita di Distillazione della Conoscenza:

LKD = ∑(x,y)∈Aᵀ KL(θᵀ⁻¹ₘ(x)∥θ(x))

2. Perdita Wasserstein: Utilizza la distanza 2-Wasserstein per misurare la distanza tra compiti, per due distribuzioni gaussiane:

W²₂(m₁,m₂) = ∥μ₁ - μ₂∥²₂ + tr(Σ₁ + Σ₂ - 2(Σ₁^(1/2)Σ₂Σ₁^(1/2))^(1/2))

La perdita Wasserstein è:

LWasserstein = [∑₁≤ᵢ<ⱼ≤ᵀ W²₂(Nᵢ,Nⱼ)]⁻¹

3. Perdita di Ancoraggio:

Lanchor = ∥θ - θ̂ᵗₘ∥₂

Punti di Innovazione Tecnica

Design Indipendente dalla Cardinalità: CATE può elaborare batch di input di dimensioni arbitrarie, fornendo migliore robustezza e adattabilità
Modellazione Gaussiana: Modella gli incorporamenti dei compiti come variabili casuali gaussiane, facilitando la misurazione della distanza tra compiti utilizzando la distanza Wasserstein
Protezione della Privacy: Protegge la privacy a livello di compito evitando la trasmissione diretta degli incorporamenti latenti
Regolarizzazione Multilivello: Funzione di perdita complessiva che combina distillazione della conoscenza, separazione dei compiti e stabilità del modello

Configurazione Sperimentale

Dataset

Utilizza tre dataset FCIL standard:

CIFAR-10: 10 classi, 60.000 istanze
Divisione CIFAR-100 iCaRL: Divisione casuale secondo il principio iCaRL
Divisione CIFAR-100 Superclasse: 20 superclassi semanticamente correlate, ciascuna contenente 5 classi

Configurazione della Sequenza di Compiti

Sequenza 1 (CIFAR-10): 5 client, 5 compiti, 2 classi per compito
Sequenza 2 (CIFAR-100): 10 client, 10 compiti, 10 classi per compito
Sequenza 3 (CIFAR-100 Superclasse): 10 client, 20 compiti, 5 classi semanticamente correlate per compito

Metriche di Valutazione

Accuratezza Media: Accuratezza di test finale su tutti i compiti visti
Dimenticanza Media: Differenza tra l'accuratezza di picco di ogni compito e l'accuratezza finale

Metodi di Confronto

Baseline FL: FedAvg, FedProx
Metodi CIL: iCaRL, DER
Metodi FCIL: FLwF-2T, FedCIL, GLFC
Baseline Potenziati: AC-GAN + FedAvg/FedProx

Dettagli di Implementazione

Ottimizzatore: Adam
Dimensione batch: 64
CIFAR-10: Tasso di apprendimento 1×10⁻⁴, 60 comunicazioni globali, 100 iterazioni locali per round
CIFAR-100: Tasso di apprendimento 1×10⁻³, 40 comunicazioni globali, 400 iterazioni locali per round
Iperparametri: α=0.3, β=0.3, γ=0.4

Risultati Sperimentali

Risultati Principali

Modello	Sequenza 1: CIFAR-10	Sequenza 2: CIFAR-100	Sequenza 3: CIFAR-100 Superclasse
	Accuratezza↑ Dimenticanza↓	Accuratezza↑ Dimenticanza↓	Accuratezza↑ Dimenticanza↓
FedAvg	26.2±2.6 8.5±1.7	23.4±2.9 9.2±1.9	23.7±2.5 13.2±1.6
FedProx	26.1±1.8 8.6±1.3	24.1±1.9 8.4±2.0	23.1±1.9 14.5±2.3
GLFC	35.7±1.1 6.3±0.9	33.1±0.6 10.7±1.8	33.6±1.7 11.2±2.2
FedCIL	32.4±1.9 6.9±1.9	31.5±0.4 7.4±1.2	31.2±1.6 10.8±2.0
FedGTEA	37.1±0.7 4.5±0.5	35.9±0.6 6.6±1.7	35.1±1.2 8.6±1.4

Scoperte Chiave

Sequenza 1: FedGTEA raggiunge l'accuratezza più alta (37.1±0.7) e l'unico tasso di dimenticanza inferiore al 5% (4.5±0.5)
Sequenza 2: FedGTEA ottiene la migliore accuratezza (35.9±0.6), mantenendo al contempo un tasso di dimenticanza a una cifra (6.6±1.7)
Sequenza 3: FedGTEA mostra le migliori prestazioni sia in accuratezza (35.1±1.2) che in tasso di dimenticanza (8.6±1.4)

Esperimenti di Ablazione

Variante del Modello	Sequenza 1: CIFAR-10	Sequenza 2: CIFAR-100	Sequenza 3: CIFAR-100 Superclasse
senza CATE e Wasserstein	32.6±0.5 7.1±0.7	32.2±0.5 8.1±1.1	31.7±0.7 10.5±0.9
senza Wasserstein	34.1±0.7 5.8±0.4	33.3±0.4 8.8±0.7	32.2±0.3 10.3±0.3
senza Ancoraggio	30.2±1.3 6.9±1.4	32.5±0.4 8.1±0.3	31.0±0.4 10.8±0.2
senza Distillazione	32.3±1.5 8.7±1.1	31.9±0.6 10.9±1.6	31.4±1.1 12.2±2.4
FedGTEA Completo	37.1±0.7 4.5±0.5	35.9±0.6 6.6±1.7	35.1±1.2 8.6±1.4

Analisi degli Esperimenti di Ablazione

Perdita di Distillazione: La rimozione causa un aumento significativo del tasso di dimenticanza (da 8.6 a 12.2 su CIFAR-100 Superclasse), dimostrando la sua importanza nel mantenimento della conoscenza precedente
Perdita di Ancoraggio: La rimozione causa un calo significativo dell'accuratezza (quasi il 7% su CIFAR-10), indicando la sua necessità per stabilizzare la rappresentazione delle caratteristiche discriminative
Perdita CATE e Wasserstein: La rimozione causa un calo significativo delle prestazioni, convalidando l'efficacia dell'encoder di compiti e del meccanismo di separazione dei compiti

Lavori Correlati

Apprendimento Incrementale per Classe

I metodi CIL si dividono principalmente in tre categorie:

Metodi di Ripetizione: Come iCaRL, GEM, che mantengono buffer di campioni
Metodi di Regolarizzazione: Che vincolano gli aggiornamenti dei parametri attraverso distillazione della conoscenza
Metodi con Prompt: Come L2P, DualPrompt, che apprendono pool di vettori di contesto

Apprendimento Federato

Le principali strategie di aggregazione includono FedAvg e FedProx, che affrontano rispettivamente l'eterogeneità statistica attraverso media ponderata e regolarizzazione.

Apprendimento Federato Incrementale per Classe

I metodi FCIL esistenti si dividono in:

Metodi di Ripetizione: Utilizzano buffer di campioni locali o ripetizione generativa
Metodi di Regolarizzazione e Distillazione: Trasferiscono la conoscenza attraverso distillazione della conoscenza
Metodi con Prompt: Memorizzano pool di prompt sul client per codificare il contesto dei compiti

Conclusioni e Discussione

Conclusioni Principali

FedGTEA realizza una modellazione efficace della conoscenza a livello di compito in FCIL introducendo un encoder di compiti indipendente dalla cardinalità e regolarizzazione con distanza Wasserstein, superando i metodi esistenti sia in accuratezza che in prestazioni di dimenticanza.

Limitazioni

Complessità Computazionale: La complessità O(n³) del calcolo della distanza 2-Wasserstein potrebbe diventare un collo di bottiglia con incorporamenti ad alta dimensionalità
Sensibilità agli Iperparametri: I pesi dei tre componenti di perdita richiedono un'attenta sintonizzazione
Ambito di Valutazione: Valutato solo su compiti di classificazione di immagini, l'applicabilità ad altri domini rimane sconosciuta

Direzioni Future

Esplorare metodi più efficienti per il calcolo della distanza Wasserstein
Ricercare strategie di sintonizzazione adattiva degli iperparametri
Estendere ad altre modalità e tipi di compiti

Valutazione Approfondita

Punti di Forza

Forte Innovazione: Primo a modellare sistematicamente la conoscenza a livello di compito in FCIL, proponendo un design di encoder di compiti indipendente dalla cardinalità
Fondamenti Teorici Solidi: L'utilizzo delle proprietà matematiche della distanza 2-Wasserstein fornisce supporto teorico rigoroso per la separazione dei compiti
Sperimentazione Completa: Valutazione complessiva su più dataset e configurazioni, con esperimenti di ablazione che dimostrano l'efficacia di ogni componente
Protezione della Privacy: Protegge la privacy a livello di compito evitando la trasmissione diretta degli incorporamenti

Insufficienze

Costi Computazionali: Il calcolo della distanza Wasserstein e le operazioni matriciali potrebbero introdurre costi computazionali aggiuntivi
Sintonizzazione dei Parametri: L'equilibrio di più iperparametri richiede un notevole lavoro di sintonizzazione
Verifica della Generalizzazione Insufficiente: Validato solo su dataset CIFAR, mancano esperimenti su scala più ampia e diversificati

Impatto

Questo lavoro introduce una nuova prospettiva di modellazione a livello di compito nel campo FCIL, potenzialmente ispirando più ricerche focalizzate sul contesto dei compiti. Le caratteristiche di design indipendente dalla cardinalità e protezione della privacy lo rendono promettente per applicazioni pratiche.

Scenari Applicabili

Sistemi federati che richiedono apprendimento a lungo termine di nuove classi
Scenari di apprendimento distribuito con elevati requisiti di privacy
Ambienti in cui la distribuzione dei dati tra i client presenta differenze significative

Bibliografia

L'articolo cita importanti lavori nei campi FCIL, CIL e FL, inclusi metodi classici come FedAvg, iCaRL, AC-GAN, nonché ricerche FCIL recenti come FedCIL, GLFC, fornendo una base teorica solida per questa ricerca.