2025-11-23T22:52:17.543262

FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment

Li, Bidkhori

We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.

academic

FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment

基本信息

论文ID: 2510.12927
标题: FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment
作者: Haolin Li, Hoda Bidkhori (George Mason University)
分类: cs.LG stat.ML
发表会议: AISTATS 2026, Tangier, Morocco
论文链接: https://arxiv.org/abs/2510.12927

摘要

本文提出了一种新颖的联邦类增量学习框架FedGTEA（Federated Gaussian Task Embedding and Alignment）。该框架通过可扩展且通信高效的方式捕获任务特定知识和模型不确定性。在客户端，基数无关任务编码器（CATE）生成高斯分布的任务嵌入，编码任务知识、解决统计异质性并量化数据不确定性。CATE的关键特性是无论任务数量如何都保持固定的参数规模，确保长任务序列的可扩展性。在服务器端，FedGTEA利用2-Wasserstein距离测量高斯嵌入间的任务间隙，通过Wasserstein损失强制任务间分离。这种概率化表述不仅增强了表示学习，还通过避免直接传输潜在嵌入来保护任务级隐私。

研究背景与动机

问题定义

联邦类增量学习（FCIL）是联邦学习（FL）和类增量学习（CIL）的混合体，需要同时解决三个核心挑战：

灾难性遗忘：在客户端本地和全局聚合过程中都会发生
统计异质性：客户端间数据分布通常是非独立同分布的
任务上下文模糊性：测试时缺乏任务身份导致语义漂移和性能下降

研究动机

现有FCIL方法主要关注数据级特征的利用，而忽视了任务级上下文的重要性。如图1所示，相同输入在不同任务下可能产生矛盾的答案（例如"这是什么物体？"vs"背景颜色是什么？"），这需要不同的任务级上下文信息。因此，如何在FCIL中有效利用任务上下文仍然是一个相对未开发的研究领域。

现有方法局限性

大多数方法专注于基于记忆的数据级特征利用
提示学习方法虽然融入了任务知识，但存在内存使用和计算开销增加的问题
缺乏参数高效的任务编码器设计

核心贡献

提出FedGTEA算法：在FCIL中以可扩展和鲁棒的方式有效捕获任务级知识，引入客户端的基数无关任务编码器（CATE）生成任务嵌入，将其建模为高斯随机变量，并利用服务器端的2-Wasserstein距离促进任务间分离。
设计CATE模块：能够从任意大小的数据批次推断任务嵌入，具有基数无关特性。通过将嵌入建模为高斯随机变量，使服务器能够使用2-Wasserstein度量量化任务间距离。
服务器端优化框架：首先使用FedAvg原理进行初始模型聚合，然后制定包含三个损失组件的优化问题：知识蒸馏损失、Wasserstein损失和锚点损失。
实验验证：在多个基准数据集上相比强基线（AC-GAN + FedAvg/FedProx、GLFC、FedCIL、FLwF-2T）实现了更优的准确率和遗忘性能。

设计为全连接神经网络，给定任意大小的批次B = (x₁, x₂, ..., xᵦ)，输出d维任务嵌入：
```
Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
```
参数数量不随任务数增长，确保长任务序列的可扩展性

2. AC-GAN模块

判别器包含Real/Fake头和分类头
分类头融合数据特征F和任务嵌入E进行预测
生成器G合成用于重放的图像

高斯任务嵌入

将任务嵌入建模为高斯随机变量：

全局：Eᵗ ~ N(μᵗ, Σᵗ)
客户端特定：Eᵗₖ ~ N(μᵗₖ, Σᵗₖ)

服务器端聚合与正则化

初始模型聚合

遵循FedAvg原理：

θ̂ᵗₘ = ∑ₖ₌₁ᴺ wₖθᵗₖ

其中权重wₖ与本地数据点数量|Dᵗₖ|成正比。

模型正则化与整合

服务器损失包含三个组件：

Lserver = αLKD + βLWasserstein + γLanchor

1. 知识蒸馏损失：

LKD = ∑(x,y)∈Aᵀ KL(θᵀ⁻¹ₘ(x)∥θ(x))

2. Wasserstein损失：使用2-Wasserstein距离测量任务间距离，对于两个高斯分布：

W²₂(m₁,m₂) = ∥μ₁ - μ₂∥²₂ + tr(Σ₁ + Σ₂ - 2(Σ₁^(1/2)Σ₂Σ₁^(1/2))^(1/2))

Wasserstein损失为：

LWasserstein = [∑₁≤ᵢ<ⱼ≤ᵀ W²₂(Nᵢ,Nⱼ)]⁻¹

3. 锚点损失：

Lanchor = ∥θ - θ̂ᵗₘ∥₂

技术创新点

基数无关设计：CATE可处理任意大小的输入批次，提供更好的鲁棒性和适应性
高斯建模：将任务嵌入建模为高斯随机变量，便于使用Wasserstein距离进行任务间距离度量
隐私保护：通过避免直接传输潜在嵌入来保护任务级隐私
多层次正则化：结合知识蒸馏、任务分离和模型稳定性的综合损失函数

实验设置

数据集

使用三个标准FCIL数据集：

CIFAR-10：10类，60,000个实例
CIFAR-100 iCaRL分割：按iCaRL原理随机分割
CIFAR-100超类分割：20个语义相关的超类，每个包含5个类

任务序列配置

序列1（CIFAR-10）：5个客户端，5个任务，每个任务2个类
序列2（CIFAR-100）：10个客户端，10个任务，每个任务10个类
序列3（CIFAR-100超类）：10个客户端，20个任务，每个任务5个语义相关类

评价指标

平均准确率：所有已见任务的最终测试准确率
平均遗忘：每个任务峰值准确率与最终准确率之间的差距

对比方法

FL基线：FedAvg, FedProx
CIL方法：iCaRL, DER
FCIL方法：FLwF-2T, FedCIL, GLFC
增强基线：AC-GAN + FedAvg/FedProx

实现细节

优化器：Adam
批次大小：64
CIFAR-10：学习率1×10⁻⁴，60轮全局通信，每轮100次本地迭代
CIFAR-100：学习率1×10⁻³，40轮全局通信，每轮400次本地迭代
超参数：α=0.3, β=0.3, γ=0.4

实验结果

主要结果

模型	序列1：CIFAR-10	序列2：CIFAR-100	序列3：CIFAR-100超类
	准确率↑ 遗忘↓	准确率↑ 遗忘↓	准确率↑ 遗忘↓
FedAvg	26.2±2.6 8.5±1.7	23.4±2.9 9.2±1.9	23.7±2.5 13.2±1.6
FedProx	26.1±1.8 8.6±1.3	24.1±1.9 8.4±2.0	23.1±1.9 14.5±2.3
GLFC	35.7±1.1 6.3±0.9	33.1±0.6 10.7±1.8	33.6±1.7 11.2±2.2
FedCIL	32.4±1.9 6.9±1.9	31.5±0.4 7.4±1.2	31.2±1.6 10.8±2.0
FedGTEA	37.1±0.7 4.5±0.5	35.9±0.6 6.6±1.7	35.1±1.2 8.6±1.4

关键发现

序列1：FedGTEA达到最高准确率（37.1±0.7）和唯一低于5%的遗忘率（4.5±0.5）
序列2：FedGTEA获得最佳准确率（35.9±0.6），同时保持单位数遗忘率（6.6±1.7）
序列3：FedGTEA在准确率（35.1±1.2）和遗忘率（8.6±1.4）上都表现最佳

消融实验

模型变体	序列1：CIFAR-10	序列2：CIFAR-100	序列3：CIFAR-100超类
w/o CATE & Wasserstein	32.6±0.5 7.1±0.7	32.2±0.5 8.1±1.1	31.7±0.7 10.5±0.9
w/o Wasserstein	34.1±0.7 5.8±0.4	33.3±0.4 8.8±0.7	32.2±0.3 10.3±0.3
w/o Anchor	30.2±1.3 6.9±1.4	32.5±0.4 8.1±0.3	31.0±0.4 10.8±0.2
w/o Distillation	32.3±1.5 8.7±1.1	31.9±0.6 10.9±1.6	31.4±1.1 12.2±2.4
完整FedGTEA	37.1±0.7 4.5±0.5	35.9±0.6 6.6±1.7	35.1±1.2 8.6±1.4

消融实验分析

蒸馏损失：移除后遗忘率显著增加（CIFAR-100超类上从8.6增至12.2），证明其对保持先前知识的重要性
锚点损失：移除后准确率大幅下降（CIFAR-10上下降近7%），表明其对稳定判别特征表示的必要性
CATE和Wasserstein损失：移除后性能显著下降，验证了任务编码器和任务分离机制的有效性

计算复杂度：2-Wasserstein距离计算的O(n³)复杂度可能在高维嵌入时成为瓶颈
超参数敏感性：三个损失组件的权重需要仔细调优
评估范围：仅在图像分类任务上评估，其他领域的适用性未知

未来方向

探索更高效的Wasserstein距离计算方法
研究自适应超参数调整策略
扩展到其他模态和任务类型

深度评价

优点

创新性强：首次在FCIL中系统性地建模任务级知识，提出基数无关的任务编码器设计
理论基础扎实：使用2-Wasserstein距离的数学性质为任务分离提供了严格的理论支撑
实验充分：在多个数据集和设置下进行了全面评估，消融实验证明了各组件的有效性
隐私保护：通过避免直接传输嵌入保护了任务级隐私

不足

计算开销：Wasserstein距离计算和矩阵运算可能带来额外的计算成本
参数调优：多个超参数的平衡需要大量调优工作
泛化性验证不足：仅在CIFAR数据集上验证，缺乏更大规模和多样化的实验

影响力

该工作为FCIL领域引入了任务级建模的新思路，可能启发更多关注任务上下文的研究。基数无关设计和隐私保护特性使其在实际应用中具有较好的潜力。

适用场景

需要长期学习新类别的联邦系统
对隐私要求较高的分布式学习场景
客户端数据分布差异较大的环境

参考文献

论文引用了FCIL、CIL和FL领域的重要工作，包括FedAvg、iCaRL、AC-GAN等经典方法，以及最新的FCIL研究如FedCIL、GLFC等，为本研究提供了坚实的理论基础。