2025-11-23T22:52:17.543262

FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment

Li, Bidkhori

We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.

academic

FedGTEA: ガウス型タスク埋め込みとアライメントを用いた連邦クラス増分学習

基本情報

論文ID: 2510.12927
タイトル: FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment
著者: Haolin Li, Hoda Bidkhori (George Mason University)
分類: cs.LG stat.ML
発表会議: AISTATS 2026, Tangier, Morocco
論文リンク: https://arxiv.org/abs/2510.12927

要約

本論文は、新規な連邦クラス増分学習フレームワークFedGTEA（Federated Gaussian Task Embedding and Alignment）を提案する。本フレームワークは、スケーラブルで通信効率の高い方法でタスク固有知識とモデル不確実性を捉える。クライアント側では、基数不変タスク符号化器（CATE）がガウス分布のタスク埋め込みを生成し、タスク知識を符号化し、統計的異質性を解決し、データ不確実性を定量化する。CATEの主要な特性は、タスク数に関わらず固定のパラメータ規模を維持することであり、長いタスク列のスケーラビリティを保証する。サーバー側では、FedGTEAは2-Wasserstein距離を利用してガウス埋め込み間のタスク間隔を測定し、Wasserstein損失を通じてタスク間分離を強制する。この確率的定式化は表現学習を強化するだけでなく、潜在埋め込みの直接転送を回避することでタスクレベルのプライバシーを保護する。

研究背景と動機

問題定義

連邦クラス増分学習（FCIL）は連邦学習（FL）とクラス増分学習（CIL）の融合であり、3つの中核的課題を同時に解決する必要がある：

破滅的忘却：クライアント側のローカルおよびグローバル集約プロセス中の両方で発生
統計的異質性：クライアント間のデータ分布は通常、独立同分布ではない
タスク文脈の曖昧性：テスト時のタスク身元の欠如は意味的ドリフトとパフォーマンス低下を招く

研究動機

既存のFCIL方法は主にデータレベルの特徴利用に焦点を当てており、タスクレベルの文脈の重要性を見落としている。図1に示すように、同じ入力が異なるタスク下で矛盾した答えを生成する可能性がある（例えば「これは何のオブジェクトか？」対「背景色は何か？」）。これには異なるタスクレベルの文脈情報が必要である。したがって、FCIL内でタスク文脈を効果的に利用する方法は、相対的に未開発の研究領域である。

既存方法の限界

ほとんどの方法はメモリベースのデータレベル特徴利用に焦点を当てている
プロンプト学習方法はタスク知識を組み込んでいるが、メモリ使用量と計算オーバーヘッドの増加という問題がある
パラメータ効率的なタスク符号化器設計が不足している

核心的貢献

FedGTEAアルゴリズムの提案：FCIL内でタスクレベル知識をスケーラブルで堅牢な方法で効果的に捉える。クライアント側の基数不変タスク符号化器（CATE）を導入してタスク埋め込みを生成し、これをガウス確率変数としてモデル化し、サーバー側の2-Wasserstein距離を利用してタスク間分離を促進する。
CATEモジュールの設計：任意のサイズのデータバッチからタスク埋め込みを推論でき、基数不変特性を有する。埋め込みをガウス確率変数としてモデル化することで、サーバーが2-Wasserstein計量を使用してタスク間距離を定量化できるようにする。
サーバー側最適化フレームワーク：まずFedAvg原理を使用して初期モデル集約を実行し、その後、3つの損失成分を含む最適化問題を定式化する：知識蒸留損失、Wasserstein損失、アンカー損失。
実験検証：複数のベンチマークデータセット上で、強力なベースライン（AC-GAN + FedAvg/FedProx、GLFC、FedCIL、FLwF-2T）と比較して、より優れた精度と忘却性能を達成する。

方法の詳細

タスク定義

FCILシステムはN個のクライアントと1つの中央サーバーを含み、グローバルタスク列T = {T¹, T², ..., Tᵀ}を処理する。各クライアントCₖはタスクTᵗ時にローカルデータセットDᵗₖ ⊂ Tᵗを収集する。目標は、すべての観測済みタスクおよびすべてのクライアント上の損失を最小化するグローバルパラメータθᵗₘを見つけることである。

モデルアーキテクチャ

クライアント側モデル

クライアント側モデルは2つの核心的成分を含む：

1. 基数不変タスク符号化器（CATE）

全結合ニューラルネットワークとして設計され、任意のサイズのバッチB = (x₁, x₂, ..., xᵦ)が与えられた場合、d次元のタスク埋め込みを出力する：
```
Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
```
パラメータ数はタスク数に伴って増加しないため、長いタスク列のスケーラビリティを保証する

2. AC-GANモジュール

判別器はReal/Fakeヘッドと分類ヘッドを含む
分類ヘッドはデータ特徴Fとタスク埋め込みEを融合して予測を行う
生成器Gはリプレイ用の画像を合成する

ガウス型タスク埋め込み

タスク埋め込みをガウス確率変数としてモデル化する：

グローバル：Eᵗ ~ N(μᵗ, Σᵗ)
クライアント固有：Eᵗₖ ~ N(μᵗₖ, Σᵗₖ)

サーバー側集約と正則化

初期モデル集約

FedAvg原理に従う：

θ̂ᵗₘ = ∑ₖ₌₁ᴺ wₖθᵗₖ

ここで重みwₖはローカルデータポイント数|Dᵗₖ|に比例する。

モデル正則化と統合

サーバー損失は3つの成分を含む：

Lserver = αLKD + βLWasserstein + γLanchor

1. 知識蒸留損失：

LKD = ∑(x,y)∈Aᵀ KL(θᵀ⁻¹ₘ(x)∥θ(x))

2. Wasserstein損失： 2-Wasserstein距離を使用してタスク間距離を測定し、2つのガウス分布に対して：

W²₂(m₁,m₂) = ∥μ₁ - μ₂∥²₂ + tr(Σ₁ + Σ₂ - 2(Σ₁^(1/2)Σ₂Σ₁^(1/2))^(1/2))

Wasserstein損失は：

LWasserstein = [∑₁≤ᵢ<ⱼ≤ᵀ W²₂(Nᵢ,Nⱼ)]⁻¹

3. アンカー損失：

Lanchor = ∥θ - θ̂ᵗₘ∥₂

技術的革新点

基数不変設計：CATEは任意のサイズの入力バッチを処理でき、より優れたロバスト性と適応性を提供する
ガウス型モデリング：タスク埋め込みをガウス確率変数としてモデル化し、Wasserstein距離を使用したタスク間距離測定を容易にする
プライバシー保護：潜在埋め込みの直接転送を回避することでタスクレベルのプライバシーを保護する
多層的正則化：知識蒸留、タスク分離、モデル安定性を組み合わせた包括的な損失関数

実験設定

データセット

3つの標準FCILデータセットを使用：

CIFAR-10：10クラス、60,000インスタンス
CIFAR-100 iCaRL分割：iCaRL原理に従ってランダムに分割
CIFAR-100スーパークラス分割：20の意味的に関連するスーパークラス、各クラスは5つのクラスを含む

タスク列設定

列1（CIFAR-10）：5クライアント、5タスク、各タスク2クラス
列2（CIFAR-100）：10クライアント、10タスク、各タスク10クラス
列3（CIFAR-100スーパークラス）：10クライアント、20タスク、各タスク5つの意味的に関連するクラス

評価指標

平均精度：すべての観測済みタスクの最終テスト精度
平均忘却：各タスクのピーク精度と最終精度の差

比較方法

FLベースライン：FedAvg、FedProx
CIL方法：iCaRL、DER
FCIL方法：FLwF-2T、FedCIL、GLFC
強化ベースライン：AC-GAN + FedAvg/FedProx

実装詳細

オプティマイザー：Adam
バッチサイズ：64
CIFAR-10：学習率1×10⁻⁴、60ラウンドのグローバル通信、各ラウンド100回のローカル反復
CIFAR-100：学習率1×10⁻³、40ラウンドのグローバル通信、各ラウンド400回のローカル反復
ハイパーパラメータ：α=0.3、β=0.3、γ=0.4

実験結果

主要結果

モデル	列1：CIFAR-10	列2：CIFAR-100	列3：CIFAR-100スーパークラス
	精度↑ 忘却↓	精度↑ 忘却↓	精度↑ 忘却↓
FedAvg	26.2±2.6 8.5±1.7	23.4±2.9 9.2±1.9	23.7±2.5 13.2±1.6
FedProx	26.1±1.8 8.6±1.3	24.1±1.9 8.4±2.0	23.1±1.9 14.5±2.3
GLFC	35.7±1.1 6.3±0.9	33.1±0.6 10.7±1.8	33.6±1.7 11.2±2.2
FedCIL	32.4±1.9 6.9±1.9	31.5±0.4 7.4±1.2	31.2±1.6 10.8±2.0
FedGTEA	37.1±0.7 4.5±0.5	35.9±0.6 6.6±1.7	35.1±1.2 8.6±1.4

主要な知見

列1：FedGTEAは最高精度（37.1±0.7）と5%未満の唯一の忘却率（4.5±0.5）を達成
列2：FedGTEAは最良の精度（35.9±0.6）を獲得し、同時に1桁の忘却率（6.6±1.7）を維持
列3：FedGTEAは精度（35.1±1.2）と忘却率（8.6±1.4）の両方で最良のパフォーマンスを示す

アブレーション実験

モデル変種	列1：CIFAR-10	列2：CIFAR-100	列3：CIFAR-100スーパークラス
CATEとWasserstein除外	32.6±0.5 7.1±0.7	32.2±0.5 8.1±1.1	31.7±0.7 10.5±0.9
Wasserstein除外	34.1±0.7 5.8±0.4	33.3±0.4 8.8±0.7	32.2±0.3 10.3±0.3
アンカー除外	30.2±1.3 6.9±1.4	32.5±0.4 8.1±0.3	31.0±0.4 10.8±0.2
蒸留除外	32.3±1.5 8.7±1.1	31.9±0.6 10.9±1.6	31.4±1.1 12.2±2.4
完全なFedGTEA	37.1±0.7 4.5±0.5	35.9±0.6 6.6±1.7	35.1±1.2 8.6±1.4