2025-11-23T22:52:17.543262

FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment

Li, Bidkhori
We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.
academic

FedGTEA: ガウス型タスク埋め込みとアライメントを用いた連邦クラス増分学習

基本情報

  • 論文ID: 2510.12927
  • タイトル: FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment
  • 著者: Haolin Li, Hoda Bidkhori (George Mason University)
  • 分類: cs.LG stat.ML
  • 発表会議: AISTATS 2026, Tangier, Morocco
  • 論文リンク: https://arxiv.org/abs/2510.12927

要約

本論文は、新規な連邦クラス増分学習フレームワークFedGTEA(Federated Gaussian Task Embedding and Alignment)を提案する。本フレームワークは、スケーラブルで通信効率の高い方法でタスク固有知識とモデル不確実性を捉える。クライアント側では、基数不変タスク符号化器(CATE)がガウス分布のタスク埋め込みを生成し、タスク知識を符号化し、統計的異質性を解決し、データ不確実性を定量化する。CATEの主要な特性は、タスク数に関わらず固定のパラメータ規模を維持することであり、長いタスク列のスケーラビリティを保証する。サーバー側では、FedGTEAは2-Wasserstein距離を利用してガウス埋め込み間のタスク間隔を測定し、Wasserstein損失を通じてタスク間分離を強制する。この確率的定式化は表現学習を強化するだけでなく、潜在埋め込みの直接転送を回避することでタスクレベルのプライバシーを保護する。

研究背景と動機

問題定義

連邦クラス増分学習(FCIL)は連邦学習(FL)とクラス増分学習(CIL)の融合であり、3つの中核的課題を同時に解決する必要がある:

  1. 破滅的忘却:クライアント側のローカルおよびグローバル集約プロセス中の両方で発生
  2. 統計的異質性:クライアント間のデータ分布は通常、独立同分布ではない
  3. タスク文脈の曖昧性:テスト時のタスク身元の欠如は意味的ドリフトとパフォーマンス低下を招く

研究動機

既存のFCIL方法は主にデータレベルの特徴利用に焦点を当てており、タスクレベルの文脈の重要性を見落としている。図1に示すように、同じ入力が異なるタスク下で矛盾した答えを生成する可能性がある(例えば「これは何のオブジェクトか?」対「背景色は何か?」)。これには異なるタスクレベルの文脈情報が必要である。したがって、FCIL内でタスク文脈を効果的に利用する方法は、相対的に未開発の研究領域である。

既存方法の限界

  • ほとんどの方法はメモリベースのデータレベル特徴利用に焦点を当てている
  • プロンプト学習方法はタスク知識を組み込んでいるが、メモリ使用量と計算オーバーヘッドの増加という問題がある
  • パラメータ効率的なタスク符号化器設計が不足している

核心的貢献

  1. FedGTEAアルゴリズムの提案:FCIL内でタスクレベル知識をスケーラブルで堅牢な方法で効果的に捉える。クライアント側の基数不変タスク符号化器(CATE)を導入してタスク埋め込みを生成し、これをガウス確率変数としてモデル化し、サーバー側の2-Wasserstein距離を利用してタスク間分離を促進する。
  2. CATEモジュールの設計:任意のサイズのデータバッチからタスク埋め込みを推論でき、基数不変特性を有する。埋め込みをガウス確率変数としてモデル化することで、サーバーが2-Wasserstein計量を使用してタスク間距離を定量化できるようにする。
  3. サーバー側最適化フレームワーク:まずFedAvg原理を使用して初期モデル集約を実行し、その後、3つの損失成分を含む最適化問題を定式化する:知識蒸留損失、Wasserstein損失、アンカー損失。
  4. 実験検証:複数のベンチマークデータセット上で、強力なベースライン(AC-GAN + FedAvg/FedProx、GLFC、FedCIL、FLwF-2T)と比較して、より優れた精度と忘却性能を達成する。

方法の詳細

タスク定義

FCILシステムはN個のクライアントと1つの中央サーバーを含み、グローバルタスク列T = {T¹, T², ..., Tᵀ}を処理する。各クライアントCₖはタスクTᵗ時にローカルデータセットDᵗₖ ⊂ Tᵗを収集する。目標は、すべての観測済みタスクおよびすべてのクライアント上の損失を最小化するグローバルパラメータθᵗₘを見つけることである。

モデルアーキテクチャ

クライアント側モデル

クライアント側モデルは2つの核心的成分を含む:

1. 基数不変タスク符号化器(CATE)

  • 全結合ニューラルネットワークとして設計され、任意のサイズのバッチB = (x₁, x₂, ..., xᵦ)が与えられた場合、d次元のタスク埋め込みを出力する:
    Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
    
  • パラメータ数はタスク数に伴って増加しないため、長いタスク列のスケーラビリティを保証する

2. AC-GANモジュール

  • 判別器はReal/Fakeヘッドと分類ヘッドを含む
  • 分類ヘッドはデータ特徴Fとタスク埋め込みEを融合して予測を行う
  • 生成器Gはリプレイ用の画像を合成する

ガウス型タスク埋め込み

タスク埋め込みをガウス確率変数としてモデル化する:

  • グローバル:Eᵗ ~ N(μᵗ, Σᵗ)
  • クライアント固有:Eᵗₖ ~ N(μᵗₖ, Σᵗₖ)

サーバー側集約と正則化

初期モデル集約

FedAvg原理に従う:

θ̂ᵗₘ = ∑ₖ₌₁ᴺ wₖθᵗₖ

ここで重みwₖはローカルデータポイント数|Dᵗₖ|に比例する。

モデル正則化と統合

サーバー損失は3つの成分を含む:

Lserver = αLKD + βLWasserstein + γLanchor

1. 知識蒸留損失

LKD = ∑(x,y)∈Aᵀ KL(θᵀ⁻¹ₘ(x)∥θ(x))

2. Wasserstein損失: 2-Wasserstein距離を使用してタスク間距離を測定し、2つのガウス分布に対して:

W²₂(m₁,m₂) = ∥μ₁ - μ₂∥²₂ + tr(Σ₁ + Σ₂ - 2(Σ₁^(1/2)Σ₂Σ₁^(1/2))^(1/2))

Wasserstein損失は:

LWasserstein = [∑₁≤ᵢ<ⱼ≤ᵀ W²₂(Nᵢ,Nⱼ)]⁻¹

3. アンカー損失

Lanchor = ∥θ - θ̂ᵗₘ∥₂

技術的革新点

  1. 基数不変設計:CATEは任意のサイズの入力バッチを処理でき、より優れたロバスト性と適応性を提供する
  2. ガウス型モデリング:タスク埋め込みをガウス確率変数としてモデル化し、Wasserstein距離を使用したタスク間距離測定を容易にする
  3. プライバシー保護:潜在埋め込みの直接転送を回避することでタスクレベルのプライバシーを保護する
  4. 多層的正則化:知識蒸留、タスク分離、モデル安定性を組み合わせた包括的な損失関数

実験設定

データセット

3つの標準FCILデータセットを使用:

  • CIFAR-10:10クラス、60,000インスタンス
  • CIFAR-100 iCaRL分割:iCaRL原理に従ってランダムに分割
  • CIFAR-100スーパークラス分割:20の意味的に関連するスーパークラス、各クラスは5つのクラスを含む

タスク列設定

  • 列1(CIFAR-10):5クライアント、5タスク、各タスク2クラス
  • 列2(CIFAR-100):10クライアント、10タスク、各タスク10クラス
  • 列3(CIFAR-100スーパークラス):10クライアント、20タスク、各タスク5つの意味的に関連するクラス

評価指標

  • 平均精度:すべての観測済みタスクの最終テスト精度
  • 平均忘却:各タスクのピーク精度と最終精度の差

比較方法

  • FLベースライン:FedAvg、FedProx
  • CIL方法:iCaRL、DER
  • FCIL方法:FLwF-2T、FedCIL、GLFC
  • 強化ベースライン:AC-GAN + FedAvg/FedProx

実装詳細

  • オプティマイザー:Adam
  • バッチサイズ:64
  • CIFAR-10:学習率1×10⁻⁴、60ラウンドのグローバル通信、各ラウンド100回のローカル反復
  • CIFAR-100:学習率1×10⁻³、40ラウンドのグローバル通信、各ラウンド400回のローカル反復
  • ハイパーパラメータ:α=0.3、β=0.3、γ=0.4

実験結果

主要結果

モデル列1:CIFAR-10列2:CIFAR-100列3:CIFAR-100スーパークラス
精度↑ 忘却↓精度↑ 忘却↓精度↑ 忘却↓
FedAvg26.2±2.6 8.5±1.723.4±2.9 9.2±1.923.7±2.5 13.2±1.6
FedProx26.1±1.8 8.6±1.324.1±1.9 8.4±2.023.1±1.9 14.5±2.3
GLFC35.7±1.1 6.3±0.933.1±0.6 10.7±1.833.6±1.7 11.2±2.2
FedCIL32.4±1.9 6.9±1.931.5±0.4 7.4±1.231.2±1.6 10.8±2.0
FedGTEA37.1±0.7 4.5±0.535.9±0.6 6.6±1.735.1±1.2 8.6±1.4

主要な知見

  1. 列1:FedGTEAは最高精度(37.1±0.7)と5%未満の唯一の忘却率(4.5±0.5)を達成
  2. 列2:FedGTEAは最良の精度(35.9±0.6)を獲得し、同時に1桁の忘却率(6.6±1.7)を維持
  3. 列3:FedGTEAは精度(35.1±1.2)と忘却率(8.6±1.4)の両方で最良のパフォーマンスを示す

アブレーション実験

モデル変種列1:CIFAR-10列2:CIFAR-100列3:CIFAR-100スーパークラス
CATEとWasserstein除外32.6±0.5 7.1±0.732.2±0.5 8.1±1.131.7±0.7 10.5±0.9
Wasserstein除外34.1±0.7 5.8±0.433.3±0.4 8.8±0.732.2±0.3 10.3±0.3
アンカー除外30.2±1.3 6.9±1.432.5±0.4 8.1±0.331.0±0.4 10.8±0.2
蒸留除外32.3±1.5 8.7±1.131.9±0.6 10.9±1.631.4±1.1 12.2±2.4
完全なFedGTEA37.1±0.7 4.5±0.535.9±0.6 6.6±1.735.1±1.2 8.6±1.4

アブレーション実験分析

  • 蒸留損失:除外後、忘却率が著しく増加(CIFAR-100スーパークラスで8.6から12.2へ)し、先前知識の保持における重要性を証明
  • アンカー損失:除外後、精度が大幅に低下(CIFAR-10で約7%低下)し、判別特徴表現の安定化における必要性を示す
  • CATEとWasserstein損失:除外後、パフォーマンスが著しく低下し、タスク符号化器とタスク分離メカニズムの有効性を検証

関連研究

クラス増分学習

CIL方法は主に3つのカテゴリに分類される:

  1. リプレイ方法:iCaRL、GEMなど、サンプルバッファを維持
  2. 正則化方法:知識蒸留を通じてパラメータ更新を制約
  3. プロンプト方法:L2P、DualPromptなど、文脈ベクトルプールを学習

連邦学習

主要な集約戦略にはFedAvgとFedProxが含まれ、それぞれ加重平均と正則化を通じて統計的異質性を処理する。

連邦クラス増分学習

既存のFCIL方法は以下に分類される:

  1. リプレイ方法:ローカルサンプルバッファまたは生成リプレイを使用
  2. 正則化と蒸留方法:知識蒸留を通じて知識を転送
  3. プロンプト方法:クライアント側にプロンプトプールを保存してタスク文脈を符号化

結論と議論

主要な結論

FedGTEAは基数不変タスク符号化器とWasserstein距離正則化を導入することで、FCIL内でタスクレベル知識の効果的なモデリングを実現し、精度と忘却性能の両方で既存方法を上回る。

限界

  1. 計算複雑性:2-Wasserstein距離計算のO(n³)複雑性は、高次元埋め込みの場合にボトルネックになる可能性がある
  2. ハイパーパラメータ感度:3つの損失成分の重みは慎重な調整が必要
  3. 評価範囲:画像分類タスクのみで評価され、他の領域への適用可能性は不明

今後の方向

  1. より効率的なWasserstein距離計算方法の探索
  2. 適応的ハイパーパラメータ調整戦略の研究
  3. 他のモダリティとタスクタイプへの拡張

深層的評価

利点

  1. 革新性が高い:FCIL内でタスクレベル知識を体系的にモデル化し、基数不変のタスク符号化器設計を提案した初めての研究
  2. 理論的基礎が堅実:2-Wasserstein距離の数学的性質を使用してタスク分離に厳密な理論的支持を提供
  3. 実験が充分:複数のデータセットと設定下で包括的な評価を実施し、アブレーション実験で各成分の有効性を証明
  4. プライバシー保護:埋め込みの直接転送を回避することでタスクレベルのプライバシーを保護

不足

  1. 計算オーバーヘッド:Wasserstein距離計算と行列演算が追加の計算コストをもたらす可能性
  2. パラメータ調整:複数のハイパーパラメータのバランスには大量の調整作業が必要
  3. 汎化性検証の不足:CIFARデータセットのみで検証され、より大規模で多様な実験が不足

影響力

本研究はFCIL領域にタスクレベルモデリングの新しい視点をもたらし、タスク文脈に注目した研究をさらに刺激する可能性がある。基数不変設計とプライバシー保護特性により、実際の応用において良好なポテンシャルを有する。

適用シーン

  • 新しいクラスを長期的に学習する必要がある連邦システム
  • プライバシー要件が高い分散学習シーン
  • クライアント間のデータ分布差異が大きい環境

参考文献

論文はFCIL、CIL、FL領域の重要な研究を引用しており、FedAvg、iCaRL、AC-GANなどの古典的方法、およびFedCIL、GLFCなどの最新FCIL研究を含み、本研究に堅実な理論的基礎を提供している。