2025-11-23T22:52:17.543262

FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment

Li, Bidkhori
We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.
academic

FedGTEA: Föderiertes klasseninkrementielles Lernen mit Gaußscher Task-Einbettung und Ausrichtung

Grundinformationen

  • Papier-ID: 2510.12927
  • Titel: FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment
  • Autoren: Haolin Li, Hoda Bidkhori (George Mason University)
  • Klassifizierung: cs.LG stat.ML
  • Veröffentlichungskonferenz: AISTATS 2026, Tanger, Marokko
  • Papierlink: https://arxiv.org/abs/2510.12927

Zusammenfassung

Dieses Papier präsentiert ein neuartiges föderiertes klasseninkrementielles Lernframework FedGTEA (Federated Gaussian Task Embedding and Alignment). Das Framework erfasst aufgabenspezifisches Wissen und Modellunsicherheit auf skalierbare und kommunikationseffiziente Weise. Auf der Clientseite generiert der kardinalitätsunabhängige Task-Encoder (CATE) Gaußsche verteilte Task-Einbettungen, die Aufgabenwissen kodieren, statistische Heterogenität lösen und Datenunsicherheit quantifizieren. Eine Schlüsseleigenschaft von CATE ist die Aufrechterhaltung einer festen Parametergröße unabhängig von der Anzahl der Aufgaben, was Skalierbarkeit für lange Aufgabensequenzen gewährleistet. Auf der Serverseite nutzt FedGTEA die 2-Wasserstein-Distanz zur Messung von Aufgabenlücken zwischen Gaußschen Einbettungen und erzwingt Aufgabentrennung durch Wasserstein-Verlust. Diese probabilistische Formulierung verbessert nicht nur das Repräsentationslernens, sondern schützt auch die Aufgabenebenen-Privatsphäre durch Vermeidung direkter Übertragung latenter Einbettungen.

Forschungshintergrund und Motivation

Problemdefinition

Föderiertes klasseninkrementielles Lernen (FCIL) ist eine Hybridform aus föderiertem Lernen (FL) und klasseninkrementiellen Lernen (CIL) und muss drei Kernherausforderungen gleichzeitig bewältigen:

  1. Katastrophales Vergessen: Tritt sowohl bei lokalen Client-Prozessen als auch bei globaler Aggregation auf
  2. Statistische Heterogenität: Datenvariationen zwischen Clients sind typischerweise nicht unabhängig und identisch verteilt
  3. Aufgabenkontextambiguität: Fehlende Aufgabenidentität zur Testzeit führt zu semantischer Verschiebung und Leistungsabfall

Forschungsmotivation

Bestehende FCIL-Methoden konzentrieren sich hauptsächlich auf die Nutzung von Merkmalen auf Datenebene und übersehen die Bedeutung von Aufgabenkontexten. Wie in Abbildung 1 gezeigt, kann die gleiche Eingabe unter verschiedenen Aufgaben widersprüchliche Antworten erzeugen (z.B. "Was ist dieses Objekt?" vs. "Welche Farbe hat der Hintergrund?"), was unterschiedliche Aufgabenkontextinformationen erfordert. Daher bleibt die effektive Nutzung von Aufgabenkontexten in FCIL ein relativ unerforschtes Forschungsgebiet.

Einschränkungen bestehender Methoden

  • Die meisten Methoden konzentrieren sich auf speicherbasierte Merkmalsnutzung auf Datenebene
  • Prompt-Learning-Methoden integrieren zwar Aufgabenwissen, weisen aber erhöhte Speichernutzung und Rechenaufwand auf
  • Mangel an parametereffizientem Task-Encoder-Design

Kernbeiträge

  1. Vorschlag des FedGTEA-Algorithmus: Erfasst Aufgabenwissen auf skalierbare und robuste Weise in FCIL, führt einen kardinalitätsunabhängigen Task-Encoder (CATE) auf der Clientseite ein, der Task-Einbettungen generiert und diese als Gaußsche Zufallsvariablen modelliert, und nutzt die 2-Wasserstein-Distanz auf der Serverseite zur Förderung der Aufgabentrennung.
  2. Design des CATE-Moduls: Kann Task-Einbettungen aus Datenbatches beliebiger Größe ableiten und besitzt kardinalitätsunabhängige Eigenschaften. Durch Modellierung der Einbettung als Gaußsche Zufallsvariable kann der Server die 2-Wasserstein-Metrik zur Quantifizierung von Aufgabendistanzen nutzen.
  3. Serverseite-Optimierungsrahmen: Führt zunächst Modellinitialisierung mit FedAvg-Prinzipien durch, formuliert dann ein Optimierungsproblem mit drei Verlustkomponenten: Wissensdestillationsverlust, Wasserstein-Verlust und Ankerverlust.
  4. Experimentelle Validierung: Erreicht bessere Genauigkeit und Vergessenleistung im Vergleich zu starken Baselines (AC-GAN + FedAvg/FedProx, GLFC, FedCIL, FLwF-2T) auf mehreren Benchmark-Datensätzen.

Methodische Details

Aufgabendefinition

Das FCIL-System umfasst N Clients und einen zentralen Server und verarbeitet eine globale Aufgabensequenz T = {T¹, T², ..., Tᵀ}. Jeder Client Cₖ sammelt einen lokalen Datensatz Dᵗₖ ⊂ Tᵗ bei Aufgabe Tᵗ. Das Ziel ist es, globale Parameter θᵗₘ zu finden, die den Verlust über alle beobachteten Aufgaben und alle Clients minimieren.

Modellarchitektur

Client-Modell

Das Client-Modell enthält zwei Kernkomponenten:

1. Kardinalitätsunabhängiger Task-Encoder (CATE)

  • Konzipiert als vollständig verbundenes neuronales Netzwerk, das bei gegebenem Batch B = (x₁, x₂, ..., xᵦ) beliebiger Größe eine d-dimensionale Task-Einbettung ausgibt:
    Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
    
  • Die Parameteranzahl wächst nicht mit der Anzahl der Aufgaben, was Skalierbarkeit für lange Aufgabensequenzen gewährleistet

2. AC-GAN-Modul

  • Der Diskriminator enthält Real/Fake-Köpfe und Klassifizierungsköpfe
  • Der Klassifizierungskopf fusioniert Datenmerkmale F und Task-Einbettung E für Vorhersagen
  • Der Generator G synthetisiert Bilder für Replay

Gaußsche Task-Einbettung

Modelliert Task-Einbettungen als Gaußsche Zufallsvariablen:

  • Global: Eᵗ ~ N(μᵗ, Σᵗ)
  • Client-spezifisch: Eᵗₖ ~ N(μᵗₖ, Σᵗₖ)

Serverseite-Aggregation und Regularisierung

Initiale Modellsaggregation

Folgt dem FedAvg-Prinzip:

θ̂ᵗₘ = ∑ₖ₌₁ᴺ wₖθᵗₖ

wobei die Gewichte wₖ proportional zur Anzahl lokaler Datenpunkte |Dᵗₖ| sind.

Modellregularisierung und Integration

Der Serververlust enthält drei Komponenten:

Lserver = αLKD + βLWasserstein + γLanchor

1. Wissensdestillationsverlust:

LKD = ∑(x,y)∈Aᵀ KL(θᵀ⁻¹ₘ(x)∥θ(x))

2. Wasserstein-Verlust: Nutzt die 2-Wasserstein-Distanz zur Messung von Aufgabendistanzen, für zwei Gaußsche Verteilungen:

W²₂(m₁,m₂) = ∥μ₁ - μ₂∥²₂ + tr(Σ₁ + Σ₂ - 2(Σ₁^(1/2)Σ₂Σ₁^(1/2))^(1/2))

Der Wasserstein-Verlust ist:

LWasserstein = [∑₁≤ᵢ<ⱼ≤ᵀ W²₂(Nᵢ,Nⱼ)]⁻¹

3. Ankerverlust:

Lanchor = ∥θ - θ̂ᵗₘ∥₂

Technische Innovationen

  1. Kardinalitätsunabhängiges Design: CATE kann Eingabebatches beliebiger Größe verarbeiten und bietet bessere Robustheit und Anpassungsfähigkeit
  2. Gaußsche Modellierung: Modelliert Task-Einbettungen als Gaußsche Zufallsvariablen, was die Verwendung der Wasserstein-Distanz zur Messung von Aufgabendistanzen ermöglicht
  3. Datenschutz: Schützt die Aufgabenebenen-Privatsphäre durch Vermeidung direkter Übertragung latenter Einbettungen
  4. Mehrschichtige Regularisierung: Kombinierte Verlustfunktion, die Wissensdestillation, Aufgabentrennung und Modellstabilität integriert

Experimentelle Einrichtung

Datensätze

Verwendet drei Standard-FCIL-Datensätze:

  • CIFAR-10: 10 Klassen, 60.000 Instanzen
  • CIFAR-100 iCaRL-Aufteilung: Zufällige Aufteilung nach iCaRL-Prinzipien
  • CIFAR-100 Superklassen-Aufteilung: 20 semantisch verwandte Superklassen, jede mit 5 Klassen

Task-Sequenzkonfiguration

  • Sequenz 1 (CIFAR-10): 5 Clients, 5 Aufgaben, 2 Klassen pro Aufgabe
  • Sequenz 2 (CIFAR-100): 10 Clients, 10 Aufgaben, 10 Klassen pro Aufgabe
  • Sequenz 3 (CIFAR-100 Superklassen): 10 Clients, 20 Aufgaben, 5 semantisch verwandte Klassen pro Aufgabe

Bewertungsmetriken

  • Durchschnittliche Genauigkeit: Endgültige Testgenauigkeit über alle beobachteten Aufgaben
  • Durchschnittliches Vergessen: Differenz zwischen Spitzengenauigkeit und endgültiger Genauigkeit für jede Aufgabe

Vergleichsmethoden

  • FL-Baselines: FedAvg, FedProx
  • CIL-Methoden: iCaRL, DER
  • FCIL-Methoden: FLwF-2T, FedCIL, GLFC
  • Verbesserte Baselines: AC-GAN + FedAvg/FedProx

Implementierungsdetails

  • Optimierer: Adam
  • Batch-Größe: 64
  • CIFAR-10: Lernrate 1×10⁻⁴, 60 globale Kommunikationsrunden, 100 lokale Iterationen pro Runde
  • CIFAR-100: Lernrate 1×10⁻³, 40 globale Kommunikationsrunden, 400 lokale Iterationen pro Runde
  • Hyperparameter: α=0,3, β=0,3, γ=0,4

Experimentelle Ergebnisse

Hauptergebnisse

ModellSequenz 1: CIFAR-10Sequenz 2: CIFAR-100Sequenz 3: CIFAR-100 Superklassen
Genauigkeit↑ Vergessen↓Genauigkeit↑ Vergessen↓Genauigkeit↑ Vergessen↓
FedAvg26,2±2,6 8,5±1,723,4±2,9 9,2±1,923,7±2,5 13,2±1,6
FedProx26,1±1,8 8,6±1,324,1±1,9 8,4±2,023,1±1,9 14,5±2,3
GLFC35,7±1,1 6,3±0,933,1±0,6 10,7±1,833,6±1,7 11,2±2,2
FedCIL32,4±1,9 6,9±1,931,5±0,4 7,4±1,231,2±1,6 10,8±2,0
FedGTEA37,1±0,7 4,5±0,535,9±0,6 6,6±1,735,1±1,2 8,6±1,4

Wichtigste Erkenntnisse

  1. Sequenz 1: FedGTEA erreicht höchste Genauigkeit (37,1±0,7) und einzige Vergessenrate unter 5% (4,5±0,5)
  2. Sequenz 2: FedGTEA erzielt beste Genauigkeit (35,9±0,6) bei gleichzeitiger Aufrechterhaltung einstelliger Vergessenrate (6,6±1,7)
  3. Sequenz 3: FedGTEA zeigt beste Leistung sowohl bei Genauigkeit (35,1±1,2) als auch bei Vergessenrate (8,6±1,4)

Ablationsstudien

ModellvarianteSequenz 1: CIFAR-10Sequenz 2: CIFAR-100Sequenz 3: CIFAR-100 Superklassen
ohne CATE & Wasserstein32,6±0,5 7,1±0,732,2±0,5 8,1±1,131,7±0,7 10,5±0,9
ohne Wasserstein34,1±0,7 5,8±0,433,3±0,4 8,8±0,732,2±0,3 10,3±0,3
ohne Anker30,2±1,3 6,9±1,432,5±0,4 8,1±0,331,0±0,4 10,8±0,2
ohne Destillation32,3±1,5 8,7±1,131,9±0,6 10,9±1,631,4±1,1 12,2±2,4
Vollständiges FedGTEA37,1±0,7 4,5±0,535,9±0,6 6,6±1,735,1±1,2 8,6±1,4

Analyse der Ablationsstudien

  • Destillationsverlust: Das Entfernen führt zu signifikantem Anstieg der Vergessenrate (CIFAR-100 Superklassen von 8,6 auf 12,2), was seine Bedeutung für die Bewahrung früheren Wissens belegt
  • Ankerverlust: Das Entfernen führt zu drastischem Genauigkeitsabfall (CIFAR-10 um fast 7%), was seine Notwendigkeit für die Stabilisierung diskriminativer Merkmalsdarstellungen zeigt
  • CATE und Wasserstein-Verlust: Das Entfernen führt zu signifikantem Leistungsabfall, was die Wirksamkeit des Task-Encoders und des Aufgabentrennung-Mechanismus validiert

Verwandte Arbeiten

Klasseninkrementielles Lernen

CIL-Methoden lassen sich in drei Kategorien einteilen:

  1. Replay-Methoden: Wie iCaRL, GEM, die Beispielpuffer verwalten
  2. Regularisierungsmethoden: Beschränken Parameteraktualisierungen durch Wissensdestillation
  3. Prompt-Methoden: Wie L2P, DualPrompt, die Kontextvektorpools lernen

Föderiertes Lernen

Hauptaggregatiosstrategien umfassen FedAvg und FedProx, die statistische Heterogenität durch gewichtete Mittelwertbildung bzw. Regularisierung behandeln.

Föderiertes klasseninkrementielles Lernen

Bestehende FCIL-Methoden lassen sich unterteilen in:

  1. Replay-Methoden: Verwenden lokale Beispielpuffer oder generiertes Replay
  2. Regularisierungs- und Destillationsmethoden: Übertragen Wissen durch Wissensdestillation
  3. Prompt-Methoden: Speichern Prompt-Pools auf Clients zur Kodierung von Aufgabenkontexten

Schlussfolgerung und Diskussion

Hauptschlussfolgerungen

FedGTEA erreicht effektive Modellierung von Aufgabenwissen auf Aufgabenebene in FCIL durch Einführung eines kardinalitätsunabhängigen Task-Encoders und Wasserstein-Distanz-Regularisierung und übertrifft bestehende Methoden sowohl bei Genauigkeit als auch bei Vergessenleistung.

Einschränkungen

  1. Rechenkomplexität: Die O(n³)-Komplexität der 2-Wasserstein-Distanzberechnung kann bei hochdimensionalen Einbettungen zum Engpass werden
  2. Hyperparameter-Empfindlichkeit: Die Gewichte der drei Verlustkomponenten erfordern sorgfältige Abstimmung
  3. Bewertungsumfang: Nur auf Bildklassifizierungsaufgaben evaluiert, Anwendbarkeit auf andere Bereiche unbekannt

Zukünftige Richtungen

  1. Erforschung effizienterer Methoden zur Wasserstein-Distanzberechnung
  2. Untersuchung adaptiver Hyperparameter-Anpassungsstrategien
  3. Erweiterung auf andere Modalitäten und Aufgabentypen

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erste systematische Modellierung von Aufgabenwissen auf Aufgabenebene in FCIL, Vorschlag eines kardinalitätsunabhängigen Task-Encoder-Designs
  2. Solide theoretische Grundlagen: Nutzt mathematische Eigenschaften der 2-Wasserstein-Distanz für strenge theoretische Unterstützung der Aufgabentrennung
  3. Umfassende Experimente: Vollständige Evaluierung über mehrere Datensätze und Einstellungen, Ablationsstudien validieren die Wirksamkeit jeder Komponente
  4. Datenschutz: Schützt Aufgabenebenen-Privatsphäre durch Vermeidung direkter Einbettungsübertragung

Mängel

  1. Rechenlast: Wasserstein-Distanzberechnung und Matrixoperationen können zusätzliche Rechenkosten verursachen
  2. Parameterabstimmung: Ausgleich mehrerer Hyperparameter erfordert erhebliche Abstimmungsarbeit
  3. Unzureichende Verallgemeinerungsprüfung: Nur auf CIFAR-Datensätzen validiert, mangelnde Experimente mit größeren und vielfältigeren Datensätzen

Auswirkungen

Diese Arbeit führt neue Perspektiven auf Task-Level-Modellierung in das FCIL-Feld ein und könnte mehr Forschung inspirieren, die sich auf Aufgabenkontexte konzentriert. Das kardinalitätsunabhängige Design und die Datenschutzfunktionen bieten gutes Potenzial für praktische Anwendungen.

Anwendungsszenarien

  • Föderierte Systeme, die langfristig neue Klassen lernen müssen
  • Verteilte Lernszenarien mit hohen Datenschutzanforderungen
  • Umgebungen mit großen Unterschieden in der Client-Datenverteilung

Literaturverzeichnis

Das Papier zitiert wichtige Arbeiten aus den Bereichen FCIL, CIL und FL, einschließlich klassischer Methoden wie FedAvg, iCaRL, AC-GAN sowie neuester FCIL-Forschung wie FedCIL, GLFC usw., was eine solide theoretische Grundlage für diese Forschung bietet.