FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment
Li, Bidkhori
We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.
academic
FedGTEA: Föderiertes klasseninkrementielles Lernen mit Gaußscher Task-Einbettung und Ausrichtung
Dieses Papier präsentiert ein neuartiges föderiertes klasseninkrementielles Lernframework FedGTEA (Federated Gaussian Task Embedding and Alignment). Das Framework erfasst aufgabenspezifisches Wissen und Modellunsicherheit auf skalierbare und kommunikationseffiziente Weise. Auf der Clientseite generiert der kardinalitätsunabhängige Task-Encoder (CATE) Gaußsche verteilte Task-Einbettungen, die Aufgabenwissen kodieren, statistische Heterogenität lösen und Datenunsicherheit quantifizieren. Eine Schlüsseleigenschaft von CATE ist die Aufrechterhaltung einer festen Parametergröße unabhängig von der Anzahl der Aufgaben, was Skalierbarkeit für lange Aufgabensequenzen gewährleistet. Auf der Serverseite nutzt FedGTEA die 2-Wasserstein-Distanz zur Messung von Aufgabenlücken zwischen Gaußschen Einbettungen und erzwingt Aufgabentrennung durch Wasserstein-Verlust. Diese probabilistische Formulierung verbessert nicht nur das Repräsentationslernens, sondern schützt auch die Aufgabenebenen-Privatsphäre durch Vermeidung direkter Übertragung latenter Einbettungen.
Föderiertes klasseninkrementielles Lernen (FCIL) ist eine Hybridform aus föderiertem Lernen (FL) und klasseninkrementiellen Lernen (CIL) und muss drei Kernherausforderungen gleichzeitig bewältigen:
Katastrophales Vergessen: Tritt sowohl bei lokalen Client-Prozessen als auch bei globaler Aggregation auf
Statistische Heterogenität: Datenvariationen zwischen Clients sind typischerweise nicht unabhängig und identisch verteilt
Aufgabenkontextambiguität: Fehlende Aufgabenidentität zur Testzeit führt zu semantischer Verschiebung und Leistungsabfall
Bestehende FCIL-Methoden konzentrieren sich hauptsächlich auf die Nutzung von Merkmalen auf Datenebene und übersehen die Bedeutung von Aufgabenkontexten. Wie in Abbildung 1 gezeigt, kann die gleiche Eingabe unter verschiedenen Aufgaben widersprüchliche Antworten erzeugen (z.B. "Was ist dieses Objekt?" vs. "Welche Farbe hat der Hintergrund?"), was unterschiedliche Aufgabenkontextinformationen erfordert. Daher bleibt die effektive Nutzung von Aufgabenkontexten in FCIL ein relativ unerforschtes Forschungsgebiet.
Vorschlag des FedGTEA-Algorithmus: Erfasst Aufgabenwissen auf skalierbare und robuste Weise in FCIL, führt einen kardinalitätsunabhängigen Task-Encoder (CATE) auf der Clientseite ein, der Task-Einbettungen generiert und diese als Gaußsche Zufallsvariablen modelliert, und nutzt die 2-Wasserstein-Distanz auf der Serverseite zur Förderung der Aufgabentrennung.
Design des CATE-Moduls: Kann Task-Einbettungen aus Datenbatches beliebiger Größe ableiten und besitzt kardinalitätsunabhängige Eigenschaften. Durch Modellierung der Einbettung als Gaußsche Zufallsvariable kann der Server die 2-Wasserstein-Metrik zur Quantifizierung von Aufgabendistanzen nutzen.
Serverseite-Optimierungsrahmen: Führt zunächst Modellinitialisierung mit FedAvg-Prinzipien durch, formuliert dann ein Optimierungsproblem mit drei Verlustkomponenten: Wissensdestillationsverlust, Wasserstein-Verlust und Ankerverlust.
Experimentelle Validierung: Erreicht bessere Genauigkeit und Vergessenleistung im Vergleich zu starken Baselines (AC-GAN + FedAvg/FedProx, GLFC, FedCIL, FLwF-2T) auf mehreren Benchmark-Datensätzen.
Das FCIL-System umfasst N Clients und einen zentralen Server und verarbeitet eine globale Aufgabensequenz T = {T¹, T², ..., Tᵀ}. Jeder Client Cₖ sammelt einen lokalen Datensatz Dᵗₖ ⊂ Tᵗ bei Aufgabe Tᵗ. Das Ziel ist es, globale Parameter θᵗₘ zu finden, die den Verlust über alle beobachteten Aufgaben und alle Clients minimieren.
Konzipiert als vollständig verbundenes neuronales Netzwerk, das bei gegebenem Batch B = (x₁, x₂, ..., xᵦ) beliebiger Größe eine d-dimensionale Task-Einbettung ausgibt:
Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
Die Parameteranzahl wächst nicht mit der Anzahl der Aufgaben, was Skalierbarkeit für lange Aufgabensequenzen gewährleistet
2. AC-GAN-Modul
Der Diskriminator enthält Real/Fake-Köpfe und Klassifizierungsköpfe
Der Klassifizierungskopf fusioniert Datenmerkmale F und Task-Einbettung E für Vorhersagen
Kardinalitätsunabhängiges Design: CATE kann Eingabebatches beliebiger Größe verarbeiten und bietet bessere Robustheit und Anpassungsfähigkeit
Gaußsche Modellierung: Modelliert Task-Einbettungen als Gaußsche Zufallsvariablen, was die Verwendung der Wasserstein-Distanz zur Messung von Aufgabendistanzen ermöglicht
Datenschutz: Schützt die Aufgabenebenen-Privatsphäre durch Vermeidung direkter Übertragung latenter Einbettungen
Mehrschichtige Regularisierung: Kombinierte Verlustfunktion, die Wissensdestillation, Aufgabentrennung und Modellstabilität integriert
Destillationsverlust: Das Entfernen führt zu signifikantem Anstieg der Vergessenrate (CIFAR-100 Superklassen von 8,6 auf 12,2), was seine Bedeutung für die Bewahrung früheren Wissens belegt
Ankerverlust: Das Entfernen führt zu drastischem Genauigkeitsabfall (CIFAR-10 um fast 7%), was seine Notwendigkeit für die Stabilisierung diskriminativer Merkmalsdarstellungen zeigt
CATE und Wasserstein-Verlust: Das Entfernen führt zu signifikantem Leistungsabfall, was die Wirksamkeit des Task-Encoders und des Aufgabentrennung-Mechanismus validiert
Hauptaggregatiosstrategien umfassen FedAvg und FedProx, die statistische Heterogenität durch gewichtete Mittelwertbildung bzw. Regularisierung behandeln.
FedGTEA erreicht effektive Modellierung von Aufgabenwissen auf Aufgabenebene in FCIL durch Einführung eines kardinalitätsunabhängigen Task-Encoders und Wasserstein-Distanz-Regularisierung und übertrifft bestehende Methoden sowohl bei Genauigkeit als auch bei Vergessenleistung.
Hohe Innovativität: Erste systematische Modellierung von Aufgabenwissen auf Aufgabenebene in FCIL, Vorschlag eines kardinalitätsunabhängigen Task-Encoder-Designs
Solide theoretische Grundlagen: Nutzt mathematische Eigenschaften der 2-Wasserstein-Distanz für strenge theoretische Unterstützung der Aufgabentrennung
Umfassende Experimente: Vollständige Evaluierung über mehrere Datensätze und Einstellungen, Ablationsstudien validieren die Wirksamkeit jeder Komponente
Datenschutz: Schützt Aufgabenebenen-Privatsphäre durch Vermeidung direkter Einbettungsübertragung
Diese Arbeit führt neue Perspektiven auf Task-Level-Modellierung in das FCIL-Feld ein und könnte mehr Forschung inspirieren, die sich auf Aufgabenkontexte konzentriert. Das kardinalitätsunabhängige Design und die Datenschutzfunktionen bieten gutes Potenzial für praktische Anwendungen.
Das Papier zitiert wichtige Arbeiten aus den Bereichen FCIL, CIL und FL, einschließlich klassischer Methoden wie FedAvg, iCaRL, AC-GAN sowie neuester FCIL-Forschung wie FedCIL, GLFC usw., was eine solide theoretische Grundlage für diese Forschung bietet.