2025-11-23T22:52:17.543262

FedGTEA: Federated Class-Incremental Learning with Gaussian Task Embedding and Alignment

Li, Bidkhori
We introduce a novel framework for Federated Class Incremental Learning, called Federated Gaussian Task Embedding and Alignment (FedGTEA). FedGTEA is designed to capture task-specific knowledge and model uncertainty in a scalable and communication-efficient manner. At the client side, the Cardinality-Agnostic Task Encoder (CATE) produces Gaussian-distributed task embeddings that encode task knowledge, address statistical heterogeneity, and quantify data uncertainty. Importantly, CATE maintains a fixed parameter size regardless of the number of tasks, which ensures scalability across long task sequences. On the server side, FedGTEA utilizes the 2-Wasserstein distance to measure inter-task gaps between Gaussian embeddings. We formulate the Wasserstein loss to enforce inter-task separation. This probabilistic formulation not only enhances representation learning but also preserves task-level privacy by avoiding the direct transmission of latent embeddings, aligning with the privacy constraints in federated learning. Extensive empirical evaluations on popular datasets demonstrate that FedGTEA achieves superior classification performance and significantly mitigates forgetting, consistently outperforming strong existing baselines.
academic

FedGTEA: गॉसियन टास्क एम्बेडिंग और संरेखण के साथ संघीय वर्ग-वर्धमान शिक्षा

बुनियादी जानकारी

  • पेपर ID: 2510.12927
  • शीर्षक: FedGTEA: गॉसियन टास्क एम्बेडिंग और संरेखण के साथ संघीय वर्ग-वर्धमान शिक्षा
  • लेखक: हाओलिन ली, होडा बिदखोरी (जॉर्ज मेसन विश्वविद्यालय)
  • वर्गीकरण: cs.LG stat.ML
  • प्रकाशन सम्मेलन: AISTATS 2026, तांजियर, मोरक्को
  • पेपर लिंक: https://arxiv.org/abs/2510.12927

सारांश

यह पेपर एक नई संघीय वर्ग-वर्धमान शिक्षा ढांचा FedGTEA (संघीय गॉसियन टास्क एम्बेडिंग और संरेखण) प्रस्तावित करता है। यह ढांचा स्केलेबल और संचार-कुशल तरीके से कार्य-विशिष्ट ज्ञान और मॉडल अनिश्चितता को कैप्चर करता है। क्लाइंट पक्ष पर, कार्डिनैलिटी-अज्ञेय कार्य एनकोडर (CATE) गॉसियन वितरित कार्य एम्बेडिंग उत्पन्न करता है, जो कार्य ज्ञान को एनकोड करता है, सांख्यिकीय विषमता को हल करता है और डेटा अनिश्चितता को मापता है। CATE की मुख्य विशेषता यह है कि कार्यों की संख्या की परवाह किए बिना यह निश्चित पैरामीटर आकार बनाए रखता है, जो लंबे कार्य अनुक्रमों की स्केलेबिलिटी सुनिश्चित करता है। सर्वर पक्ष पर, FedGTEA गॉसियन एम्बेडिंग के बीच कार्य अंतराल को मापने के लिए 2-Wasserstein दूरी का उपयोग करता है, Wasserstein हानि के माध्यम से कार्य-अंतर पृथक्करण को लागू करता है। यह संभाव्य सूत्रीकरण न केवल प्रतिनिधित्व शिक्षा को बढ़ाता है, बल्कि सीधे अव्यक्त एम्बेडिंग के संचरण से बचकर कार्य-स्तरीय गोपनीयता की भी रक्षा करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

संघीय वर्ग-वर्धमान शिक्षा (FCIL) संघीय शिक्षा (FL) और वर्ग-वर्धमान शिक्षा (CIL) का एक संकर है, जिसे तीन मुख्य चुनौतियों को एक साथ संबोधित करने की आवश्यकता है:

  1. विनाशकारी विस्मृति: क्लाइंट स्थानीय और वैश्विक एकत्रीकरण प्रक्रिया दोनों में होती है
  2. सांख्यिकीय विषमता: क्लाइंट के बीच डेटा वितरण आमतौर पर स्वतंत्र और समान रूप से वितरित नहीं होता है
  3. कार्य संदर्भ अस्पष्टता: परीक्षण समय पर कार्य पहचान की कमी से शब्दार्थ बहाव और प्रदर्शन में गिरावट होती है

अनुसंधान प्रेरणा

मौजूदा FCIL विधियां मुख्य रूप से डेटा-स्तरीय विशेषताओं के उपयोग पर ध्यान केंद्रित करती हैं, जबकि कार्य-स्तरीय संदर्भ के महत्व को नजरअंदाज करती हैं। जैसा कि चित्र 1 में दिखाया गया है, एक ही इनपुट विभिन्न कार्यों के तहत विरोधाभासी उत्तर दे सकता है (उदाहरण के लिए "यह कौन सी वस्तु है?" बनाम "पृष्ठभूमि का रंग क्या है?"), जिसके लिए विभिन्न कार्य-स्तरीय संदर्भ जानकारी की आवश्यकता है। इसलिए, FCIL में कार्य संदर्भ को प्रभावी ढंग से कैसे उपयोग किया जाए, यह अभी भी एक अपेक्षाकृत अविकसित अनुसंधान क्षेत्र है।

मौजूदा विधियों की सीमाएं

  • अधिकांश विधियां स्मृति-आधारित डेटा-स्तरीय विशेषता उपयोग पर ध्यान केंद्रित करती हैं
  • प्रॉम्प्ट लर्निंग विधियां हालांकि कार्य ज्ञान को शामिल करती हैं, लेकिन स्मृति उपयोग और कम्प्यूटेशनल ओवरहेड में वृद्धि की समस्या है
  • पैरामीटर-कुशल कार्य एनकोडर डिजाइन की कमी है

मुख्य योगदान

  1. FedGTEA एल्गोरिदम प्रस्तावित करना: FCIL में स्केलेबल और मजबूत तरीके से कार्य-स्तरीय ज्ञान को प्रभावी ढंग से कैप्चर करना, क्लाइंट पक्ष पर कार्डिनैलिटी-अज्ञेय कार्य एनकोडर (CATE) का परिचय देना जो कार्य एम्बेडिंग उत्पन्न करता है, इसे गॉसियन यादृच्छिक चर के रूप में मॉडल करना, और सर्वर पक्ष पर 2-Wasserstein दूरी का उपयोग करके कार्य-अंतर पृथक्करण को बढ़ावा देना।
  2. CATE मॉड्यूल डिजाइन करना: किसी भी आकार के डेटा बैच से कार्य एम्बेडिंग का अनुमान लगाने में सक्षम, कार्डिनैलिटी-अज्ञेय विशेषता के साथ। एम्बेडिंग को गॉसियन यादृच्छिक चर के रूप में मॉडल करके, सर्वर को 2-Wasserstein मीट्रिक का उपयोग करके कार्य-अंतर दूरी को मापने में सक्षम बनाता है।
  3. सर्वर-पक्ष अनुकूलन ढांचा: पहले FedAvg सिद्धांत का उपयोग करके प्रारंभिक मॉडल एकत्रीकरण, फिर तीन हानि घटकों वाली अनुकूलन समस्या तैयार करना: ज्ञान आसवन हानि, Wasserstein हानि और एंकर हानि।
  4. प्रायोगिक सत्यापन: कई बेंचमार्क डेटासेट पर मजबूत बेसलाइन (AC-GAN + FedAvg/FedProx, GLFC, FedCIL, FLwF-2T) की तुलना में बेहतर सटीकता और विस्मृति प्रदर्शन प्राप्त करना।

विधि विवरण

कार्य परिभाषा

FCIL प्रणाली में N क्लाइंट और एक केंद्रीय सर्वर होता है, जो वैश्विक कार्य अनुक्रम T = {T¹, T², ..., Tᵀ} को संभालता है। प्रत्येक क्लाइंट Cₖ कार्य Tᵗ पर स्थानीय डेटासेट Dᵗₖ ⊂ Tᵗ एकत्र करता है। लक्ष्य वैश्विक पैरामीटर θᵗₘ खोजना है, जो सभी देखे गए कार्यों और सभी क्लाइंट पर हानि को कम करता है।

मॉडल आर्किटेक्चर

क्लाइंट मॉडल

क्लाइंट मॉडल में दो मुख्य घटक होते हैं:

1. कार्डिनैलिटी-अज्ञेय कार्य एनकोडर (CATE)

  • पूरी तरह से जुड़े तंत्रिका नेटवर्क के रूप में डिज़ाइन किया गया है, किसी भी आकार के बैच B = (x₁, x₂, ..., xᵦ) को देखते हुए, d-आयामी कार्य एम्बेडिंग आउटपुट करता है:
    Eᵦ = (1/b)∑ᵢ₌₁ᵇ CATE(xᵢ) ∈ ℝᵈ
    
  • पैरामीटर संख्या कार्यों की संख्या के साथ नहीं बढ़ती है, लंबे कार्य अनुक्रमों की स्केलेबिलिटी सुनिश्चित करती है

2. AC-GAN मॉड्यूल

  • विभेदक में Real/Fake हेड और वर्गीकरण हेड होते हैं
  • वर्गीकरण हेड डेटा विशेषताओं F और कार्य एम्बेडिंग E को भविष्यवाणी के लिए फ्यूज करता है
  • जनरेटर G पुनरावृत्ति के लिए छवियां संश्लेषित करता है

गॉसियन कार्य एम्बेडिंग

कार्य एम्बेडिंग को गॉसियन यादृच्छिक चर के रूप में मॉडल करना:

  • वैश्विक: Eᵗ ~ N(μᵗ, Σᵗ)
  • क्लाइंट-विशिष्ट: Eᵗₖ ~ N(μᵗₖ, Σᵗₖ)

सर्वर-पक्ष एकत्रीकरण और नियमितकरण

प्रारंभिक मॉडल एकत्रीकरण

FedAvg सिद्धांत का पालन करता है:

θ̂ᵗₘ = ∑ₖ₌₁ᴺ wₖθᵗₖ

जहां वजन wₖ स्थानीय डेटा बिंदुओं की संख्या |Dᵗₖ| के समानुपाती है।

मॉडल नियमितकरण और एकीकरण

सर्वर हानि में तीन घटक होते हैं:

Lserver = αLKD + βLWasserstein + γLanchor

1. ज्ञान आसवन हानि:

LKD = ∑(x,y)∈Aᵀ KL(θᵀ⁻¹ₘ(x)∥θ(x))

2. Wasserstein हानि: कार्य-अंतर दूरी को मापने के लिए 2-Wasserstein दूरी का उपयोग, दो गॉसियन वितरणों के लिए:

W²₂(m₁,m₂) = ∥μ₁ - μ₂∥²₂ + tr(Σ₁ + Σ₂ - 2(Σ₁^(1/2)Σ₂Σ₁^(1/2))^(1/2))

Wasserstein हानि:

LWasserstein = [∑₁≤ᵢ<ⱼ≤ᵀ W²₂(Nᵢ,Nⱼ)]⁻¹

3. एंकर हानि:

Lanchor = ∥θ - θ̂ᵗₘ∥₂

तकनीकी नवाचार बिंदु

  1. कार्डिनैलिटी-अज्ञेय डिजाइन: CATE किसी भी आकार के इनपुट बैच को संभाल सकता है, बेहतर मजबूती और अनुकूलनशीलता प्रदान करता है
  2. गॉसियन मॉडलिंग: कार्य एम्बेडिंग को गॉसियन यादृच्छिक चर के रूप में मॉडल करना, Wasserstein दूरी का उपयोग करके कार्य-अंतर दूरी को मापने की सुविधा देता है
  3. गोपनीयता संरक्षण: सीधे अव्यक्त एम्बेडिंग के संचरण से बचकर कार्य-स्तरीय गोपनीयता की रक्षा करता है
  4. बहु-स्तरीय नियमितकरण: ज्ञान आसवन, कार्य पृथक्करण और मॉडल स्थिरता को जोड़ने वाली व्यापक हानि फ़ंक्शन

प्रायोगिक सेटअप

डेटासेट

तीन मानक FCIL डेटासेट का उपयोग:

  • CIFAR-10: 10 वर्ग, 60,000 उदाहरण
  • CIFAR-100 iCaRL विभाजन: iCaRL सिद्धांत के अनुसार यादृच्छिक विभाजन
  • CIFAR-100 सुपरक्लास विभाजन: 20 शब्दार्थ संबंधित सुपरक्लास, प्रत्येक में 5 वर्ग

कार्य अनुक्रम कॉन्फ़िगरेशन

  • अनुक्रम 1 (CIFAR-10): 5 क्लाइंट, 5 कार्य, प्रत्येक कार्य में 2 वर्ग
  • अनुक्रम 2 (CIFAR-100): 10 क्लाइंट, 10 कार्य, प्रत्येक कार्य में 10 वर्ग
  • अनुक्रम 3 (CIFAR-100 सुपरक्लास): 10 क्लाइंट, 20 कार्य, प्रत्येक कार्य में 5 शब्दार्थ संबंधित वर्ग

मूल्यांकन मेट्रिक्स

  • औसत सटीकता: सभी देखे गए कार्यों की अंतिम परीक्षण सटीकता
  • औसत विस्मृति: प्रत्येक कार्य की शिखर सटीकता और अंतिम सटीकता के बीच का अंतर

तुलनात्मक विधियां

  • FL बेसलाइन: FedAvg, FedProx
  • CIL विधियां: iCaRL, DER
  • FCIL विधियां: FLwF-2T, FedCIL, GLFC
  • संवर्धित बेसलाइन: AC-GAN + FedAvg/FedProx

कार्यान्वयन विवरण

  • अनुकूलक: Adam
  • बैच आकार: 64
  • CIFAR-10: सीखने की दर 1×10⁻⁴, 60 वैश्विक संचार राउंड, प्रति राउंड 100 स्थानीय पुनरावृत्तियां
  • CIFAR-100: सीखने की दर 1×10⁻³, 40 वैश्विक संचार राउंड, प्रति राउंड 400 स्थानीय पुनरावृत्तियां
  • हाइपरपैरामीटर: α=0.3, β=0.3, γ=0.4

प्रायोगिक परिणाम

मुख्य परिणाम

मॉडलअनुक्रम 1: CIFAR-10अनुक्रम 2: CIFAR-100अनुक्रम 3: CIFAR-100 सुपरक्लास
सटीकता↑ विस्मृति↓सटीकता↑ विस्मृति↓सटीकता↑ विस्मृति↓
FedAvg26.2±2.6 8.5±1.723.4±2.9 9.2±1.923.7±2.5 13.2±1.6
FedProx26.1±1.8 8.6±1.324.1±1.9 8.4±2.023.1±1.9 14.5±2.3
GLFC35.7±1.1 6.3±0.933.1±0.6 10.7±1.833.6±1.7 11.2±2.2
FedCIL32.4±1.9 6.9±1.931.5±0.4 7.4±1.231.2±1.6 10.8±2.0
FedGTEA37.1±0.7 4.5±0.535.9±0.6 6.6±1.735.1±1.2 8.6±1.4

मुख्य निष्कर्ष

  1. अनुक्रम 1: FedGTEA सर्वोच्च सटीकता (37.1±0.7) और एकमात्र 5% से कम विस्मृति दर (4.5±0.5) प्राप्त करता है
  2. अनुक्रम 2: FedGTEA सर्वश्रेष्ठ सटीकता (35.9±0.6) प्राप्त करता है, साथ ही एकल-अंकीय विस्मृति दर (6.6±1.7) बनाए रखता है
  3. अनुक्रम 3: FedGTEA सटीकता (35.1±1.2) और विस्मृति दर (8.6±1.4) दोनों में सर्वश्रेष्ठ प्रदर्शन करता है

विलोपन प्रयोग

मॉडल वेरिएंटअनुक्रम 1: CIFAR-10अनुक्रम 2: CIFAR-100अनुक्रम 3: CIFAR-100 सुपरक्लास
CATE और Wasserstein के बिना32.6±0.5 7.1±0.732.2±0.5 8.1±1.131.7±0.7 10.5±0.9
Wasserstein के बिना34.1±0.7 5.8±0.433.3±0.4 8.8±0.732.2±0.3 10.3±0.3
एंकर के बिना30.2±1.3 6.9±1.432.5±0.4 8.1±0.331.0±0.4 10.8±0.2
आसवन के बिना32.3±1.5 8.7±1.131.9±0.6 10.9±1.631.4±1.1 12.2±2.4
पूर्ण FedGTEA37.1±0.7 4.5±0.535.9±0.6 6.6±1.735.1±1.2 8.6±1.4

विलोपन प्रयोग विश्लेषण

  • आसवन हानि: हटाने के बाद विस्मृति दर में उल्लेखनीय वृद्धि (CIFAR-100 सुपरक्लास पर 8.6 से 12.2 तक), पूर्व ज्ञान को बनाए रखने के लिए इसके महत्व को साबित करता है
  • एंकर हानि: हटाने के बाद सटीकता में भारी गिरावट (CIFAR-10 पर लगभग 7% की गिरावट), विभेदक विशेषता प्रतिनिधित्व को स्थिर करने के लिए इसकी आवश्यकता को दर्शाता है
  • CATE और Wasserstein हानि: हटाने के बाद प्रदर्शन में उल्लेखनीय गिरावट, कार्य एनकोडर और कार्य पृथक्करण तंत्र की प्रभावशीलता को सत्यापित करता है

संबंधित कार्य

वर्ग-वर्धमान शिक्षा

CIL विधियां मुख्य रूप से तीन श्रेणियों में विभाजित हैं:

  1. पुनरावृत्ति विधियां: जैसे iCaRL, GEM, नमूना बफर बनाए रखते हैं
  2. नियमितकरण विधियां: ज्ञान आसवन के माध्यम से पैरामीटर अपडेट को बाधित करते हैं
  3. प्रॉम्प्ट विधियां: जैसे L2P, DualPrompt, संदर्भ वेक्टर पूल सीखते हैं

संघीय शिक्षा

मुख्य एकत्रीकरण रणनीतियों में FedAvg और FedProx शामिल हैं, जो क्रमशः भारित औसत और नियमितकरण के माध्यम से सांख्यिकीय विषमता को संभालते हैं।

संघीय वर्ग-वर्धमान शिक्षा

मौजूदा FCIL विधियां इस प्रकार विभाजित हैं:

  1. पुनरावृत्ति विधियां: स्थानीय नमूना बफर या उत्पन्न पुनरावृत्ति का उपयोग करते हैं
  2. नियमितकरण और आसवन विधियां: ज्ञान आसवन के माध्यम से ज्ञान स्थानांतरित करते हैं
  3. प्रॉम्प्ट विधियां: कार्य संदर्भ को एनकोड करने के लिए क्लाइंट पर प्रॉम्प्ट पूल संग्रहीत करते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

FedGTEA कार्डिनैलिटी-अज्ञेय कार्य एनकोडर और Wasserstein दूरी नियमितकरण का परिचय देकर, FCIL में कार्य-स्तरीय ज्ञान के प्रभावी मॉडलिंग को प्राप्त करता है, सटीकता और विस्मृति प्रदर्शन दोनों में मौजूदा विधियों से बेहतर है।

सीमाएं

  1. कम्प्यूटेशनल जटिलता: 2-Wasserstein दूरी गणना की O(n³) जटिलता उच्च-आयामी एम्बेडिंग में बाधा बन सकती है
  2. हाइपरपैरामीटर संवेदनशीलता: तीन हानि घटकों के वजन को सावधानीपूर्वक ट्यून करने की आवश्यकता है
  3. मूल्यांकन सीमा: केवल छवि वर्गीकरण कार्यों पर मूल्यांकन, अन्य डोमेन में प्रयोज्यता अज्ञात है

भविष्य की दिशाएं

  1. Wasserstein दूरी गणना के अधिक कुशल तरीकों की खोज करना
  2. स्व-अनुकूली हाइपरपैरामीटर समायोजन रणनीतियों का अनुसंधान करना
  3. अन्य मोडेलिटी और कार्य प्रकारों तक विस्तार करना

गहन मूल्यांकन

लाभ

  1. मजबूत नवाचार: FCIL में पहली बार कार्य-स्तरीय ज्ञान को व्यवस्थित रूप से मॉडल करना, कार्डिनैलिटी-अज्ञेय कार्य एनकोडर डिजाइन प्रस्तावित करना
  2. ठोस सैद्धांतिक आधार: 2-Wasserstein दूरी के गणितीय गुणों का उपयोग करके कार्य पृथक्करण के लिए कठोर सैद्धांतिक समर्थन प्रदान करता है
  3. व्यापक प्रयोग: कई डेटासेट और सेटिंग्स पर व्यापक मूल्यांकन, विलोपन प्रयोग प्रत्येक घटक की प्रभावशीलता को साबित करते हैं
  4. गोपनीयता संरक्षण: एम्बेडिंग के सीधे संचरण से बचकर कार्य-स्तरीय गोपनीयता की रक्षा करता है

कमियां

  1. कम्प्यूटेशनल ओवरहेड: Wasserstein दूरी गणना और मैट्रिक्स संचालन अतिरिक्त कम्प्यूटेशनल लागत ला सकते हैं
  2. पैरामीटर ट्यूनिंग: कई हाइपरपैरामीटर के संतुलन के लिए बड़ी मात्रा में ट्यूनिंग कार्य की आवश्यकता है
  3. सामान्यीकरण सत्यापन अपर्याप्त: केवल CIFAR डेटासेट पर सत्यापन, बड़े पैमाने और विविध प्रयोगों की कमी है

प्रभाव

यह कार्य FCIL क्षेत्र में कार्य-स्तरीय मॉडलिंग के नए विचार का परिचय देता है, जो अधिक कार्य संदर्भ पर ध्यान केंद्रित करने वाले अनुसंधान को प्रेरित कर सकता है। कार्डिनैलिटी-अज्ञेय डिजाइन और गोपनीयता संरक्षण विशेषताएं इसे व्यावहारिक अनुप्रयोगों में अच्छी संभावनाएं प्रदान करती हैं।

प्रयोज्य परिदृश्य

  • नई श्रेणियां सीखने के लिए दीर्घकालिक संघीय प्रणालियां
  • गोपनीयता आवश्यकताओं वाले वितरित शिक्षा परिदृश्य
  • जहां क्लाइंट डेटा वितरण में बड़ा अंतर है

संदर्भ

पेपर FCIL, CIL और FL क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें FedAvg, iCaRL, AC-GAN जैसी शास्त्रीय विधियां, साथ ही FedCIL, GLFC जैसे नवीनतम FCIL अनुसंधान शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार प्रदान करते हैं।