2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.

Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.

academic

विशेषता आसवन मॉडल-विषमांगी संघीय शिक्षा के लिए बेहतर विकल्प है

मूल जानकारी

पेपर ID: 2507.10348
शीर्षक: विशेषता आसवन मॉडल-विषमांगी संघीय शिक्षा के लिए बेहतर विकल्प है
लेखक: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
वर्गीकरण: cs.LG cs.AI
प्रकाशन समय/सम्मेलन: तंत्रिका सूचना प्रसंस्करण प्रणाली पर 39वां सम्मेलन (NeurIPS 2025)
पेपर लिंक: https://arxiv.org/abs/2507.10348

सारांश

मॉडल विषमांगी संघीय शिक्षा (Hetero-FL) डेटा स्थानीय गोपनीयता को बनाए रखते हुए विषमांगी मॉडल ज्ञान को एकत्रित करने की क्षमता के कारण व्यापक ध्यान आकर्षित कर रहा है। ग्राहक ज्ञान को बेहतर तरीके से एकत्रित करने के लिए, समेकित आसवन एक व्यापक रूप से उपयोग की जाने वाली और प्रभावी तकनीक है, जिसका उपयोग आमतौर पर वैश्विक समेकन के बाद वैश्विक मॉडल प्रदर्शन को बढ़ाने के लिए किया जाता है। हालांकि, Hetero-FL और समेकित आसवन को सरलता से जोड़ना हमेशा अच्छे परिणाम नहीं देता है और प्रशिक्षण प्रक्रिया में अस्थिरता भी हो सकती है। कारण यह है कि मौजूदा विधियां मुख्य रूप से लॉजिट आसवन पर निर्भर करती हैं, जो softmax भविष्यवाणी के माध्यम से मॉडल-अज्ञेयवादी होने के बावजूद, विषमांगी मॉडल द्वारा उत्पन्न ज्ञान पूर्वाग्रह की भरपाई नहीं कर सकते। इस चुनौती को हल करने के लिए, यह पेपर एक स्थिर और कुशल विशेषता आसवन विधि FedFD प्रस्तावित करता है, जो संरेखित विशेषता जानकारी को एकीकृत करने के लिए ऑर्थोगोनल प्रक्षेपण का उपयोग करके विषमांगी मॉडल ज्ञान को बेहतर तरीके से एकीकृत करता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान मॉडल विषमांगी संघीय शिक्षा में विभिन्न आर्किटेक्चर ग्राहक मॉडल से ज्ञान को प्रभावी ढंग से एकत्रित करने की समस्या को हल करता है। पारंपरिक संघीय शिक्षा मानती है कि सभी ग्राहक समान मॉडल आर्किटेक्चर का उपयोग करते हैं, लेकिन वास्तविक IoT वातावरण में, विभिन्न उपकरणों के पास विभिन्न कम्प्यूटेशनल संसाधन और मॉडल प्रशिक्षण क्षमताएं होती हैं।

समस्या की महत्ता

वास्तविक आवश्यकता: IoT उपकरणों की विषमांगीता एकीकृत मॉडल आर्किटेक्चर को अव्यावहारिक बनाती है
संसाधन अनुकूलन: वितरित कम्प्यूटेशनल संसाधनों का पूर्ण उपयोग करने की आवश्यकता है
गोपनीयता सुरक्षा: डेटा गोपनीयता की रक्षा करते हुए ज्ञान साझाकरण प्राप्त करना

मौजूदा विधियों की सीमाएं

t-SNE दृश्य विश्लेषण और अनुभवजन्य प्रयोगों के माध्यम से, लेखकों ने पाया कि मौजूदा लॉजिट आसवन-आधारित विधियों में निम्नलिखित समस्याएं हैं:

अस्पष्ट प्रतिनिधित्व: एकत्रित लॉजिट प्रतिनिधित्व में अस्पष्ट वर्गीकरण सीमाएं हैं
प्रशिक्षण अस्थिरता: विषमांगी मॉडल सेटिंग में प्रशिक्षण दोलन होता है
ज्ञान पूर्वाग्रह: विभिन्न मॉडल आर्किटेक्चर द्वारा लाए गए विशेषता स्पेस अंतर को संभालने में असमर्थ

अनुसंधान प्रेरणा

मौजूदा विधियों की सीमाओं के गहन विश्लेषण के आधार पर, लेखकों ने लॉजिट आसवन के स्थान पर विशेषता आसवन का उपयोग करने का प्रस्ताव दिया है, ऑर्थोगोनल प्रक्षेपण तकनीक के माध्यम से विषमांगी मॉडल ज्ञान एकत्रीकरण में पूर्वाग्रह समस्या को हल करने के लिए।

मुख्य योगदान

गहन विश्लेषण: मॉडल-अज्ञेयवादी संघीय ज्ञान आसवन का गहन विश्लेषण प्रदान करता है, विषमांगी मॉडल के तहत मौजूदा विधियों की मुख्य सीमाओं की पहचान करता है
नई रूपरेखा प्रस्ताव: FedFD रूपरेखा प्रस्तावित करता है, जो एक प्लग-एंड-प्ले व्यक्तिगतकृत वृद्धि मॉड्यूल है, जो पारंपरिक आसवन विधियों की गोपनीयता सुरक्षा और दक्षता विशेषताओं को विरासत में लेता है
प्रदर्शन सुधार: कई डेटासेट और सेटिंग्स पर व्यापक प्रयोग किए गए हैं, सबसे उन्नत विधियों की तुलना में परीक्षण सटीकता में 16.09% तक सुधार

विधि विवरण

कार्य परिभाषा

K ग्राहकों की संघीय शिक्षा समस्या पर विचार करें, जहां प्रत्येक ग्राहक k केवल अपने स्थानीय निजी डेटासेट $D_k = \{x_k^{(i)}, y_k^{(i)}\}$ तक पहुंच सकता है। लक्ष्य एक वैश्विक मॉडल w सीखना है जो कुल अनुभवजन्य हानि को कम करता है:

$\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)$

जहां $L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)$

मॉडल आर्किटेक्चर

1. स्तरीय विशेषता संरेखण

FedFD पहले ग्राहक मॉडल को आर्किटेक्चर द्वारा समूहीकृत करता है, प्रत्येक आसवन नमूने x के लिए, निष्कर्षकर्ता $w_k^d$ पर इसका विशेषता प्रतिनिधित्व है: $e_k^d = f(w_k^d; x), \forall k \in [1,K]$

फिर विशेषताओं को m समूहों में विभाजित करें $\{S_1^d, ..., S_m^d\}$ , प्रत्येक समूह में समान संरचना के निष्कर्षकर्ता होते हैं। समान समूह के भीतर विशेषता प्रतिनिधित्व को एकत्रित करें: $e^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d$

2. ऑर्थोगोनल प्रक्षेपण तकनीक

ज्ञान संघर्ष समस्या को हल करने के लिए, ऑर्थोगोनल प्रक्षेपण परिवर्तन का उपयोग करें। विषम मैट्रिक्स $W_d$ के माध्यम से प्रक्षेपण परत $M_d$ उत्पन्न करें: $\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I$

जहां: $\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}$

3. विशेषता आसवन हानि

विशेषता प्रतिनिधित्व को संरेखित करने के लिए KL विचलन का उपयोग करें: $\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)$

तकनीकी नवाचार बिंदु

लॉजिट से विशेषता तक: पहली बार विषमांगी मॉडल के तहत लॉजिट आसवन की समस्याओं का व्यवस्थित विश्लेषण किया, विशेषता आसवन को विकल्प के रूप में प्रस्तावित किया
स्तरीय संरेखण रणनीति: आर्किटेक्चर समूहीकरण के माध्यम से प्रक्षेपण परतों की संख्या को कम करें, प्रशिक्षण दक्षता में सुधार करें
ऑर्थोगोनल प्रक्षेपण तकनीक: विषम मैट्रिक्स का उपयोग करके ऑर्थोगोनल प्रक्षेपण उत्पन्न करें, ज्ञान संघर्ष को हल करते हुए कम्प्यूटेशनल दक्षता बनाए रखें
मॉड्यूलर डिजाइन: मौजूदा FL तकनीकों के साथ निर्बाध एकीकरण

प्रयोगात्मक सेटअप

डेटासेट

CIFAR-10: 10 वर्ग छवि वर्गीकरण, 50,000 प्रशिक्षण नमूने, 10,000 परीक्षण नमूने
CIFAR-100: 100 वर्ग छवि वर्गीकरण, 50,000 प्रशिक्षण नमूने, 10,000 परीक्षण नमूने
Tiny-ImageNet: 200 वर्ग छवि वर्गीकरण, बड़े पैमाने पर डेटासेट

डेटा विषमांगीता का अनुकरण करने के लिए Dirichlet वितरण Dir(α) का उपयोग करें, α मान जितना छोटा होगा, डेटा वितरण उतना ही असमान होगा।

मूल्यांकन मेट्रिक्स

परीक्षण सटीकता: वैश्विक मॉडल और स्थानीय मॉडल की वर्गीकरण सटीकता
संचार दक्षता: लक्ष्य सटीकता प्राप्त करने के लिए आवश्यक संचार राउंड
अभिसरण स्थिरता: प्रशिक्षण प्रक्रिया का शिक्षण वक्र विश्लेषण

तुलना विधियां

शास्त्रीय FL विधियां: HeteroFL, MOON-hetero
समांगी FL विधियां: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
विषमांगी FL विधियां: FedMD, MSFKD, FedGD

कार्यान्वयन विवरण

स्थानीय प्रशिक्षण राउंड E=10, संचार राउंड T=200, ग्राहक संख्या K=20, भागीदारी दर r=0.4
बैच आकार 64, वजन क्षय 1e-4
आसवन शिक्षण दर 0.01, स्थानीय प्रशिक्षण शिक्षण दर 0.001
सर्वर मॉडल ResNet-18 का उपयोग करता है, ग्राहक मॉडल में 10 विभिन्न जटिलता स्तर हैं

प्रयोगात्मक परिणाम

मुख्य परिणाम

सभी डेटासेट और सेटिंग्स पर, FedFD सर्वोत्तम प्रदर्शन प्राप्त करता है:

डेटासेट	α मान	HeteroFL	FedGD	FedFD	सुधार
CIFAR-10	1.0	87.53±0.15	87.22±0.13	89.64±0.23	2.11%
CIFAR-10	0.1	78.02±0.65	79.31±0.75	82.74±0.58	3.43%
CIFAR-100	1.0	57.42±0.12	58.03±0.26	60.86±0.10	2.83%
Tiny-ImageNet	1.0	29.88±2.72	30.66±1.59	34.24±1.13	4.36%

संचार दक्षता

FedFD संचार दक्षता के मामले में भी उत्कृष्ट प्रदर्शन करता है:

CIFAR-10 80% सटीकता तक पहुंचना: FedFD को 20 राउंड की आवश्यकता है, HeteroFL को 25 राउंड की आवश्यकता है
CIFAR-100 60% सटीकता तक पहुंचना: FedFD को 60 राउंड की आवश्यकता है, अन्य विधियों को 171-200+ राउंड की आवश्यकता है

विलोपन प्रयोग

प्रत्येक घटक की महत्ता को सत्यापित करता है:

विशेषता संरेखण को हटाना: प्रदर्शन में 0.63-1.56% की गिरावट
ऑर्थोगोनल प्रक्षेपण को हटाना: प्रदर्शन में 1.68-2.43% की गिरावट
दोनों घटकों को हटाना: प्रदर्शन में महत्वपूर्ण गिरावट, FedFusion स्तर पर वापस आ जाता है

स्थिरता विश्लेषण

शिक्षण वक्र तुलना के माध्यम से पाया गया:

समांगी मॉडल के तहत: सभी लॉजिट आसवन विधियां तेजी से स्थिर अभिसरण कर सकती हैं
विषमांगी मॉडल के तहत: लॉजिट आसवन विधियां प्रशिक्षण दोलन दिखाती हैं, जबकि FedFD स्थिर अभिसरण बनाए रखता है

विस्तारशीलता प्रयोग

अधिक चरम डेटा विषमांगीता सेटिंग (α=0.01) और विभिन्न मॉडल आर्किटेक्चर संयोजनों के तहत, FedFD अभी भी सर्वोत्तम प्रदर्शन बनाए रखता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

समस्या पहचान: लॉजिट आसवन विषमांगी मॉडल के तहत ज्ञान पूर्वाग्रह और प्रशिक्षण अस्थिरता समस्याओं का सामना करता है
समाधान: विशेषता आसवन ऑर्थोगोनल प्रक्षेपण के साथ विषमांगी मॉडल ज्ञान एकत्रीकरण समस्या को प्रभावी ढंग से हल कर सकता है
प्रदर्शन सत्यापन: FedFD विभिन्न सेटिंग्स में उल्लेखनीय प्रदर्शन सुधार प्राप्त करता है

सीमाएं

कम्प्यूटेशनल ओवरहेड: विभिन्न आर्किटेक्चर के लिए प्रक्षेपण परतों को बनाए रखने की आवश्यकता है, सर्वर-पक्ष कम्प्यूटेशनल लागत में वृद्धि करता है
आर्किटेक्चर निर्भरता: विधि प्रभावशीलता ग्राहक मॉडल आर्किटेक्चर की विविधता की डिग्री पर निर्भर हो सकती है
आसवन डेटा: अभी भी आसवन के लिए सहायक डेटासेट की आवश्यकता है, हालांकि डेटा-मुक्त विधियों के साथ संयुक्त किया जा सकता है

भविष्य की दिशाएं

पूरी तरह से डेटा-मुक्त विशेषता आसवन विधियों की खोज करें
अधिक कुशल प्रक्षेपण परत डिजाइन का अध्ययन करें
अधिक मोडल और कार्य प्रकारों तक विस्तार करें

गहन मूल्यांकन

शक्तियां

समस्या अंतर्दृष्टि गहरी: दृश्य और अनुभवजन्य विश्लेषण के माध्यम से मौजूदा विधियों की मूल समस्याओं को स्पष्ट रूप से पहचानता है
विधि डिजाइन तर्कसंगत: ऑर्थोगोनल प्रक्षेपण तकनीक का उपयोग ज्ञान संघर्ष को हल करता है और कम्प्यूटेशनल दक्षता बनाए रखता है
प्रयोग व्यापक और पर्याप्त: कई डेटासेट, विभिन्न विषमांगीता स्तर, विलोपन प्रयोग आदि को कवर करता है
इंजीनियरिंग व्यावहारिकता मजबूत: मॉड्यूलर डिजाइन विधि को मौजूदा FL ढांचे में एकीकृत करना आसान बनाता है

कमियां

सैद्धांतिक विश्लेषण अपर्याप्त: विशेषता आसवन लॉजिट आसवन से बेहतर क्यों है इसके लिए सैद्धांतिक व्याख्या की कमी है
कम्प्यूटेशनल जटिलता विश्लेषण: ऑर्थोगोनल प्रक्षेपण की कम्प्यूटेशनल लागत का विस्तृत विश्लेषण नहीं किया गया है
बड़े पैमाने पर सत्यापन सीमित: प्रयोग मुख्य रूप से मध्यम पैमाने के डेटासेट पर किए गए हैं

प्रभाव

शैक्षणिक मूल्य: विषमांगी संघीय शिक्षा के लिए नई तकनीकी पथ प्रदान करता है
व्यावहारिक मूल्य: वास्तविक IoT परिदृश्यों में सीधे लागू किया जा सकता है
प्रेरणा महत्व: संघीय शिक्षा में ज्ञान आसवन अनुसंधान के लिए नई सोच प्रदान करता है

लागू परिदृश्य

IoT उपकरण संघीय शिक्षा: विभिन्न कम्प्यूटेशनल क्षमता वाले उपकरणों का सहयोगी प्रशिक्षण
अंतर-संस्था सहयोग: जब विभिन्न संगठन विभिन्न मॉडल आर्किटेक्चर का उपयोग करते हैं तो ज्ञान साझाकरण
एज कम्प्यूटिंग: संसाधन-सीमित वातावरण में वितरित शिक्षा

संदर्भ

यह पेपर संघीय शिक्षा, ज्ञान आसवन और संघीय आसवन क्षेत्र के महत्वपूर्ण कार्यों का हवाला देता है, जिसमें शामिल हैं:

FedAvg 34: संघीय शिक्षा का मौलिक कार्य
HeteroFL 6: विषमांगी संघीय शिक्षा का प्रतिनिधि विधि
ज्ञान आसवन संबंधित कार्य 14, 15, 44: इस पेपर के लिए सैद्धांतिक आधार प्रदान करता है
संघीय आसवन विधियां 33, 49, 58: इस पेपर के प्रत्यक्ष तुलना बेंचमार्क

यह पेपर विषमांगी संघीय शिक्षा क्षेत्र में महत्वपूर्ण नवाचार प्रस्तावित करता है, मौजूदा विधियों की सीमाओं का गहन विश्लेषण करके और प्रभावी समाधान प्रस्तावित करके, इस क्षेत्र के विकास में मूल्यवान योगदान देता है। विधि का मॉड्यूलर डिजाइन और उत्कृष्ट प्रयोगात्मक परिणाम इसे बहुत व्यावहारिक मूल्य प्रदान करते हैं।