2025-11-23T16:10:18.050621

Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning

Li, Wang, Xu et al.

Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.

academic

تقطير الميزات هو الخيار الأفضل للتعلم الفيدرالي غير المتجانس للنماذج

المعلومات الأساسية

معرّف الورقة: 2507.10348
العنوان: تقطير الميزات هو الخيار الأفضل للتعلم الفيدرالي غير المتجانس للنماذج
المؤلفون: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
التصنيف: cs.LG cs.AI
وقت النشر/المؤتمر: المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية (NeurIPS 2025)
رابط الورقة: https://arxiv.org/abs/2507.10348

الملخص

يحظى التعلم الفيدرالي غير المتجانس للنماذج (Hetero-FL) باهتمام كبير لقدرته على تجميع معرفة النماذج غير المتجانسة مع الحفاظ على خصوصية البيانات محليًا. لتحسين تجميع معرفة العملاء، يُستخدم تقطير المجموعات كتقنية فعّالة وموسعة الاستخدام عادة لتعزيز أداء النموذج العام بعد التجميع العام. ومع ذلك، فإن الجمع البسيط بين Hetero-FL وتقطير المجموعات لا ينتج دائمًا نتائج جيدة، بل قد يؤدي إلى عدم استقرار عملية التدريب. السبب يكمن في أن الطرق الموجودة تعتمد بشكل أساسي على تقطير اللوجيت، والذي على الرغم من امتلاكه خاصية عدم الاعتماد على النموذج من خلال التنبؤات الاحتمالية، إلا أنه لا يستطيع تعويض انحياز المعرفة الناتج عن النماذج غير المتجانسة. لمعالجة هذا التحدي، نقترح طريقة تقطير ميزات مستقرة وفعّالة تُسمى FedFD، والتي تدمج معلومات الميزات المحاذاة من خلال الإسقاط المتعامد لتجميع معرفة النماذج غير المتجانسة بشكل أفضل.

الخلفية البحثية والدافع

تعريف المشكلة

تتمحور المشكلة الأساسية التي يعالجها هذا البحث حول كيفية تجميع المعرفة من نماذج العملاء ذات الهندسات المختلفة بشكل فعّال في التعلم الفيدرالي غير المتجانس للنماذج. يفترض التعلم الفيدرالي التقليدي أن جميع العملاء يستخدمون نفس بنية النموذج، لكن في بيئات إنترنت الأشياء الفعلية، تمتلك الأجهزة المختلفة موارد حسابية وقدرات تدريب نماذج مختلفة.

أهمية المشكلة

الاحتياجات الواقعية: تجانس أجهزة إنترنت الأشياء يجعل بنية النموذج الموحدة غير عملية
تعظيم الموارد: الحاجة إلى الاستفادة الكاملة من موارد الحوسبة الموزعة
حماية الخصوصية: تحقيق مشاركة المعرفة مع حماية خصوصية البيانات

قيود الطرق الموجودة

من خلال تحليل t-SNE والتجارب التجريبية، اكتشف المؤلفون أن الطرق القائمة على تقطير اللوجيت تعاني من المشاكل التالية:

غموض التمثيل: تمثيلات اللوجيت المجمعة تتمتع بحدود تصنيفية غامضة
عدم استقرار التدريب: حدوث تذبذبات في التدريب في إعدادات النماذج غير المتجانسة
انحياز المعرفة: عدم القدرة على التعامل مع الاختلافات في فضاء الميزات الناتجة عن بنى النماذج المختلفة

الدافع البحثي

بناءً على التحليل العميق لقيود الطرق الموجودة، يقترح المؤلفون استخدام تقطير الميزات بدلاً من تقطير اللوجيت، من خلال تقنية الإسقاط المتعامد لحل مشكلة الانحياز في تجميع معرفة النماذج غير المتجانسة.

المساهمات الأساسية

التحليل العميق: توفير تحليل عميق لتقطير المعرفة الفيدرالية غير المعتمد على النموذج، مع تحديد قيود الطرق الموجودة التي تعتمد بشكل أساسي على تقطير اللوجيت في النماذج غير المتجانسة
اقتراح إطار عمل جديد: اقتراح إطار عمل FedFD، وهو وحدة تحسين شخصية قابلة للتوصيل، ترث خصائص الحماية والكفاءة من طرق التقطير التقليدية
تحسن الأداء: إجراء تجارب موسعة على عدة مجموعات بيانات وإعدادات، مع تحسن يصل إلى 16.09% في دقة الاختبار مقارنة بأحدث الطرق

شرح الطريقة

تعريف المهمة

ننظر في مشكلة التعلم الفيدرالي لـ K عميل، حيث يمكن لكل عميل k الوصول فقط إلى مجموعة البيانات الخاصة به المحلية $D_k = \{x_k^{(i)}, y_k^{(i)}\}$ . الهدف هو تعلم نموذج عام w يقلل من إجمالي الخسارة التجريبية:

$\min_w L(w) = \sum_{k=1}^K \frac{|D_k|}{|D|} L_k(w)$

حيث $L_k(w) = \frac{1}{|D_k|} \sum_{i=1}^{|D_k|} L_{CE}(w; x_k^i, y_k^i)$

بنية النموذج

1. محاذاة الميزات الهرمية

يقوم FedFD أولاً بتجميع نماذج العملاء حسب البنية، وبالنسبة لكل عينة تقطير x، يكون تمثيل الميزة الخاص بها على المستخرج $w_k^d$ كالتالي: $e_k^d = f(w_k^d; x), \forall k \in [1,K]$

ثم يتم تقسيم الميزات إلى m مجموعة $\{S_1^d, ..., S_m^d\}$ ، حيث تحتوي كل مجموعة على مستخرجات بنفس البنية. يتم تجميع تمثيلات الميزات داخل المجموعة الواحدة: $e^d = \frac{1}{|S^d|} \sum_{i=1}^{|S^d|} e_i^d$

2. تقنية الإسقاط المتعامد

لحل مشكلة تضارب المعرفة، يتم استخدام تحويل الإسقاط المتعامد. من خلال مصفوفة غير متماثلة $W_d$ يتم إنشاء طبقة الإسقاط $M_d$ : $\exp(W_d) \cdot \exp(W_d)^T = \exp(W_d + W_d^T) = \exp(-W_d^T + W_d^T) = I$

حيث: $\exp(W_d) = I + W_d + \frac{W_d^2}{2!} + \frac{W_d^3}{3!} + \cdots + \frac{W_d^n}{n!}$

3. دالة خسارة تقطير الميزات

يتم استخدام تباعد كولباك-لايبلر لمحاذاة تمثيلات الميزات: $\min_{w,\{M_2,...,M_m\}} \frac{1}{m-1} \sum_{i=2}^m KL(M_i(w_x), e^i)$

نقاط الابتكار التقني

من اللوجيت إلى الميزات: أول تحليل منهجي لمشاكل تقطير اللوجيت في النماذج غير المتجانسة، مع اقتراح تقطير الميزات كبديل
استراتيجية المحاذاة الهرمية: تقليل عدد طبقات الإسقاط من خلال تجميع البنى، مما يحسن كفاءة التدريب
تقنية الإسقاط المتعامد: استخدام المصفوفات غير المتماثلة لإنشاء إسقاط متعامد، مما يحل تضارب المعرفة مع الحفاظ على الكفاءة الحسابية
التصميم المعياري: يمكن دمجه بسلاسة مع تقنيات FL الموجودة

إعداد التجارب

مجموعات البيانات

CIFAR-10: تصنيف صور من 10 فئات، 50,000 عينة تدريب، 10,000 عينة اختبار
CIFAR-100: تصنيف صور من 100 فئة، 50,000 عينة تدريب، 10,000 عينة اختبار
Tiny-ImageNet: تصنيف صور من 200 فئة، مجموعة بيانات أكبر حجمًا

يتم استخدام توزيع ديريشليت Dir(α) لمحاكاة عدم تجانس البيانات، حيث تشير القيم الأصغر لـ α إلى توزيع بيانات أكثر عدم انتظام.

مقاييس التقييم

دقة الاختبار: دقة التصنيف للنموذج العام والنماذج المحلية
كفاءة الاتصال: عدد جولات الاتصال المطلوبة للوصول إلى دقة الهدف
استقرار التقارب: تحليل منحنيات التعلم لعملية التدريب

طرق المقارنة

طرق FL الكلاسيكية: HeteroFL, MOON-hetero
طرق FL المتجانسة: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
طرق FL غير المتجانسة: FedMD, MSFKD, FedGD

تفاصيل التنفيذ

عدد جولات التدريب المحلي E=10، جولات الاتصال T=200، عدد العملاء K=20، معدل المشاركة r=0.4
حجم الدفعة 64، تحلل الأوزان 1e-4
معدل التعلم للتقطير 0.01، معدل التعلم للتدريب المحلي 0.001
نموذج الخادم يستخدم ResNet-18، نماذج العملاء لها 10 مستويات تعقيد مختلفة

نتائج التجارب

النتائج الرئيسية

حقق FedFD أفضل أداء في جميع مجموعات البيانات والإعدادات:

مجموعة البيانات	قيمة α	HeteroFL	FedGD	FedFD	التحسن
CIFAR-10	1.0	87.53±0.15	87.22±0.13	89.64±0.23	2.11%
CIFAR-10	0.1	78.02±0.65	79.31±0.75	82.74±0.58	3.43%
CIFAR-100	1.0	57.42±0.12	58.03±0.26	60.86±0.10	2.83%
Tiny-ImageNet	1.0	29.88±2.72	30.66±1.59	34.24±1.13	4.36%

كفاءة الاتصال

يُظهر FedFD أداءً ممتازًا أيضًا من حيث كفاءة الاتصال:

CIFAR-10 للوصول إلى دقة 80%: يحتاج FedFD إلى 20 جولة، بينما HeteroFL يحتاج إلى 25 جولة
CIFAR-100 للوصول إلى دقة 60%: يحتاج FedFD إلى 60 جولة، بينما الطرق الأخرى تحتاج إلى 171-200+ جولة

تجارب الاستئصال

التحقق من أهمية كل مكون:

إزالة محاذاة الميزات: انخفاض الأداء بنسبة 0.63-1.56%
إزالة الإسقاط المتعامد: انخفاض الأداء بنسبة 1.68-2.43%
إزالة كلا المكونين: انخفاض كبير في الأداء، العودة إلى مستوى FedFusion

تحليل الاستقرار

من خلال مقارنة منحنيات التعلم:

في النماذج المتجانسة: جميع طرق تقطير اللوجيت تتقارب بسرعة واستقرار
في النماذج غير المتجانسة: طرق تقطير اللوجيت تظهر تذبذبات في التدريب، بينما FedFD يحافظ على تقارب مستقر

تجارب التوسع

في إعدادات عدم تجانس البيانات الأكثر تطرفًا (α=0.01) وتركيبات بنى نماذج مختلفة، يحافظ FedFD على أفضل أداء.

الأعمال ذات الصلة

التعلم الفيدرالي

التطور من FedAvg لتجميع النماذج المتجانسة إلى طرق تدعم النماذج غير المتجانسة، مثل HeteroFL الذي يجمع المعاملات الجزئية، و NeFL الذي يتكيف مع أعماق مختلفة من خلال البنى المتداخلة.

تقطير المعرفة

يشمل فئتين رئيسيتين: تقطير اللوجيت وتقطير الميزات. تركز هذه الورقة على تطبيق تقطير الميزات في التعلم الفيدرالي، مع تجاوز القيود الموجودة من خلال الإسقاط المتعامد والتقطير المجمع.

التقطير الفيدرالي

تعتمد الطرق الموجودة بشكل أساسي على تقطير اللوجيت أو تتطلب مجموعة بيانات وكيل إضافية. تحلل هذه الورقة قيود هذه الطرق في النماذج غير المتجانسة.

الاستنتاج والنقاش

الاستنتاجات الرئيسية

تحديد المشكلة: تقطير اللوجيت يعاني من انحياز المعرفة وعدم استقرار التدريب في النماذج غير المتجانسة
الحل المقترح: تقطير الميزات مع الإسقاط المتعامد يمكنه حل مشكلة تجميع معرفة النماذج غير المتجانسة بشكل فعّال
التحقق من الأداء: يحقق FedFD تحسنًا ملحوظًا في الأداء في جميع الإعدادات المختلفة

القيود

التكلفة الحسابية: الحاجة إلى الحفاظ على طبقات إسقاط لبنى مختلفة، مما يزيد من التكلفة الحسابية على جانب الخادم
الاعتماد على البنية: قد تعتمد فعالية الطريقة على درجة تنوع بنى نماذج العملاء
بيانات التقطير: لا تزال تتطلب مجموعة بيانات مساعدة للتقطير، على الرغم من إمكانية الدمج مع طرق بدون بيانات

الاتجاهات المستقبلية

استكشاف طرق تقطير ميزات خالية تمامًا من البيانات
البحث عن تصاميم طبقات إسقاط أكثر كفاءة
التوسع إلى أنماط ومهام أكثر تنوعًا

التقييم المتعمق

المميزات

رؤية عميقة للمشكلة: تحديد واضح للمشاكل الأساسية للطرق الموجودة من خلال التصور والتحليل التجريبي
تصميم الطريقة معقول: استخدام تقنية الإسقاط المتعامد يحل تضارب المعرفة مع الحفاظ على الكفاءة الحسابية
تجارب شاملة وكافية: تغطي عدة مجموعات بيانات، درجات عدم تجانس مختلفة، تجارب استئصال وغيرها
قوة التطبيق الهندسي: التصميم المعياري يجعل الطريقة سهلة الدمج في أطر عمل FL الموجودة

أوجه القصور

نقص التحليل النظري: غياب شرح نظري لسبب تفوق تقطير الميزات على تقطير اللوجيت
تحليل التعقيد الحسابي: عدم تحليل تفصيلي لتكلفة الإسقاط المتعامد
التحقق على نطاق واسع محدود: التجارب تركز بشكل أساسي على مجموعات بيانات متوسطة الحجم

التأثير

القيمة الأكاديمية: توفير مسار تقني جديد للتعلم الفيدرالي غير المتجانس
القيمة العملية: يمكن تطبيقها مباشرة على سيناريوهات إنترنت الأشياء الفعلية
القيمة الإلهامية: توفير أفكار جديدة لبحث تقطير المعرفة في التعلم الفيدرالي

السيناريوهات المناسبة

التعلم الفيدرالي لأجهزة إنترنت الأشياء: تعاون الأجهزة ذات القدرات الحسابية المختلفة
التعاون بين المؤسسات: مشاركة المعرفة عندما تستخدم المنظمات المختلفة بنى نماذج مختلفة
الحوسبة الطرفية: التعلم الموزع في البيئات ذات الموارد المحدودة

المراجع

تستشهد هذه الورقة بأعمال مهمة في مجالات التعلم الفيدرالي وتقطير المعرفة والتقطير الفيدرالي، بما في ذلك:

FedAvg 34: العمل الأساسي للتعلم الفيدرالي
HeteroFL 6: الطريقة التمثيلية للتعلم الفيدرالي غير المتجانس
الأعمال المتعلقة بتقطير المعرفة 14, 15, 44: توفير الأساس النظري لهذه الورقة
طرق التقطير الفيدرالي 33, 49, 58: معايير المقارنة المباشرة لهذه الورقة

تقدم هذه الورقة ابتكارًا مهمًا في مجال التعلم الفيدرالي غير المتجانس، وتساهم بقيمة في تطور هذا المجال من خلال التحليل العميق لقيود الطرق الموجودة واقتراح حل فعّال. يجعل التصميم المعياري للطريقة والنتائج التجريبية الممتازة لها قيمة عملية قوية.