2025-11-11T23:28:21.956833

Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients

Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
academic

سد فجوات الذاكرة: توسيع التعلم الموحد للعملاء غير المتجانسين

المعلومات الأساسية

  • معرّف الورقة: 2408.10826
  • العنوان: Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
  • المؤلفون: Yebo Wu, Jingguang Li, Chunlin Tian, KaHou Tam, Li Li, Chengzhong Xu (جامعة ماكاو)
  • التصنيف: cs.DC (الحوسبة الموزعة)
  • وقت النشر: أغسطس 2024 (arXiv v2: أكتوبر 2025)
  • رابط الورقة: https://arxiv.org/abs/2408.10826v2

الملخص

يمكّن التعلم الموحد (FL) عملاء متعددين من التعاون في تدريب نموذج مشترك مع حماية خصوصية البيانات. ومع ذلك، فإن متطلبات الذاكرة العالية أثناء تدريب النموذج تحد بشكل كبير من نشر FL على العملاء ذوي الموارد المحدودة. لهذا الغرض، تقترح هذه الورقة SCALEFL، إطار عمل موحد وشامل يتغلب على قيود الذاكرة من خلال التدريب المتسلسل على كتل. الفكرة الأساسية لـ SCALEFL هي تقسيم النموذج العام إلى كتل وتدريبها بشكل متسلسل، مما يقلل من متطلبات ذاكرة التدريب. لتخفيف فقدان المعلومات في التدريب على الكتل، يقدم SCALEFL معلم المناهج الدراسية (Curriculum Mentor) لصياغة أهداف تدريب واعية بالمناهج لكل كتلة. بالإضافة إلى ذلك، يدمج SCALEFL منسق التدريب (Training Harmonizer) لتصميم مخطط تكيف تعاوني للمعاملات، مما يكسر بشكل فعال العزلة المعلوماتية بين الكتل.

خلفية البحث والدافع

المشاكل الأساسية

  1. مشكلة جدار الذاكرة: يتطلب تدريب التعلم الموحد الاحتفاظ بجميع التفعيلات الوسيطة وأوزان النموذج وحالات محسّن في الذاكرة، مما يؤدي إلى استهلاك ذاكرة مرتفع. على سبيل المثال، يستهلك تدريب ResNet34 على ImageNet أكثر من 12 جيجابايت من الذاكرة، بينما تحتوي أجهزة الجوال الحديثة عادة على 4-12 جيجابايت من ذاكرة الوصول العشوائي فقط.
  2. عدم تجانس الأجهزة: لا يمكن للأجهزة الطرفية ذات الموارد المحدودة المشاركة في التدريب المحلي، مما يمنع بيانات قيمة من المساهمة في النموذج العام.
  3. قيود الطرق الموجودة:
    • التدريب غير المتجانس للنموذج: يتطلب مجموعة بيانات عامة عالية الجودة لتقطير المعرفة، وهو أمر صعب الحصول عليه في FL
    • التدريب الجزئي: يكسر توسيع العرض معمارية النموذج، ويقتصر توسيع العمق على جهاز العميل ذي السعة الأقصى للذاكرة

دافع البحث

مع أن معمارية النموذج أصبحت أعمق وأوسع للحصول على قدرات تحليلية أعلى، تتفاقم مشكلة الذاكرة بشكل أكبر. تهدف هذه الورقة إلى تصميم إطار عمل FL يمكنه تقليل متطلبات الذاكرة بشكل كبير مع الحفاظ على أداء النموذج.

المساهمات الأساسية

  1. اقتراح إطار عمل SCALEFL: يقلل بشكل كبير من متطلبات ذاكرة التدريب من خلال التدريب المتسلسل على الكتل، مما يمكّن الأجهزة ذات الموارد المحدودة من المشاركة الفعالة
  2. تصميم مكونين أساسيين: معلم المناهج الدراسية ومنسق التدريب يشكلان بشكل متعاون سلوك التعلم لكل كتلة، مما يعزز التعلم المتسق للميزات المنظمة
  3. التحقق التجريبي الشامل: إثبات فعالية وقوة SCALEFL على مجموعات بيانات معيارية متعددة
  4. التحليل النظري: توفير تحليل التقارب، مما يثبت الموثوقية النظرية للطريقة

شرح الطريقة

تعريف المهمة

في نظام FL يحتوي على N عميل، يمتلك كل عميل n مجموعة بيانات محلية Dn. الهدف هو تدريب نموذج عام Θ مع تلبية قيود الذاكرة لكل عميل.

نموذج التدريب المتسلسل على الكتل

العملية الأساسية:

  1. بناء النموذج: ينشئ الخادم نموذج فرعي للمرحلة الحالية t: Θg,t = θ1,F, θ2,F, ..., θt, θOp
  2. التدريب المحلي: تحديث الكتلة θt وحدة الإخراج θOp فقط
  3. تجميع النموذج: تجميع تحديثات المعاملات باستخدام المتوسط المرجح
  4. تقييم التقدم: مراقبة تقدم تدريب الكتلة θt والحكم على التقارب
  5. نمو النموذج: تجميد الكتل المتقاربة وإدخال كتل جديدة

مكونات التقنية الأساسية

1. معلم المناهج الدراسية (Curriculum Mentor)

تحليل المشكلة: بناءً على نظرية زجاجة المعلومات، يكتشف البحث فقدان معلومات خطير في التدريب المتسلسل على الكتل. يُظهر التحليل الديناميكي لمستوى nHSIC أن SBT يفقد كمية كبيرة من معلومات الإدخال بعد تدريب الكتلة الأولى، مما يمنع الكتل اللاحقة من استخراج الميزات الحرجة.

الحل: تصميم أهداف تدريب واعية بالمناهج الدراسية

L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)

حيث:

  • L_CE هي خسارة الإنتروبيا المتقاطعة
  • nHSIC(X;Zt) يقيس الحفاظ على معلومات الإدخال
  • nHSIC(Y;Zt) يقيس الصلة بالمهمة
  • يتم ضبط λt و γt بشكل ديناميكي حسب مرحلة التدريب

الاستراتيجية: في المراحل الأولى، λt أعلى و γt أقل للتركيز على الحفاظ على معلومات الإدخال، وفي المراحل اللاحقة، يتم تقليل λt وزيادة γt تدريجياً للتحول نحو استخراج الميزات الخاصة بالمهمة.

2. منسق التدريب (Training Harmonizer)

تحديد المشكلة:

  • تدفق المعلومات الأمامي المحدود: تبدأ الكتل السفلية التدريب فقط بعد تقارب الكتل السابقة
  • تدفق المعلومات الخلفي المحدود: التدرجات محصورة داخل الكتلة، مما يؤدي إلى عزل التدرج

مخطط التكيف التعاوني للمعاملات:

  1. النمو الديناميكي للنموذج: تنظيم عملية التعلم لكل كتلة بشكل ديناميكي في كل جولة، مما يسمح للكتل السفلية بالتكيف في الوقت الفعلي مع تحديثات الكتل السابقة
  2. استراتيجية التدريب المتزامن: تدريب الكتلة الحالية مع الطبقات الأخيرة من الكتلة السابقة بشكل متزامن، مما يعزز تدفق التدرج

صيغة التحديث:

θ^(k+1)_(n,t) + L^(k+1)_(n,t-1) ← (θ^k_(n,t) + L^k_(n,t-1)) - η · ∂L^k_(n,t)/∂(θ^k_(n,t) + L^k_(n,t-1))

الهدف التدريبي الكامل

دمج تنظيم L2 للتعامل مع عدم تجانس البيانات:

L^r_t = L_θt + (μ/2)||θ^r_t - θ^(r-1)_t||^2_2

إعداد التجارب

مجموعات البيانات

  • CIFAR10/CIFAR100: مجموعات بيانات تصنيف صور كلاسيكية
  • CINIC10: نسخة موسعة من CIFAR10
  • Mini-ImageNet: نسخة صغيرة من ImageNet
  • FEMNIST: مجموعة بيانات FL واسعة النطاق (805,263 صورة)

معمارية النموذج

  • ResNet18/ResNet34: شبكات بقايا عميقة
  • VGG11 BN: شبكة تلافيفية كلاسيكية
  • SqueezeNet: شبكة خفيفة الوزن
  • Vision Transformer (ViT): معمارية Transformer

بيئة التجارب

  • الإعداد المختلط: اختبارات محاكاة وسرير اختبار الأجهزة الحقيقية
  • تكوين الأجهزة: 100 جهاز محمول غير متجانس، يتم اختيار 10% عشوائياً في كل جولة
  • ميزانية الذاكرة: 100-1000 ميجابايت مخصصة عشوائياً
  • المحسّن: SGD، تحلل الأوزان 5e-4، الحقب المحلية = 5

طرق المقارنة

  1. AllSmall: تقليل النموذج العام بناءً على ذاكرة الجهاز الأضعف
  2. ExclusiveFL: السماح فقط للأجهزة ذات الذاكرة الكافية بالمشاركة
  3. DepthFL: توسيع العمق للتكيف مع الأجهزة غير المتجانسة
  4. HeteroFL: توسيع القناة الثابت
  5. FedRolex: توسيع العرض الديناميكي
  6. SmartFreeze: تدريب متسلسل بسيط على الكتل
  7. ProFL: تدريب متسلسل مفكك

نتائج التجارب

النتائج الرئيسية

الأداء في سيناريو غير IID:

الطريقةCIFAR10 (ResNet18/VGG11/SqueezeNet)معدل المشاركة
AllSmall69.5%/75.1%/49.6%100%/100%/100%
ExclusiveFL76.8%/79.3%/40.6%18%/22%/11%
SCALEFL80.4%/87.6%/58.0%100%/100%/100%

النتائج الرئيسية:

  1. تحسن الأداء الملحوظ: تحسن بنسبة 10.9% و 12.5% و 8.4% مقارنة بـ AllSmall
  2. مشاركة جميع الأجهزة: تحقيق معدل مشاركة 100%، بينما ExclusiveFL يحقق فقط 18-22%
  3. كفاءة الذاكرة: تقليل استخدام ذاكرة الذروة بنسبة تصل إلى 50.4%
  4. تسريع التدريب: تحسن سرعة التقارب بمعامل 1.9

تحليل التوسع

الثبات تحت قيود الذاكرة المختلفة:

  • في سيناريو ResNet34، ExclusiveFL غير قابل للتطبيق تماماً (معدل مشاركة 0%)
  • SCALEFL يحقق تحسناً يصل إلى 27.4% مقارنة بالطرق الأخرى

مجموعات البيانات الكبيرة:

  • تحسن دقة بنسبة 3% على مجموعة بيانات FEMNIST مقارنة بـ FedAvg
  • دعم مقياس 120-500 جهاز

توافق Transformer:

  • على نموذج ViT، أقل بـ 2% فقط من الخط الأساسي النظري، لكن الخط الأساسي النظري غير قابل للتطبيق عملياً

التقييم على الأجهزة

كفاءة الذاكرة:

  • الاختبار على Jetson TX2 يُظهر تقليل استخدام ذاكرة الذروة بنسبة 50.4%
  • تقليل وقت التدريب لكل جولة بمعامل 1.84-2.31

كفاءة التدريب:

  • تقليل كبير في وقت التدريب لكل جولة مقارنة بالتدريب من طرف إلى طرف
  • تحقيق تسريع 1.9 مرة على ViT

تجارب الاستئصال

تحليل مساهمة المكونات:

  • إزالة معلم المناهج الدراسية: انخفاض الدقة بنسبة 1.2% في سيناريو CIFAR100 IID
  • إزالة منسق التدريب: انخفاض الدقة بشكل كبير بنسبة 9.0%
  • التعاون بين المكونين ضروري لأداء مهمة

الأعمال ذات الصلة

التعلم الموحد ذو الموارد المحدودة

  1. التدريب غير المتجانس للنموذج: طرق مثل FedMD تتطلب مجموعات بيانات عامة لتقطير المعرفة
  2. التدريب الجزئي: HeteroFL و FedRolex من خلال توسيع العرض، DepthFL و InclusiveFL من خلال توسيع العمق

التدريب على الكتل

  1. ProgFed: إدخال كتل جديدة بشكل تدريجي لكن لا يزال يتطلب تدريب من طرف إلى طرف
  2. SmartFreeze: تدريب متسلسل لكل كتلة لكن يتجاهل مشكلة فقدان المعلومات
  3. ProFL: تفكيك إلى مراحل انكماش ونمو لكن لم يحل التحديات الأساسية

التحليل النظري

إثبات التقارب

توفر الورقة تحليل التقارب لـ SCALEFL، وتثبت تحت الافتراضات القياسية (الملاسة، التدرجات المحدودة):

(1/R) Σ E[||∇L^r_t(Θ^r_(g,t))||^2] ≤ Ψ/√R

أي أن متوسط معيار التدرج يتقارب إلى 0، والنموذج يتقارب إلى نقطة مستقرة.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. ينجح SCALEFL في حل مشكلة جدار الذاكرة في FL، مما يمكّن الأجهزة ذات الموارد المحدودة من المشاركة في التدريب
  2. يعالج معلم المناهج الدراسية ومنسق التدريب بشكل فعال التحديات الأساسية للتدريب المتسلسل على الكتل
  3. تحقيق تحسن ملحوظ في الأداء وتوفير الذاكرة على مجموعات بيانات وأنماط متعددة

القيود

  1. استراتيجية تقسيم الكتل: لم تناقش الورقة بعمق طريقة تقسيم الكتل المثلى
  2. تكاليف الاتصالات: بينما تقلل استخدام الذاكرة، قد تزيد من عدد جولات الاتصالات
  3. حساسية المعاملات الفائقة: يتطلب ضبط λt و γt بعناية

الاتجاهات المستقبلية

  1. استراتيجيات تقسيم الكتل التكيفية
  2. الدمج مع تقنيات تحسين FL الأخرى
  3. التحقق من النشر الفعلي على نطاق أوسع

التقييم المتعمق

المميزات

  1. أهمية المشكلة: حل اختناق رئيسي في النشر الفعلي لـ FL
  2. الابتكار في الطريقة: أهداف التدريب الواعية بالمناهج الدراسية ومخطط التكيف التعاوني للمعاملات لهما أصالة
  3. الأساس النظري: يوفر التحليل القائم على نظرية زجاجة المعلومات دعماً نظرياً متيناً
  4. شمول التجارب: يغطي نماذج وأنماط بيانات متعددة واختبارات أجهزة حقيقية
  5. القيمة العملية: توفير الذاكرة والتحسن في الأداء الملحوظ له قيمة تطبيقية عملية

أوجه القصور

  1. التعقيد: يزيد المكونان المقدمان من تعقيد النظام
  2. ضبط المعاملات الفائقة: تتطلب معاملات λt و γt وغيرها ضبطاً لسيناريوهات مختلفة
  3. تحليل الاتصالات: نقص التحليل التفصيلي لتكاليف الاتصالات
  4. سرعة التقارب: بينما تكون كل جولة أسرع، قد يزيد إجمالي عدد جولات التقارب

التأثير

  1. المساهمة الأكاديمية: توفير منظور حل جديد لـ FL ذو الموارد المحدودة
  2. القيمة العملية: يمكن نشره فعلياً على أجهزة الهاتف المحمول وبيئات الموارد المحدودة
  3. قابلية إعادة الإنتاج: توفير إعدادات تجريبية وتكوينات معاملات مفصلة

السيناريوهات المناسبة

  1. التعلم الموحد على الأجهزة المحمولة: سيناريوهات الهواتف الذكية وأجهزة IoT ذات الذاكرة المحدودة
  2. الحوسبة الطرفية: بيئات خوادم الحافة ذات الموارد المحدودة
  3. تدريب النماذج الكبيرة: سيناريوهات تدريب النماذج الكبيرة مع موارد جهاز غير كافية

المراجع

تستشهد الورقة بأعمال مهمة في مجال FL، بما في ذلك الطرق الكلاسيكية مثل FedAvg و HeteroFL و FedRolex، والأسس النظرية مثل نظرية زجاجة المعلومات و HSIC، مع استشهادات مراجع شاملة وموثوقة.


التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال التعلم الموحد، تقترح حلاً مبتكراً لمشكلة رئيسية في النشر الفعلي. تتمتع الطريقة بتصميم معقول، والتحقق التجريبي شامل، والتحليل النظري كامل، مع قيمة أكاديمية وعملية مهمة.