Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
academic
سد فجوات الذاكرة: توسيع التعلم الموحد للعملاء غير المتجانسين
يمكّن التعلم الموحد (FL) عملاء متعددين من التعاون في تدريب نموذج مشترك مع حماية خصوصية البيانات. ومع ذلك، فإن متطلبات الذاكرة العالية أثناء تدريب النموذج تحد بشكل كبير من نشر FL على العملاء ذوي الموارد المحدودة. لهذا الغرض، تقترح هذه الورقة SCALEFL، إطار عمل موحد وشامل يتغلب على قيود الذاكرة من خلال التدريب المتسلسل على كتل. الفكرة الأساسية لـ SCALEFL هي تقسيم النموذج العام إلى كتل وتدريبها بشكل متسلسل، مما يقلل من متطلبات ذاكرة التدريب. لتخفيف فقدان المعلومات في التدريب على الكتل، يقدم SCALEFL معلم المناهج الدراسية (Curriculum Mentor) لصياغة أهداف تدريب واعية بالمناهج لكل كتلة. بالإضافة إلى ذلك، يدمج SCALEFL منسق التدريب (Training Harmonizer) لتصميم مخطط تكيف تعاوني للمعاملات، مما يكسر بشكل فعال العزلة المعلوماتية بين الكتل.
مشكلة جدار الذاكرة: يتطلب تدريب التعلم الموحد الاحتفاظ بجميع التفعيلات الوسيطة وأوزان النموذج وحالات محسّن في الذاكرة، مما يؤدي إلى استهلاك ذاكرة مرتفع. على سبيل المثال، يستهلك تدريب ResNet34 على ImageNet أكثر من 12 جيجابايت من الذاكرة، بينما تحتوي أجهزة الجوال الحديثة عادة على 4-12 جيجابايت من ذاكرة الوصول العشوائي فقط.
عدم تجانس الأجهزة: لا يمكن للأجهزة الطرفية ذات الموارد المحدودة المشاركة في التدريب المحلي، مما يمنع بيانات قيمة من المساهمة في النموذج العام.
قيود الطرق الموجودة:
التدريب غير المتجانس للنموذج: يتطلب مجموعة بيانات عامة عالية الجودة لتقطير المعرفة، وهو أمر صعب الحصول عليه في FL
التدريب الجزئي: يكسر توسيع العرض معمارية النموذج، ويقتصر توسيع العمق على جهاز العميل ذي السعة الأقصى للذاكرة
مع أن معمارية النموذج أصبحت أعمق وأوسع للحصول على قدرات تحليلية أعلى، تتفاقم مشكلة الذاكرة بشكل أكبر. تهدف هذه الورقة إلى تصميم إطار عمل FL يمكنه تقليل متطلبات الذاكرة بشكل كبير مع الحفاظ على أداء النموذج.
اقتراح إطار عمل SCALEFL: يقلل بشكل كبير من متطلبات ذاكرة التدريب من خلال التدريب المتسلسل على الكتل، مما يمكّن الأجهزة ذات الموارد المحدودة من المشاركة الفعالة
تصميم مكونين أساسيين: معلم المناهج الدراسية ومنسق التدريب يشكلان بشكل متعاون سلوك التعلم لكل كتلة، مما يعزز التعلم المتسق للميزات المنظمة
التحقق التجريبي الشامل: إثبات فعالية وقوة SCALEFL على مجموعات بيانات معيارية متعددة
التحليل النظري: توفير تحليل التقارب، مما يثبت الموثوقية النظرية للطريقة
تحليل المشكلة: بناءً على نظرية زجاجة المعلومات، يكتشف البحث فقدان معلومات خطير في التدريب المتسلسل على الكتل. يُظهر التحليل الديناميكي لمستوى nHSIC أن SBT يفقد كمية كبيرة من معلومات الإدخال بعد تدريب الكتلة الأولى، مما يمنع الكتل اللاحقة من استخراج الميزات الحرجة.
الحل: تصميم أهداف تدريب واعية بالمناهج الدراسية
L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)
حيث:
L_CE هي خسارة الإنتروبيا المتقاطعة
nHSIC(X;Zt) يقيس الحفاظ على معلومات الإدخال
nHSIC(Y;Zt) يقيس الصلة بالمهمة
يتم ضبط λt و γt بشكل ديناميكي حسب مرحلة التدريب
الاستراتيجية: في المراحل الأولى، λt أعلى و γt أقل للتركيز على الحفاظ على معلومات الإدخال، وفي المراحل اللاحقة، يتم تقليل λt وزيادة γt تدريجياً للتحول نحو استخراج الميزات الخاصة بالمهمة.
تدفق المعلومات الأمامي المحدود: تبدأ الكتل السفلية التدريب فقط بعد تقارب الكتل السابقة
تدفق المعلومات الخلفي المحدود: التدرجات محصورة داخل الكتلة، مما يؤدي إلى عزل التدرج
مخطط التكيف التعاوني للمعاملات:
النمو الديناميكي للنموذج: تنظيم عملية التعلم لكل كتلة بشكل ديناميكي في كل جولة، مما يسمح للكتل السفلية بالتكيف في الوقت الفعلي مع تحديثات الكتل السابقة
استراتيجية التدريب المتزامن: تدريب الكتلة الحالية مع الطبقات الأخيرة من الكتلة السابقة بشكل متزامن، مما يعزز تدفق التدرج
تستشهد الورقة بأعمال مهمة في مجال FL، بما في ذلك الطرق الكلاسيكية مثل FedAvg و HeteroFL و FedRolex، والأسس النظرية مثل نظرية زجاجة المعلومات و HSIC، مع استشهادات مراجع شاملة وموثوقة.
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة في مجال التعلم الموحد، تقترح حلاً مبتكراً لمشكلة رئيسية في النشر الفعلي. تتمتع الطريقة بتصميم معقول، والتحقق التجريبي شامل، والتحليل النظري كامل، مع قيمة أكاديمية وعملية مهمة.