Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
Wu, Li, Tian et al.
Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.
academic
স্মৃতি ব্যবধান সেতুবন্ধন: বিষমজাত ক্লায়েন্টদের জন্য ফেডারেটেড লার্নিং স্কেলিং
ফেডারেটেড লার্নিং (FL) একাধিক ক্লায়েন্টকে ডেটা গোপনীয়তা সুরক্ষা বজায় রেখে ভাগ করা মডেল প্রশিক্ষণে সহযোগিতা করতে সক্ষম করে। তবে, মডেল প্রশিক্ষণ প্রক্রিয়ায় উচ্চ স্মৃতি প্রয়োজনীয়তা সম্পদ সীমিত ক্লায়েন্টগুলিতে FL স্থাপনকে গুরুতরভাবে সীমাবদ্ধ করে। এই উদ্দেশ্যে, এই পেপারটি SCALEFL প্রস্তাব করে, একটি স্কেলেবল এবং অন্তর্ভুক্তিমূলক FL কাঠামো যা ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণের মাধ্যমে স্মৃতি সীমাবদ্ধতা অতিক্রম করে। SCALEFL-এর মূল ধারণা হল বৈশ্বিক মডেলকে ব্লকে বিভক্ত করা এবং ক্রমিকভাবে প্রশিক্ষণ দেওয়া, যা প্রশিক্ষণ স্মৃতি প্রয়োজনীয়তা হ্রাস করে। ব্লক-ভিত্তিক প্রশিক্ষণে তথ্য ক্ষতি প্রশমিত করার জন্য, SCALEFL প্রতিটি ব্লকের জন্য পাঠ্যক্রম-সচেতন প্রশিক্ষণ উদ্দেশ্য তৈরি করতে পাঠ্যক্রম পরামর্শদাতা (Curriculum Mentor) প্রবর্তন করে। অতিরিক্তভাবে, SCALEFL প্রশিক্ষণ সমন্বয়কারী (Training Harmonizer) একীভূত করে যা প্যারামিটার সহ-অভিযোজন প্রশিক্ষণ স্কিম ডিজাইন করে, কার্যকরভাবে ব্লক-মধ্যে তথ্য বিচ্ছিন্নতা ভাঙে।
স্মৃতি প্রাচীর সমস্যা: ফেডারেটেড লার্নিং প্রশিক্ষণ প্রক্রিয়ায় সমস্ত মধ্যবর্তী সক্রিয়করণ, মডেল ওজন এবং অপ্টিমাইজার অবস্থা স্মৃতিতে রাখতে হয়, যা উচ্চ স্মৃতি ব্যবহার করে। উদাহরণস্বরূপ, ImageNet-এ ResNet34 প্রশিক্ষণ ১২ GB-এর বেশি স্মৃতি ব্যবহার করে, যখন বাণিজ্যিক মোবাইল ডিভাইসের RAM সাধারণত মাত্র ৪-১২ GB।
ডিভাইস বিষমতা: সম্পদ সীমিত প্রান্ত ডিভাইসগুলি স্থানীয় প্রশিক্ষণে অংশগ্রহণ করতে পারে না, যা তাদের মূল্যবান ডেটার বৈশ্বিক মডেলে অবদান রাখতে বাধা দেয়।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
মডেল বিষমজাত প্রশিক্ষণ: জ্ঞান পাতন করার জন্য উচ্চ-মানের জনসাধারণের ডেটাসেট প্রয়োজন, FL-এ অর্জন করা কঠিন
আংশিক প্রশিক্ষণ: প্রস্থ স্কেলিং মডেল স্থাপত্য ভাঙে, গভীরতা স্কেলিং সর্বোচ্চ স্মৃতি ক্ষমতা সম্পন্ন ক্লায়েন্ট দ্বারা সীমাবদ্ধ
যেহেতু মডেল স্থাপত্য উচ্চতর বিশ্লেষণাত্মক ক্ষমতা অর্জনের জন্য গভীর এবং প্রশস্ত হয়ে উঠছে, স্মৃতি সমস্যা আরও বৃদ্ধি পাচ্ছে। এই পেপারটি এমন একটি FL কাঠামো ডিজাইন করার লক্ষ্য রাখে যা স্মৃতি প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করতে পারে এবং একই সাথে মডেল কর্মক্ষমতা বজায় রাখতে পারে।
SCALEFL কাঠামো প্রস্তাব: ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণের মাধ্যমে প্রশিক্ষণ স্মৃতি প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করে, সম্পদ সীমিত ডিভাইসগুলিকে কার্যকরভাবে অংশগ্রহণ করতে সক্ষম করে
দুটি মূল উপাদান ডিজাইন: পাঠ্যক্রম পরামর্শদাতা এবং প্রশিক্ষণ সমন্বয়কারী প্রতিটি ব্লকের শেখার আচরণ সহ-আকার দেয়, সুসংগত কাঠামোগত বৈশিষ্ট্য শেখা প্রচার করে
ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক বেঞ্চমার্ক ডেটাসেটে SCALEFL-এর কার্যকারিতা এবং শক্তিশালীতা প্রমাণ করে
তাত্ত্বিক বিশ্লেষণ: সংমিশ্রণ বিশ্লেষণ প্রদান করে, পদ্ধতির তাত্ত্বিক নির্ভরযোগ্যতা প্রমাণ করে
N ক্লায়েন্ট সহ একটি FL সিস্টেমে, প্রতিটি ক্লায়েন্ট n স্থানীয় ডেটাসেট Dn ধারণ করে। লক্ষ্য হল বৈশ্বিক মডেল Θ প্রশিক্ষণ দেওয়া, একই সাথে প্রতিটি ক্লায়েন্টের স্মৃতি সীমাবদ্ধতা পূরণ করা।
সমস্যা বিশ্লেষণ: তথ্য বোতলজনক তত্ত্বের উপর ভিত্তি করে, ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণ গুরুতর তথ্য ক্ষতি ঘটায় আবিষ্কার করে। nHSIC প্লেন গতিশীল বিশ্লেষণ দেখায় যে SBT প্রথম ব্লক প্রশিক্ষণের পরে বিপুল পরিমাণ ইনপুট তথ্য হারায়, যার ফলে পরবর্তী ব্লকগুলি গুরুত্বপূর্ণ বৈশিষ্ট্য নিষ্কাশন করতে পারে না।
সমাধান: পাঠ্যক্রম-সচেতন প্রশিক্ষণ উদ্দেশ্য ডিজাইন করে
L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)
যেখানে:
L_CE ক্রস-এন্ট্রপি ক্ষতি
nHSIC(X;Zt) ইনপুট তথ্য সংরক্ষণ পরিমাপ করে
nHSIC(Y;Zt) কাজ-সম্পর্কিত পরিমাপ করে
λt এবং γt প্রশিক্ষণ পর্যায় অনুযায়ী গতিশীলভাবে সামঞ্জস্য করা হয়
কৌশল: প্রাথমিক পর্যায়ে উচ্চ λt এবং নিম্ন γt ইনপুট তথ্য সংরক্ষণ জোর দেয়, পরবর্তী পর্যায়ে ধীরে ধীরে λt হ্রাস করে γt বৃদ্ধি করে কাজ-নির্দিষ্ট বৈশিষ্ট্য নিষ্কাশনে রূপান্তরিত করে।
ফরোয়ার্ড তথ্য প্রবাহ সীমাবদ্ধ: ডাউনস্ট্রিম ব্লকগুলি শুধুমাত্র পূর্ববর্তী ব্লক সংমিশ্রিত হওয়ার পরে প্রশিক্ষণ শুরু করে
পশ্চাদ্বর্তী তথ্য প্রবাহ সীমাবদ্ধ: গ্রেডিয়েন্ট ব্লক-মধ্যে সীমাবদ্ধ, গ্রেডিয়েন্ট বিচ্ছিন্নতা ঘটায়
প্যারামিটার সহ-অভিযোজন স্কিম:
গতিশীল মডেল বৃদ্ধি: প্রতিটি রাউন্ডে প্রতিটি ব্লকের শেখার প্রক্রিয়া গতিশীলভাবে সংগঠিত করে, ডাউনস্ট্রিম ব্লকগুলিকে পূর্ববর্তী ব্লক আপডেটে রিয়েল-টাইম অভিযোজন সক্ষম করে
সমসাময়িক প্রশিক্ষণ কৌশল: বর্তমান ব্লক পূর্ববর্তী ব্লকের শেষ কয়েকটি স্তরের সাথে একযোগে প্রশিক্ষণ দেয়, গ্রেডিয়েন্ট প্রবাহ প্রচার করে
পেপারটি FL ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, FedAvg, HeteroFL, FedRolex ইত্যাদি ক্লাসিক পদ্ধতি, এবং তথ্য বোতলজনক তত্ত্ব, HSIC ইত্যাদি তাত্ত্বিক ভিত্তি অন্তর্ভুক্ত করে, রেফারেন্স উদ্ধৃতি বেশ ব্যাপক এবং কর্তৃপক্ষী।
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের ফেডারেটেড লার্নিং পেপার যা বাস্তব স্থাপনায় মূল সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, তাত্ত্বিক বিশ্লেষণ সম্পূর্ণ, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।