2025-11-11T23:28:21.956833

Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients

Wu, Li, Tian et al.

Federated Learning (FL) enables multiple clients to collaboratively train a shared model while preserving data privacy. However, the high memory demand during model training severely limits the deployment of FL on resource-constrained clients. To this end, we propose \our, a scalable and inclusive FL framework designed to overcome memory limitations through sequential block-wise training. The core idea of \our is to partition the global model into blocks and train them sequentially, thereby reducing training memory requirements. To mitigate information loss during block-wise training, \our introduces a Curriculum Mentor that crafts curriculum-aware training objectives for each block to steer their learning process. Moreover, \our incorporates a Training Harmonizer that designs a parameter co-adaptation training scheme to coordinate block updates, effectively breaking inter-block information isolation. Extensive experiments on both simulation and hardware testbeds demonstrate that \our significantly improves model performance by up to 84.2\%, reduces peak memory usage by up to 50.4\%, and accelerates training by up to 1.9$\times$.

academic

স্মৃতি ব্যবধান সেতুবন্ধন: বিষমজাত ক্লায়েন্টদের জন্য ফেডারেটেড লার্নিং স্কেলিং

মৌলিক তথ্য

পেপার আইডি: 2408.10826
শিরোনাম: Bridging Memory Gaps: Scaling Federated Learning for Heterogeneous Clients
লেখক: Yebo Wu, Jingguang Li, Chunlin Tian, KaHou Tam, Li Li, Chengzhong Xu (ম্যাকাও বিশ্ববিদ্যালয়)
শ্রেণীবিভাগ: cs.DC (বিতরণকৃত কম্পিউটিং)
প্রকাশনার সময়: ২০২৪ সালের আগস্ট (arXiv v2: ২০২৫ সালের অক্টোবর)
পেপার লিঙ্ক: https://arxiv.org/abs/2408.10826v2

সারসংক্ষেপ

ফেডারেটেড লার্নিং (FL) একাধিক ক্লায়েন্টকে ডেটা গোপনীয়তা সুরক্ষা বজায় রেখে ভাগ করা মডেল প্রশিক্ষণে সহযোগিতা করতে সক্ষম করে। তবে, মডেল প্রশিক্ষণ প্রক্রিয়ায় উচ্চ স্মৃতি প্রয়োজনীয়তা সম্পদ সীমিত ক্লায়েন্টগুলিতে FL স্থাপনকে গুরুতরভাবে সীমাবদ্ধ করে। এই উদ্দেশ্যে, এই পেপারটি SCALEFL প্রস্তাব করে, একটি স্কেলেবল এবং অন্তর্ভুক্তিমূলক FL কাঠামো যা ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণের মাধ্যমে স্মৃতি সীমাবদ্ধতা অতিক্রম করে। SCALEFL-এর মূল ধারণা হল বৈশ্বিক মডেলকে ব্লকে বিভক্ত করা এবং ক্রমিকভাবে প্রশিক্ষণ দেওয়া, যা প্রশিক্ষণ স্মৃতি প্রয়োজনীয়তা হ্রাস করে। ব্লক-ভিত্তিক প্রশিক্ষণে তথ্য ক্ষতি প্রশমিত করার জন্য, SCALEFL প্রতিটি ব্লকের জন্য পাঠ্যক্রম-সচেতন প্রশিক্ষণ উদ্দেশ্য তৈরি করতে পাঠ্যক্রম পরামর্শদাতা (Curriculum Mentor) প্রবর্তন করে। অতিরিক্তভাবে, SCALEFL প্রশিক্ষণ সমন্বয়কারী (Training Harmonizer) একীভূত করে যা প্যারামিটার সহ-অভিযোজন প্রশিক্ষণ স্কিম ডিজাইন করে, কার্যকরভাবে ব্লক-মধ্যে তথ্য বিচ্ছিন্নতা ভাঙে।

গবেষণা পটভূমি এবং প্রেরণা

মূল সমস্যা

স্মৃতি প্রাচীর সমস্যা: ফেডারেটেড লার্নিং প্রশিক্ষণ প্রক্রিয়ায় সমস্ত মধ্যবর্তী সক্রিয়করণ, মডেল ওজন এবং অপ্টিমাইজার অবস্থা স্মৃতিতে রাখতে হয়, যা উচ্চ স্মৃতি ব্যবহার করে। উদাহরণস্বরূপ, ImageNet-এ ResNet34 প্রশিক্ষণ ১২ GB-এর বেশি স্মৃতি ব্যবহার করে, যখন বাণিজ্যিক মোবাইল ডিভাইসের RAM সাধারণত মাত্র ৪-১২ GB।
ডিভাইস বিষমতা: সম্পদ সীমিত প্রান্ত ডিভাইসগুলি স্থানীয় প্রশিক্ষণে অংশগ্রহণ করতে পারে না, যা তাদের মূল্যবান ডেটার বৈশ্বিক মডেলে অবদান রাখতে বাধা দেয়।
বিদ্যমান পদ্ধতির সীমাবদ্ধতা:
- মডেল বিষমজাত প্রশিক্ষণ: জ্ঞান পাতন করার জন্য উচ্চ-মানের জনসাধারণের ডেটাসেট প্রয়োজন, FL-এ অর্জন করা কঠিন
- আংশিক প্রশিক্ষণ: প্রস্থ স্কেলিং মডেল স্থাপত্য ভাঙে, গভীরতা স্কেলিং সর্বোচ্চ স্মৃতি ক্ষমতা সম্পন্ন ক্লায়েন্ট দ্বারা সীমাবদ্ধ

গবেষণা প্রেরণা

যেহেতু মডেল স্থাপত্য উচ্চতর বিশ্লেষণাত্মক ক্ষমতা অর্জনের জন্য গভীর এবং প্রশস্ত হয়ে উঠছে, স্মৃতি সমস্যা আরও বৃদ্ধি পাচ্ছে। এই পেপারটি এমন একটি FL কাঠামো ডিজাইন করার লক্ষ্য রাখে যা স্মৃতি প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করতে পারে এবং একই সাথে মডেল কর্মক্ষমতা বজায় রাখতে পারে।

মূল অবদান

SCALEFL কাঠামো প্রস্তাব: ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণের মাধ্যমে প্রশিক্ষণ স্মৃতি প্রয়োজনীয়তা উল্লেখযোগ্যভাবে হ্রাস করে, সম্পদ সীমিত ডিভাইসগুলিকে কার্যকরভাবে অংশগ্রহণ করতে সক্ষম করে
দুটি মূল উপাদান ডিজাইন: পাঠ্যক্রম পরামর্শদাতা এবং প্রশিক্ষণ সমন্বয়কারী প্রতিটি ব্লকের শেখার আচরণ সহ-আকার দেয়, সুসংগত কাঠামোগত বৈশিষ্ট্য শেখা প্রচার করে
ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক বেঞ্চমার্ক ডেটাসেটে SCALEFL-এর কার্যকারিতা এবং শক্তিশালীতা প্রমাণ করে
তাত্ত্বিক বিশ্লেষণ: সংমিশ্রণ বিশ্লেষণ প্রদান করে, পদ্ধতির তাত্ত্বিক নির্ভরযোগ্যতা প্রমাণ করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

N ক্লায়েন্ট সহ একটি FL সিস্টেমে, প্রতিটি ক্লায়েন্ট n স্থানীয় ডেটাসেট Dn ধারণ করে। লক্ষ্য হল বৈশ্বিক মডেল Θ প্রশিক্ষণ দেওয়া, একই সাথে প্রতিটি ক্লায়েন্টের স্মৃতি সীমাবদ্ধতা পূরণ করা।

ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণ প্যারাডাইম

মৌলিক প্রবাহ:

মডেল নির্মাণ: সার্ভার বর্তমান প্রশিক্ষণ পর্যায় t-এর জন্য সাব-মডেল Θg,t = θ1,F, θ2,F, ..., θt, θOp তৈরি করে
স্থানীয় প্রশিক্ষণ: শুধুমাত্র ব্লক θt এবং আউটপুট মডিউল θOp আপডেট করে
মডেল সমন্বয়: ওজনযুক্ত গড় ব্যবহার করে প্যারামিটার আপডেট সমন্বয় করে
অগ্রগতি মূল্যায়ন: ব্লক θt-এর প্রশিক্ষণ অগ্রগতি পর্যবেক্ষণ করে এবং সংমিশ্রণ বিচার করে
মডেল বৃদ্ধি: সংমিশ্রিত ব্লক হিমায়িত করে এবং নতুন ব্লক প্রবর্তন করে

মূল প্রযুক্তিগত উপাদান

১. পাঠ্যক্রম পরামর্শদাতা (Curriculum Mentor)

সমস্যা বিশ্লেষণ: তথ্য বোতলজনক তত্ত্বের উপর ভিত্তি করে, ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণ গুরুতর তথ্য ক্ষতি ঘটায় আবিষ্কার করে। nHSIC প্লেন গতিশীল বিশ্লেষণ দেখায় যে SBT প্রথম ব্লক প্রশিক্ষণের পরে বিপুল পরিমাণ ইনপুট তথ্য হারায়, যার ফলে পরবর্তী ব্লকগুলি গুরুত্বপূর্ণ বৈশিষ্ট্য নিষ্কাশন করতে পারে না।

সমাধান: পাঠ্যক্রম-সচেতন প্রশিক্ষণ উদ্দেশ্য ডিজাইন করে

L_θt = L_CE - λt · nHSIC(X;Zt) - γt · nHSIC(Y;Zt)

যেখানে:

L_CE ক্রস-এন্ট্রপি ক্ষতি
nHSIC(X;Zt) ইনপুট তথ্য সংরক্ষণ পরিমাপ করে
nHSIC(Y;Zt) কাজ-সম্পর্কিত পরিমাপ করে
λt এবং γt প্রশিক্ষণ পর্যায় অনুযায়ী গতিশীলভাবে সামঞ্জস্য করা হয়

কৌশল: প্রাথমিক পর্যায়ে উচ্চ λt এবং নিম্ন γt ইনপুট তথ্য সংরক্ষণ জোর দেয়, পরবর্তী পর্যায়ে ধীরে ধীরে λt হ্রাস করে γt বৃদ্ধি করে কাজ-নির্দিষ্ট বৈশিষ্ট্য নিষ্কাশনে রূপান্তরিত করে।

২. প্রশিক্ষণ সমন্বয়কারী (Training Harmonizer)

সমস্যা সনাক্তকরণ:

ফরোয়ার্ড তথ্য প্রবাহ সীমাবদ্ধ: ডাউনস্ট্রিম ব্লকগুলি শুধুমাত্র পূর্ববর্তী ব্লক সংমিশ্রিত হওয়ার পরে প্রশিক্ষণ শুরু করে
পশ্চাদ্বর্তী তথ্য প্রবাহ সীমাবদ্ধ: গ্রেডিয়েন্ট ব্লক-মধ্যে সীমাবদ্ধ, গ্রেডিয়েন্ট বিচ্ছিন্নতা ঘটায়

প্যারামিটার সহ-অভিযোজন স্কিম:

গতিশীল মডেল বৃদ্ধি: প্রতিটি রাউন্ডে প্রতিটি ব্লকের শেখার প্রক্রিয়া গতিশীলভাবে সংগঠিত করে, ডাউনস্ট্রিম ব্লকগুলিকে পূর্ববর্তী ব্লক আপডেটে রিয়েল-টাইম অভিযোজন সক্ষম করে
সমসাময়িক প্রশিক্ষণ কৌশল: বর্তমান ব্লক পূর্ববর্তী ব্লকের শেষ কয়েকটি স্তরের সাথে একযোগে প্রশিক্ষণ দেয়, গ্রেডিয়েন্ট প্রবাহ প্রচার করে

আপডেট সূত্র:

θ^(k+1)_(n,t) + L^(k+1)_(n,t-1) ← (θ^k_(n,t) + L^k_(n,t-1)) - η · ∂L^k_(n,t)/∂(θ^k_(n,t) + L^k_(n,t-1))

সম্পূর্ণ প্রশিক্ষণ উদ্দেশ্য

L2 নিয়মিতকরণ ডেটা বিষমতা পরিচালনা করতে একীভূত করে:

L^r_t = L_θt + (μ/2)||θ^r_t - θ^(r-1)_t||^2_2

পরীক্ষামূলক সেটআপ

ডেটাসেট

CIFAR10/CIFAR100: ক্লাসিক ইমেজ শ্রেণীবিভাগ ডেটাসেট
CINIC10: CIFAR10 সম্প্রসারিত সংস্করণ
Mini-ImageNet: ছোট-স্কেল ImageNet
FEMNIST: বড়-স্কেল FL ডেটাসেট (805,263 ছবি)

মডেল স্থাপত্য

ResNet18/ResNet34: গভীর অবশিষ্ট নেটওয়ার্ক
VGG11 BN: ক্লাসিক কনভোলিউশনাল নেটওয়ার্ক
SqueezeNet: হালকা-ওজন নেটওয়ার্ক
Vision Transformer (ViT): Transformer স্থাপত্য

পরীক্ষামূলক পরিবেশ

মিশ্র সেটআপ: অনুকরণ এবং বাস্তব ডিভাইস পরীক্ষা বিছানা
ডিভাইস কনফিগারেশন: 100 বিষমজাত মোবাইল ডিভাইস, প্রতিটি রাউন্ডে 10% র‍্যান্ডমলি নির্বাচিত
স্মৃতি বাজেট: 100-1000MB র‍্যান্ডমলি বরাদ্দ
অপ্টিমাইজার: SGD, ওজন ক্ষয় 5e-4, স্থানীয় epoch=5

তুলনামূলক পদ্ধতি

AllSmall: দুর্বলতম ডিভাইস স্মৃতির উপর ভিত্তি করে সম্পূর্ণ মডেল সংকুচিত করা
ExclusiveFL: শুধুমাত্র পর্যাপ্ত স্মৃতি সম্পন্ন ডিভাইসগুলিকে অংশগ্রহণ অনুমতি দেয়
DepthFL: বিষমজাত ডিভাইসের সাথে খাপ খাইয়ে নিতে গভীরতা স্কেলিং
HeteroFL: স্ট্যাটিক চ্যানেল স্কেলিং
FedRolex: গতিশীল প্রস্থ স্কেলিং
SmartFreeze: সহজ ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণ
ProFL: বিয়োজিত ক্রমিক প্রশিক্ষণ

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

অ-IID পরিস্থিতিতে কর্মক্ষমতা:

পদ্ধতি	CIFAR10 (ResNet18/VGG11/SqueezeNet)	অংশগ্রহণের হার
AllSmall	69.5%/75.1%/49.6%	100%/100%/100%
ExclusiveFL	76.8%/79.3%/40.6%	18%/22%/11%
SCALEFL	80.4%/87.6%/58.0%	100%/100%/100%

মূল আবিষ্কার:

উল্লেখযোগ্য কর্মক্ষমতা উন্নতি: AllSmall-এর তুলনায় 10.9%, 12.5%, 8.4% উন্নতি
সম্পূর্ণ ডিভাইস অংশগ্রহণ: 100% ডিভাইস অংশগ্রহণের হার অর্জন করে, যখন ExclusiveFL মাত্র 18-22%
স্মৃতি দক্ষতা: শিখর স্মৃতি ব্যবহার 50.4% পর্যন্ত হ্রাস
প্রশিক্ষণ ত্বরণ: সংমিশ্রণ গতি 1.9 গুণ উন্নতি

স্কেলেবিলিটি বিশ্লেষণ

বিভিন্ন স্মৃতি সীমাবদ্ধতার অধীন শক্তিশালীতা:

ResNet34 পরিস্থিতিতে, ExclusiveFL সম্পূর্ণভাবে অকার্যকর (0% অংশগ্রহণের হার)
SCALEFL অন্যান্য পদ্ধতির তুলনায় 27.4% পর্যন্ত উন্নতি

বড়-স্কেল ডেটাসেট:

FEMNIST ডেটাসেটে FedAvg-এর তুলনায় 3% নির্ভুলতা উন্নতি
120-500 ডিভাইস স্কেল সমর্থন করে

Transformer সামঞ্জস্যতা:

ViT মডেলে তাত্ত্বিক ভিত্তিরেখার চেয়ে মাত্র 2% কম, কিন্তু তাত্ত্বিক ভিত্তিরেখা বাস্তবে অসম্ভব

হার্ডওয়্যার মূল্যায়ন

স্মৃতি দক্ষতা:

Jetson TX2-তে পরীক্ষা শিখর স্মৃতি ব্যবহার 50.4% হ্রাস দেখায়
একক-রাউন্ড প্রশিক্ষণ সময় 1.84-2.31 গুণ হ্রাস

প্রশিক্ষণ দক্ষতা:

প্রান্ত-থেকে-প্রান্ত প্রশিক্ষণের তুলনায় একক-রাউন্ড প্রশিক্ষণ সময় উল্লেখযোগ্যভাবে হ্রাস
ViT-তে 1.9 গুণ ত্বরণ অর্জন করে

অপসারণ পরীক্ষা

উপাদান অবদান বিশ্লেষণ:

পাঠ্যক্রম পরামর্শদাতা অপসারণ: CIFAR100 IID পরিস্থিতিতে 1.2% নির্ভুলতা হ্রাস
প্রশিক্ষণ সমন্বয়কারী অপসারণ: উল্লেখযোগ্য 9.0% নির্ভুলতা হ্রাস
দুটি উপাদানের সহ-কাজ কর্মক্ষমতার জন্য গুরুত্বপূর্ণ

তাত্ত্বিক বিশ্লেষণ

সংমিশ্রণ প্রমাণ

পেপারটি SCALEFL-এর সংমিশ্রণ বিশ্লেষণ প্রদান করে, মান অনুমান (মসৃণতা, সীমাবদ্ধ গ্রেডিয়েন্ট) অধীনে প্রমাণ করে:

(1/R) Σ E[||∇L^r_t(Θ^r_(g,t))||^2] ≤ Ψ/√R

অর্থাৎ গড় গ্রেডিয়েন্ট পরিমাণ 0-তে সংমিশ্রিত হয়, মডেল স্থিতিশীল বিন্দুতে সংমিশ্রিত হয়।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

SCALEFL সফলভাবে FL-এ স্মৃতি প্রাচীর সমস্যা সমাধান করে, সম্পদ সীমিত ডিভাইসগুলিকে প্রশিক্ষণে অংশগ্রহণ করতে সক্ষম করে
পাঠ্যক্রম পরামর্শদাতা এবং প্রশিক্ষণ সমন্বয়কারী ক্রমিক ব্লক-ভিত্তিক প্রশিক্ষণের মূল চ্যালেঞ্জ কার্যকরভাবে প্রশমিত করে
একাধিক ডেটাসেট এবং মডেলে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি এবং স্মৃতি সঞ্চয় অর্জন করে

সীমাবদ্ধতা

ব্লক বিভাজন কৌশল: পেপারটি সর্বোত্তম ব্লক বিভাজন পদ্ধতি গভীরভাবে আলোচনা করে না
যোগাযোগ ওভারহেড: যদিও স্মৃতি ব্যবহার হ্রাস করে, কিন্তু যোগাযোগ রাউন্ড বৃদ্ধি করতে পারে
হাইপারপ্যারামিটার সংবেদনশীলতা: λt এবং γt সেটিং সাবধানে সমন্বয় প্রয়োজন

ভবিষ্যত দিকনির্দেশনা

স্বয়ংক্রিয় ব্লক বিভাজন কৌশল
অন্যান্য FL অপ্টিমাইজেশন কৌশলের সাথে সংমিশ্রণ
বৃহত্তর স্কেল বাস্তব স্থাপনায় যাচাইকরণ

গভীর মূল্যায়ন

সুবিধা

সমস্যার গুরুত্ব: FL বাস্তব স্থাপনার মূল বোতলজনক সমাধান করে
পদ্ধতি উদ্ভাবন: পাঠ্যক্রম-সচেতন প্রশিক্ষণ উদ্দেশ্য এবং প্যারামিটার সহ-অভিযোজন স্কিম মূল
তাত্ত্বিক ভিত্তি: তথ্য বোতলজনক তত্ত্বের উপর ভিত্তি করে বিশ্লেষণ দৃঢ় তাত্ত্বিক সমর্থন প্রদান করে
পরীক্ষামূলক সম্পূর্ণতা: একাধিক মডেল, ডেটাসেট এবং বাস্তব হার্ডওয়্যার পরীক্ষা অন্তর্ভুক্ত করে
ব্যবহারিক মূল্য: উল্লেখযোগ্য স্মৃতি সঞ্চয় এবং কর্মক্ষমতা উন্নতি ব্যবহারিক প্রয়োগ মূল্য রয়েছে

অপূর্ণতা

জটিলতা: প্রবর্তিত দুটি উপাদান সিস্টেম জটিলতা বৃদ্ধি করে
হাইপারপ্যারামিটার সমন্বয়: λt, γt ইত্যাদি প্যারামিটার বিভিন্ন পরিস্থিতির জন্য সমন্বয় প্রয়োজন
যোগাযোগ বিশ্লেষণ: যোগাযোগ ওভারহেডের বিস্তারিত বিশ্লেষণ অনুপস্থিত
সংমিশ্রণ গতি: যদিও একক-রাউন্ড দ্রুত, কিন্তু মোট সংমিশ্রণ রাউন্ড বৃদ্ধি পেতে পারে

প্রভাব

একাডেমিক অবদান: সম্পদ সীমিত FL-এর জন্য নতুন সমাধান চিন্তাভাবনা প্রদান করে
ব্যবহারিক মূল্য: মোবাইল ডিভাইস ইত্যাদি সম্পদ সীমিত পরিবেশে বাস্তব স্থাপনা সক্ষম করে
পুনরুৎপাদনযোগ্যতা: বিস্তারিত পরীক্ষামূলক সেটআপ এবং প্যারামিটার কনফিগারেশন প্রদান করে

প্রযোজ্য পরিস্থিতি

মোবাইল ডিভাইস FL: স্মার্টফোন, IoT ডিভাইস ইত্যাদি স্মৃতি সীমিত পরিস্থিতি
প্রান্ত কম্পিউটিং: প্রান্ত সার্ভার সম্পদ সীমিত পরিবেশ
বড় মডেল প্রশিক্ষণ: বড় মডেল প্রশিক্ষণ প্রয়োজন কিন্তু ডিভাইস সম্পদ অপর্যাপ্ত পরিস্থিতি

রেফারেন্স

পেপারটি FL ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, FedAvg, HeteroFL, FedRolex ইত্যাদি ক্লাসিক পদ্ধতি, এবং তথ্য বোতলজনক তত্ত্ব, HSIC ইত্যাদি তাত্ত্বিক ভিত্তি অন্তর্ভুক্ত করে, রেফারেন্স উদ্ধৃতি বেশ ব্যাপক এবং কর্তৃপক্ষী।

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চ-মানের ফেডারেটেড লার্নিং পেপার যা বাস্তব স্থাপনায় মূল সমস্যার জন্য উদ্ভাবনী সমাধান প্রস্তাব করে। পদ্ধতি ডিজাইন যুক্তিসঙ্গত, পরীক্ষামূলক যাচাইকরণ পর্যাপ্ত, তাত্ত্বিক বিশ্লেষণ সম্পূর্ণ, উল্লেখযোগ্য একাডেমিক এবং ব্যবহারিক মূল্য রয়েছে।