Model-Heterogeneous Federated Learning (Hetero-FL) has attracted growing attention for its ability to aggregate knowledge from heterogeneous models while keeping private data locally. To better aggregate knowledge from clients, ensemble distillation, as a widely used and effective technique, is often employed after global aggregation to enhance the performance of the global model. However, simply combining Hetero-FL and ensemble distillation does not always yield promising results and can make the training process unstable. The reason is that existing methods primarily focus on logit distillation, which, while being model-agnostic with softmax predictions, fails to compensate for the knowledge bias arising from heterogeneous models. To tackle this challenge, we propose a stable and efficient Feature Distillation for model-heterogeneous Federated learning, dubbed FedFD, that can incorporate aligned feature information via orthogonal projection to integrate knowledge from heterogeneous models better. Specifically, a new feature-based ensemble federated knowledge distillation paradigm is proposed. The global model on the server needs to maintain a projection layer for each client-side model architecture to align the features separately. Orthogonal techniques are employed to re-parameterize the projection layer to mitigate knowledge bias from heterogeneous models and thus maximize the distilled knowledge. Extensive experiments show that FedFD achieves superior performance compared to state-of-the-art methods.
- গবেষণাপত্র ID: 2507.10348
- শিরোনাম: Feature Distillation is the Better Choice for Model-Heterogeneous Federated Learning
- লেখক: Yichen Li, Xiuying Wang, Wenchao Xu, Haozhao Wang, Yining Qi, Jiahua Dong, Ruixuan Li
- শ্রেণীবিভাগ: cs.LG cs.AI
- প্রকাশনার সময়/সম্মেলন: ৩৯তম নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম সম্মেলন (NeurIPS 2025)
- গবেষণাপত্র লিঙ্ক: https://arxiv.org/abs/2507.10348
মডেল বিষমজাত যুক্ত শিক্ষা (Hetero-FL) ডেটা স্থানীয় গোপনীয়তা বজায় রেখে বিষমজাত মডেল জ্ঞান একত্রিত করার ক্ষমতার কারণে ব্যাপক মনোযোগ আকর্ষণ করেছে। ক্লায়েন্ট জ্ঞান আরও ভালভাবে একত্রিত করার জন্য, সমন্বিত পরিশোধন একটি ব্যাপকভাবে ব্যবহৃত এবং কার্যকর কৌশল হিসাবে, সাধারণত বৈশ্বিক মডেল কর্মক্ষমতা উন্নত করতে বৈশ্বিক একত্রীকরণের পরে ব্যবহৃত হয়। তবে, সহজভাবে Hetero-FL এবং সমন্বিত পরিশোধন একত্রিত করা সর্বদা ভাল ফলাফল দেয় না এবং প্রশিক্ষণ প্রক্রিয়ার অস্থিরতা সৃষ্টি করতে পারে। কারণটি হল বিদ্যমান পদ্ধতিগুলি প্রধানত লজিট পরিশোধনের উপর নির্ভর করে, যা softmax পূর্বাভাসের মাধ্যমে মডেল-অজ্ঞেয়বাদী হলেও বিষমজাত মডেল দ্বারা উত্পাদিত জ্ঞান পক্ষপাত ক্ষতিপূরণ করতে পারে না। এই চ্যালেঞ্জ মোকাবেলা করার জন্য, এই গবেষণাপত্র একটি স্থিতিশীল এবং দক্ষ বৈশিষ্ট্য পরিশোধন পদ্ধতি FedFD প্রস্তাব করে, যা সংযুক্ত বৈশিষ্ট্য তথ্য একীভূত করতে অর্থোগোনাল প্রজেকশন ব্যবহার করে বিষমজাত মডেল জ্ঞান আরও ভালভাবে একীভূত করে।
এই গবেষণার মূল সমস্যা হল মডেল বিষমজাত যুক্ত শিক্ষায় বিভিন্ন স্থাপত্য ক্লায়েন্ট মডেল থেকে জ্ঞান কার্যকরভাবে কীভাবে একত্রিত করা যায়। ঐতিহ্যবাহী যুক্ত শিক্ষা অনুমান করে যে সমস্ত ক্লায়েন্ট একই মডেল স্থাপত্য ব্যবহার করে, তবে বাস্তব IoT পরিবেশে বিভিন্ন ডিভাইসের বিভিন্ন গণনা সম্পদ এবং মডেল প্রশিক্ষণ ক্ষমতা রয়েছে।
- বাস্তব চাহিদা: IoT ডিভাইসের বিষমতা একীভূত মডেল স্থাপত্য অবাস্তব করে তোলে
- সম্পদ সর্বাধিকীকরণ: বিতরণকৃত গণনা সম্পদ সম্পূর্ণভাবে ব্যবহার করার প্রয়োজন
- গোপনীয়তা সুরক্ষা: ডেটা গোপনীয়তা রক্ষা করার সময় জ্ঞান ভাগাভাগি অর্জন করা
t-SNE ভিজ্যুয়ালাইজেশন বিশ্লেষণ এবং অভিজ্ঞতামূলক পরীক্ষার মাধ্যমে, লেখক আবিষ্কার করেছেন যে লজিট পরিশোধনের উপর ভিত্তি করে বিদ্যমান পদ্ধতিগুলি নিম্নলিখিত সমস্যাগুলি উপস্থাপন করে:
- প্রতিনিধিত্ব অস্পষ্টতা: একত্রিত লজিট প্রতিনিধিত্ব অস্পষ্ট শ্রেণীবিভাগ সীমানা রয়েছে
- প্রশিক্ষণ অস্থিরতা: বিষমজাত মডেল সেটিংসে প্রশিক্ষণ দোলন ঘটে
- জ্ঞান পক্ষপাত: বিভিন্ন মডেল স্থাপত্য দ্বারা আনা বৈশিষ্ট্য স্থান পার্থক্য পরিচালনা করতে পারে না
বিদ্যমান পদ্ধতির সীমাবদ্ধতার গভীর বিশ্লেষণের উপর ভিত্তি করে, লেখক লজিট পরিশোধনের পরিবর্তে বৈশিষ্ট্য পরিশোধন ব্যবহার করার প্রস্তাব দেন, অর্থোগোনাল প্রজেকশন প্রযুক্তির মাধ্যমে বিষমজাত মডেল জ্ঞান একত্রীকরণে পক্ষপাত সমস্যা সমাধান করতে।
- গভীর বিশ্লেষণ: মডেল-অজ্ঞেয়বাদী যুক্ত জ্ঞান পরিশোধনের গভীর বিশ্লেষণ প্রদান করে, বিদ্যমান পদ্ধতিগুলি প্রধানত লজিট পরিশোধনের উপর নির্ভর করে বিষমজাত মডেলের অধীনে সীমাবদ্ধতা চিহ্নিত করে
- নতুন কাঠামো প্রস্তাব: FedFD কাঠামো প্রস্তাব করে, যা একটি প্লাগ-এন্ড-প্লে ব্যক্তিগতকৃত উন্নতি মডিউল যা ঐতিহ্যবাহী পরিশোধন পদ্ধতির গোপনীয়তা সুরক্ষা এবং দক্ষতা বৈশিষ্ট্য উত্তরাধিকার করে
- কর্মক্ষমতা উন্নতি: একাধিক ডেটাসেট এবং সেটিংসে ব্যাপক পরীক্ষা পরিচালনা করেছে, অত্যাধুনিক পদ্ধতির তুলনায় পরীক্ষার নির্ভুলতায় ১৬.০৯% পর্যন্ত উন্নতি
K ক্লায়েন্টের যুক্ত শিক্ষা সমস্যা বিবেচনা করুন, প্রতিটি ক্লায়েন্ট k শুধুমাত্র তার স্থানীয় ব্যক্তিগত ডেটাসেট Dk={xk(i),yk(i)} অ্যাক্সেস করতে পারে। লক্ষ্য হল একটি বৈশ্বিক মডেল w শিখা যা মোট অভিজ্ঞতামূলক ক্ষতি কমায়:
minwL(w)=∑k=1K∣D∣∣Dk∣Lk(w)
যেখানে Lk(w)=∣Dk∣1∑i=1∣Dk∣LCE(w;xki,yki)
FedFD প্রথমে ক্লায়েন্ট মডেলগুলিকে স্থাপত্য অনুসারে গোষ্ঠীভুক্ত করে, প্রতিটি পরিশোধন নমুনা x এর জন্য, এক্সট্র্যাক্টর wkd এ এর বৈশিষ্ট্য প্রতিনিধিত্ব হল:
ekd=f(wkd;x),∀k∈[1,K]
তারপর বৈশিষ্ট্যগুলিকে m গোষ্ঠীতে বিভক্ত করুন {S1d,...,Smd}, প্রতিটি গোষ্ঠীতে একই কাঠামোর এক্সট্র্যাক্টর রয়েছে। একই গোষ্ঠীর মধ্যে বৈশিষ্ট্য প্রতিনিধিত্ব একত্রিত করুন:
ed=∣Sd∣1∑i=1∣Sd∣eid
জ্ঞান সংঘর্ষ সমস্যা সমাধানের জন্য, অর্থোগোনাল প্রজেকশন রূপান্তর ব্যবহার করুন। বিপরীত-প্রতিসম ম্যাট্রিক্স Wd এর মাধ্যমে প্রজেকশন স্তর Md তৈরি করুন:
exp(Wd)⋅exp(Wd)T=exp(Wd+WdT)=exp(−WdT+WdT)=I
যেখানে:
exp(Wd)=I+Wd+2!Wd2+3!Wd3+⋯+n!Wdn
বৈশিষ্ট্য প্রতিনিধিত্ব সংযোগ করতে KL বিচ্যুতি ব্যবহার করুন:
minw,{M2,...,Mm}m−11∑i=2mKL(Mi(wx),ei)
- লজিট থেকে বৈশিষ্ট্যে: প্রথমবারের মতো সিস্টেমেটিকভাবে লজিট পরিশোধনের সমস্যা বিষমজাত মডেলের অধীনে বিশ্লেষণ করেছে, বৈশিষ্ট্য পরিশোধন বিকল্প হিসাবে প্রস্তাব করেছে
- স্তরযুক্ত সংযোগ কৌশল: স্থাপত্য গোষ্ঠীকরণের মাধ্যমে প্রজেকশন স্তরের সংখ্যা হ্রাস করে, প্রশিক্ষণ দক্ষতা উন্নত করে
- অর্থোগোনাল প্রজেকশন প্রযুক্তি: বিপরীত-প্রতিসম ম্যাট্রিক্স ব্যবহার করে অর্থোগোনাল প্রজেকশন তৈরি করে, জ্ঞান সংঘর্ষ সমাধান করে এবং গণনা দক্ষতা বজায় রাখে
- মডুলার ডিজাইন: বিদ্যমান FL প্রযুক্তির সাথে নির্বিঘ্নে একীভূত হতে পারে
- CIFAR-10: ১০ শ্রেণী চিত্র শ্রেণীবিভাগ, ৫০,০০০ প্রশিক্ষণ নমুনা, ১০,০০০ পরীক্ষা নমুনা
- CIFAR-100: ১০০ শ্রেণী চিত্র শ্রেণীবিভাগ, ৫০,০০০ প্রশিক্ষণ নমুনা, ১০,০০০ পরীক্ষা নমুনা
- Tiny-ImageNet: ২০০ শ্রেণী চিত্র শ্রেণীবিভাগ, বৃহত্তর স্কেল ডেটাসেট
ডেটা বিষমতা অনুকরণ করতে Dirichlet বিতরণ Dir(α) ব্যবহার করুন, α মান যত ছোট হবে ডেটা বিতরণ তত অসমান হবে।
- পরীক্ষা নির্ভুলতা: বৈশ্বিক মডেল এবং স্থানীয় মডেলের শ্রেণীবিভাগ নির্ভুলতা
- যোগাযোগ দক্ষতা: লক্ষ্য নির্ভুলতা অর্জনের জন্য প্রয়োজনীয় যোগাযোগ রাউন্ড
- সংগ্রহ স্থিতিশীলতা: প্রশিক্ষণ প্রক্রিয়ার শেখার বক্ররেখা বিশ্লেষণ
- ক্লাসিক FL পদ্ধতি: HeteroFL, MOON-hetero
- সমজাত FL পদ্ধতি: FedFusion-hetero, FedGen-hetero, DaFKD-hetero
- বিষমজাত FL পদ্ধতি: FedMD, MSFKD, FedGD
- স্থানীয় প্রশিক্ষণ রাউন্ড E=10, যোগাযোগ রাউন্ড T=200, ক্লায়েন্ট সংখ্যা K=20, অংশগ্রহণের হার r=0.4
- ব্যাচ আকার 64, ওজন ক্ষয় 1e-4
- পরিশোধন শেখার হার 0.01, স্থানীয় প্রশিক্ষণ শেখার হার 0.001
- সার্ভার মডেল ResNet-18 ব্যবহার করে, ক্লায়েন্ট মডেলে ১০টি বিভিন্ন জটিলতা স্তর রয়েছে
সমস্ত ডেটাসেট এবং সেটিংসে, FedFD সর্বোত্তম কর্মক্ষমতা অর্জন করেছে:
| ডেটাসেট | α মান | HeteroFL | FedGD | FedFD | উন্নতি |
|---|
| CIFAR-10 | 1.0 | 87.53±0.15 | 87.22±0.13 | 89.64±0.23 | 2.11% |
| CIFAR-10 | 0.1 | 78.02±0.65 | 79.31±0.75 | 82.74±0.58 | 3.43% |
| CIFAR-100 | 1.0 | 57.42±0.12 | 58.03±0.26 | 60.86±0.10 | 2.83% |
| Tiny-ImageNet | 1.0 | 29.88±2.72 | 30.66±1.59 | 34.24±1.13 | 4.36% |
FedFD যোগাযোগ দক্ষতার ক্ষেত্রেও চমৎকার পারফরম্যান্স প্রদর্শন করেছে:
- CIFAR-10 ৮০% নির্ভুলতায় পৌঁছানো: FedFD ২০ রাউন্ড প্রয়োজন, HeteroFL ২৫ রাউন্ড প্রয়োজন
- CIFAR-100 ৬০% নির্ভুলতায় পৌঁছানো: FedFD ৬০ রাউন্ড প্রয়োজন, অন্যান্য পদ্ধতি ১৭১-২০০+ রাউন্ড প্রয়োজন
প্রতিটি উপাদানের গুরুত্ব যাচাই করেছে:
- বৈশিষ্ট্য সংযোগ সরান: কর্মক্ষমতা ০.৬৩-১.৫৬% হ্রাস পায়
- অর্থোগোনাল প্রজেকশন সরান: কর্মক্ষমতা ১.৬৮-২.৪৩% হ্রাস পায়
- উভয় উপাদান সরান: কর্মক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়, FedFusion স্তরে ফিরে যায়
শেখার বক্ররেখা তুলনার মাধ্যমে আবিষ্কার করেছে:
- সমজাত মডেলের অধীনে: সমস্ত লজিট পরিশোধন পদ্ধতি দ্রুত স্থিতিশীল সংগ্রহ করতে পারে
- বিষমজাত মডেলের অধীনে: লজিট পরিশোধন পদ্ধতি প্রশিক্ষণ দোলন প্রদর্শন করে, যখন FedFD স্থিতিশীল সংগ্রহ বজায় রাখে
আরও চরম ডেটা বিষমতা সেটিংসে (α=0.01) এবং বিভিন্ন মডেল স্থাপত্য সমন্বয়ের অধীনে, FedFD এখনও সর্বোত্তম কর্মক্ষমতা বজায় রাখে।
FedAvg এর সমজাত মডেল একত্রীকরণ থেকে বিষমজাত মডেল সমর্থনকারী পদ্ধতিতে বিকশিত হয়েছে, যেমন HeteroFL আংশিক প্যারামিটার একত্রীকরণের মাধ্যমে, NeFL নেস্টেড কাঠামোর মাধ্যমে বিভিন্ন গভীরতা মানিয়ে নেয়।
লজিট পরিশোধন এবং বৈশিষ্ট্য পরিশোধন দুটি প্রধান শ্রেণী অন্তর্ভুক্ত করে। এই গবেষণাপত্র যুক্ত শিক্ষায় বৈশিষ্ট্য পরিশোধনের প্রয়োগে ফোকাস করে, অর্থোগোনাল প্রজেকশন এবং সমন্বিত পরিশোধনের মাধ্যমে বিদ্যমান সীমাবদ্ধতা অতিক্রম করে।
বিদ্যমান পদ্ধতিগুলি প্রধানত লজিট পরিশোধনের উপর নির্ভর করে বা অতিরিক্ত প্রক্সি ডেটাসেটের প্রয়োজন। এই গবেষণাপত্র বিষমজাত মডেলের অধীনে এই পদ্ধতিগুলির সীমাবদ্ধতা বিশ্লেষণ করে।
- সমস্যা চিহ্নিতকরণ: লজিট পরিশোধন বিষমজাত মডেলের অধীনে জ্ঞান পক্ষপাত এবং প্রশিক্ষণ অস্থিরতা সমস্যা উপস্থাপন করে
- সমাধান: বৈশিষ্ট্য পরিশোধন অর্থোগোনাল প্রজেকশনের সাথে বিষমজাত মডেল জ্ঞান একত্রীকরণ সমস্যা কার্যকরভাবে সমাধান করতে পারে
- কর্মক্ষমতা যাচাইকরণ: FedFD বিভিন্ন সেটিংসে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করেছে
- গণনা ওভারহেড: বিভিন্ন স্থাপত্যের জন্য প্রজেকশন স্তর বজায় রাখতে হবে, সার্ভার-পক্ষ গণনা খরচ বৃদ্ধি করে
- স্থাপত্য নির্ভরতা: পদ্ধতির কার্যকারিতা ক্লায়েন্ট মডেল স্থাপত্যের বৈচিত্র্যের ডিগ্রীর উপর নির্ভর করতে পারে
- পরিশোধন ডেটা: এখনও পরিশোধনের জন্য সহায়ক ডেটাসেটের প্রয়োজন, যদিও ডেটা-মুক্ত পদ্ধতির সাথে একত্রিত হতে পারে
- সম্পূর্ণ ডেটা-মুক্ত বৈশিষ্ট্য পরিশোধন পদ্ধতি অন্বেষণ করুন
- আরও দক্ষ প্রজেকশন স্তর ডিজাইন গবেষণা করুন
- আরও বেশি মোডালিটি এবং কাজের ধরনে সম্প্রসারণ করুন
- সমস্যা অন্তর্দৃষ্টি গভীর: ভিজ্যুয়ালাইজেশন এবং অভিজ্ঞতামূলক বিশ্লেষণের মাধ্যমে বিদ্যমান পদ্ধতির মূল সমস্যা স্পষ্টভাবে চিহ্নিত করেছে
- পদ্ধতি ডিজাইন যুক্তিসঙ্গত: অর্থোগোনাল প্রজেকশন প্রযুক্তির ব্যবহার জ্ঞান সংঘর্ষ সমাধান করে এবং গণনা দক্ষতা বজায় রাখে
- পরীক্ষা ব্যাপক এবং পর্যাপ্ত: একাধিক ডেটাসেট, বিভিন্ন বিষমতা ডিগ্রী, বিলোপন পরীক্ষা অন্তর্ভুক্ত করে
- প্রকৌশল ব্যবহারিকতা শক্তিশালী: মডুলার ডিজাইন পদ্ধতি বিদ্যমান FL কাঠামোতে একীভূত করা সহজ করে তোলে
- তাত্ত্বিক বিশ্লেষণ অপর্যাপ্ত: বৈশিষ্ট্য পরিশোধন লজিট পরিশোধনের চেয়ে কেন উন্নত তার তাত্ত্বিক ব্যাখ্যা অনুপস্থিত
- গণনা জটিলতা বিশ্লেষণ: অর্থোগোনাল প্রজেকশনের গণনা ওভারহেড বিস্তারিতভাবে বিশ্লেষণ করা হয়নি
- বড় স্কেল যাচাইকরণ সীমিত: পরীক্ষা প্রধানত মাঝারি স্কেল ডেটাসেটে পরিচালিত হয়েছে
- একাডেমিক মূল্য: বিষমজাত যুক্ত শিক্ষার জন্য নতুন প্রযুক্তি পথ প্রদান করে
- ব্যবহারিক মূল্য: বাস্তব IoT পরিস্থিতিতে সরাসরি প্রয়োগ করা যায়
- অনুপ্রেরণা তাৎপর্য: যুক্ত শিক্ষায় জ্ঞান পরিশোধন গবেষণার জন্য নতুন চিন্তাভাবনা প্রদান করে
- IoT ডিভাইস যুক্ত শিক্ষা: বিভিন্ন গণনা ক্ষমতার ডিভাইস সহযোগিতামূলক প্রশিক্ষণ
- ক্রস-প্রতিষ্ঠান সহযোগিতা: বিভিন্ন সংস্থা বিভিন্ন মডেল স্থাপত্য ব্যবহার করার সময় জ্ঞান ভাগাভাগি
- প্রান্ত গণনা: সম্পদ-সীমিত পরিবেশে বিতরণকৃত শিক্ষা
এই গবেষণাপত্র যুক্ত শিক্ষা, জ্ঞান পরিশোধন এবং যুক্ত পরিশোধন ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করেছে, যার মধ্যে রয়েছে:
- FedAvg 34: যুক্ত শিক্ষার ভিত্তিস্থাপক কাজ
- HeteroFL 6: বিষমজাত যুক্ত শিক্ষার প্রতিনিধিত্বমূলক পদ্ধতি
- জ্ঞান পরিশোধন সম্পর্কিত কাজ 14, 15, 44: এই গবেষণাপত্রের জন্য তাত্ত্বিক ভিত্তি প্রদান করেছে
- যুক্ত পরিশোধন পদ্ধতি 33, 49, 58: এই গবেষণাপত্রের সরাসরি তুলনামূলক মানদণ্ড
এই গবেষণাপত্র বিষমজাত যুক্ত শিক্ষা ক্ষেত্রে গুরুত্বপূর্ণ উদ্ভাবন প্রস্তাব করেছে, বিদ্যমান পদ্ধতির সীমাবদ্ধতার গভীর বিশ্লেষণ এবং কার্যকর সমাধান প্রস্তাবের মাধ্যমে এই ক্ষেত্রের উন্নয়নে মূল্যবান অবদান রেখেছে। পদ্ধতির মডুলার ডিজাইন এবং চমৎকার পরীক্ষামূলক ফলাফল এটিকে অত্যন্ত ব্যবহারিক মূল্য প্রদান করে।