Nowdays, there are an abundance of portable devices capable of collecting large amounts of data and with decent computational power. This opened the possibility to train AI models in a distributed manner, preserving the participating clients' privacy. However, because of privacy regulations and safety requirements, elimination upon necessity of a client contribution to the model has become mandatory. The cleansing process must satisfy specific efficacy and time requirements. In recent years, research efforts have produced several knowledge removal methods, but these require multiple communication rounds between the data holders and the process coordinator. This can cause the unavailability of an effective model up to the end of the removal process, which can result in a disservice to the system users. In this paper, we introduce an innovative solution based on Task Arithmetic and the Neural Tangent Kernel, to rapidly remove a client's influence from a model.
- पेपर ID: 2510.13606
- शीर्षक: Towards Robust Knowledge Removal in Federated Learning with High Data Heterogeneity
- लेखक: Riccardo Santi, Riccardo Salami, Simone Calderara (University of Modena and Reggio Emilia, Italy)
- वर्गीकरण: cs.LG (मशीन लर्निंग)
- प्रकाशन समय: 15 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.13606v1
पोर्टेबल उपकरणों की कम्प्यूटिंग क्षमता और डेटा संग्रह क्षमता में वृद्धि के साथ, वितरित AI मॉडल प्रशिक्षण संभव हो गया है, जबकि भाग लेने वाले क्लाइंट की गोपनीयता की रक्षा की जाती है। हालांकि, गोपनीयता विनियमों और सुरक्षा आवश्यकताओं के कारण, आवश्यकता पड़ने पर क्लाइंट के मॉडल में योगदान को समाप्त करना अनिवार्य आवश्यकता बन गई है। सफाई प्रक्रिया को विशिष्ट दक्षता और समय आवश्यकताओं को पूरा करना चाहिए। हाल के वर्षों के अनुसंधान ने कई ज्ञान हटाने की विधियां तैयार की हैं, लेकिन ये विधियां डेटा धारक और प्रक्रिया समन्वयक के बीच बहु-दौर संचार की आवश्यकता रखती हैं, जिससे हटाने की प्रक्रिया के अंत से पहले प्रभावी मॉडल अनुपलब्ध हो सकता है, जिससे सिस्टम उपयोगकर्ताओं को सेवा में व्यवधान का सामना करना पड़ता है। यह पेपर कार्य अंकगणित (Task Arithmetic) और तंत्रिका स्पर्शरेखा कर्नेल (Neural Tangent Kernel) के आधार पर क्लाइंट प्रभाव को तेजी से हटाने का एक नवीन समाधान प्रस्तावित करता है।
इस अनुसंधान द्वारा हल की जाने वाली मूल समस्या संघीय विस्मृति (Federated Unlearning, FU) है: संघीय शिक्षा वातावरण में विशिष्ट क्लाइंट के वैश्विक मॉडल में योगदान को तेजी से और प्रभावी ढंग से हटाना, जबकि मॉडल प्रदर्शन और गोपनीयता सुरक्षा को बनाए रखना।
- नियामक अनुपालन: GDPR, CCPA जैसे गोपनीयता विनियमों के लिए "भूल जाने का अधिकार" की आवश्यकता है
- सुरक्षा आवश्यकताएं: दुर्भावनापूर्ण या प्रदूषित क्लाइंट डेटा योगदान को हटाने की आवश्यकता है
- चिकित्सा जैसे संवेदनशील क्षेत्र: रोगी डेटा वापसी की आवश्यकता
- सेवा निरंतरता: पारंपरिक विधियों को बहु-दौर संचार की आवश्यकता है, जिससे मॉडल लंबे समय तक अनुपलब्ध रहता है
- FedEraser जैसी विधियों को सफाई मॉडल तैयार करने के लिए बहु-दौर संचार की आवश्यकता है
- विस्मृति प्रक्रिया के दौरान मॉडल अनुपलब्ध है, जिससे सेवा में व्यवधान होता है
- उच्च डेटा विषमता वातावरण में मजबूतता अपर्याप्त है
एकल-दौर संचार के भीतर क्लाइंट विस्मृति को पूरा करने में सक्षम विधि प्रस्तावित करना, सेवा में व्यवधान के समय को कम करना, जबकि उच्च डेटा विषमता वातावरण में अच्छा प्रदर्शन बनाए रखना।
- SATA विधि प्रस्तावित करना: कार्य अंकगणित और तंत्रिका स्पर्शरेखा कर्नेल के आधार पर नई संघीय विस्मृति विधि, जो एकल-दौर संचार में क्लाइंट विस्मृति को पूरा कर सकती है
- नवीन दोहरी कार्य वेक्टर तंत्र: प्रत्येक क्लाइंट दो स्वतंत्र कार्य वेक्टर बनाए रखता है, जहां स्वतंत्र कार्य वेक्टर विशेष रूप से विस्मृति संचालन के लिए है
- NTK-वर्धित कार्य अंकगणित: तंत्रिका स्पर्शरेखा कर्नेल प्रशिक्षण का उपयोग करके कार्य वेक्टर की विघटनशीलता में सुधार, कार्य हस्तक्षेप को कम करना
- व्यापक प्रायोगिक सत्यापन: Cars-196 और Resisc45 डेटासेट पर कई आधारभूत विधियों के साथ तुलना, विधि की प्रभावशीलता को प्रमाणित करना
इनपुट:
- पूर्व-प्रशिक्षित मॉडल पैरामीटर θ₀
- K क्लाइंट के स्थानीय डेटासेट {D₁, D₂, ..., Dₖ}
- लक्ष्य विस्मृति क्लाइंट tgt
आउटपुट:
- सफाई किया गया वैश्विक मॉडल θ̂clean, लक्ष्य क्लाइंट के प्रभाव को हटाया गया
- अन्य क्लाइंट योगदान के मॉडल प्रदर्शन को बनाए रखना
बाधा शर्तें:
- एकल-दौर संचार में विस्मृति पूरी करना
- क्लाइंट गोपनीयता की रक्षा करना
- गैर-लक्ष्य क्लाइंट डेटा पर मॉडल प्रदर्शन बनाए रखना
प्रत्येक क्लाइंट k दो स्वतंत्र कार्य वेक्टर बनाए रखता है:
- प्राथमिक कार्य वेक्टर τₖ: वितरित प्रशिक्षण प्रक्रिया में भाग लेता है, वैश्विक मॉडल गणना में योगदान देता है
- स्वतंत्र कार्य वेक्टर τₖˢᵃ: अलग-थलग रहता है, अन्य क्लाइंट की जानकारी से प्रदूषित नहीं, भविष्य की विस्मृति संचालन के लिए विशेष रूप से है
कार्य अंकगणित सिद्धांत के आधार पर, कार्य वेक्टर τₜ = θₜ - θ₀ विशिष्ट कार्य पर सूक्ष्म-ट्यूनिंग के बाद मॉडल में पैरामीटर परिवर्तन का प्रतिनिधित्व करता है। कई कार्य वेक्टर को संयोजित करना:
θnew = θ₀ + ∑ᵢ₌₁ᵀ λᵢτᵢ
जहां λᵢ अदिश भार गुणांक है।
जब लक्ष्य क्लाइंट tgt को विस्मृत करने की आवश्यकता होती है, तो बस इसके स्वतंत्र कार्य वेक्टर को वैश्विक मॉडल से घटाएं:
θ̂clean = θ̂ - λtgt τₜₒₜˢᵃ
अनंत चौड़ाई सीमा में तंत्रिका नेटवर्क शिक्षा गतिविधि को रैखिकीकृत करने की तंत्रिका स्पर्शरेखा कर्नेल की विशेषता का उपयोग:
flin(x; θ) = f(x; θ₀) + (θ - θ₀)ᵀ∇θf(x; θ₀)
NTK regime में प्रशिक्षण कार्य वेक्टर की विघटनशीलता में सुधार, अंतिम मॉडल को इस रूप में व्यक्त किया जा सकता है:
flin(x; θᵣ₋₁ + ∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ) = f(x; θᵣ₋₁) + (∑ₖ₌₁ᴷ λₖτₖ - λtgt τₜₒₜˢᵃ)ᵀ∇θf(x; θᵣ₋₁)
- एकल-दौर विस्मृति: बहु-दौर संचार की आवश्यकता वाली पारंपरिक विधियों के विपरीत, SATA एकल-दौर में विस्मृति को पूरा करता है
- स्वतंत्र कार्य वेक्टर डिजाइन: स्वतंत्र कार्य वेक्टर बनाए रखने के माध्यम से पुनः प्रशिक्षण की आवश्यकता से बचा जाता है
- NTK वर्धन: कार्य वेक्टर के बीच विघटनशीलता में सुधार, विस्मृति संचालन के अन्य क्लाइंट योगदान पर प्रभाव को कम करना
- सैद्धांतिक आधार: कार्य अंकगणित के आधार पर, एक व्याख्यात्मक विस्मृति तंत्र प्रदान करता है
- Cars-196: 196 श्रेणियों के साथ ऑटोमोबाइल छवि डेटासेट, श्रेणियां वाहन ब्रांड, मॉडल और वर्ष के अनुरूप हैं
- Resisc45: 45 श्रेणियों के साथ दूरसंवेदन छवि डेटासेट
दोनों डेटासेट Dirichlet वितरण का उपयोग करके गैर-IID विभाजन के लिए उपयोग किए जाते हैं, पैरामीटर β डेटा तिरछापन की डिग्री को नियंत्रित करता है (β जितना छोटा, डेटा वितरण उतना अधिक तिरछा)।
- वैश्विक मॉडल सटीकता: परीक्षण सेट पर वर्गीकरण सटीकता
- लक्ष्य क्लाइंट विस्मृति प्रभाव: लक्ष्य क्लाइंट परीक्षण डेटा पर सटीकता (जितना कम उतना अच्छा)
- लक्ष्य क्लाइंट प्रशिक्षण डेटा विस्मृति: लक्ष्य क्लाइंट प्रशिक्षण डेटा पर सटीकता (जितना कम उतना अच्छा)
- Train From Scratch (TFS): पूर्व-प्रशिक्षण से शुरू करके पुनः प्रशिक्षण (ऊपरी सीमा आधारभूत)
- Continue to Train (CTT): केवल लक्ष्य क्लाइंट को बाहर करके प्रशिक्षण जारी रखना, आपदाजनक विस्मृति का उपयोग करना
- FedEraser: ऐतिहासिक क्लाइंट अपडेट के आधार पर वैश्विक मॉडल पुनर्निर्माण करने वाली सबसे प्रसिद्ध FU विधि
- मॉडल: OpenAI CLIP के आधार पर ViT-B/16, वर्गीकरण सिर को फ्रीज किया गया
- अनुकूलक: AdamW
- प्रायोगिक सेटअप:
- Resisc45: 3 दौर FL + 3 दौर FU + विस्तारित PU दौर
- Cars-196: 10 दौर FL + 10 दौर FU + 5 दौर PU
- हाइपरपैरामीटर: ग्रिड खोज के माध्यम से λtgt और सीखने की दर को अनुकूलित किया गया
लक्ष्य क्लाइंट परीक्षण सेट सटीकता के संदर्भ में, SATA NTK सभी सेटिंग में प्रतिस्पर्धी विधियों से काफी बेहतर है:
Resisc45 डेटासेट:
- β=0.05: FU चरण 9.96% बनाम FedEraser का 56.79%
- β=0.1: FU चरण 31.69% बनाम FedEraser का 80.10%
- β=0.5: FU चरण 14.29% बनाम FedEraser का 89.95%
Cars196 डेटासेट:
- β=0.05: FU चरण 1.48% बनाम FedEraser का 56.04%
- β=0.1: FU चरण 6.36% बनाम FedEraser का 58.32%
- β=0.5: FU चरण 0.27% बनाम FedEraser का 69.93%
हालांकि SATA विस्मृति प्रभाव में उत्कृष्ट प्रदर्शन करता है, लेकिन वैश्विक मॉडल सटीकता में अन्य विधियों से थोड़ा कम है, विशेष रूप से FU चरण में:
प्रदर्शन में गिरावट विश्लेषण:
- उच्च विषमता (कम β मान) वातावरण में प्रदर्शन में अधिक गिरावट
- PU चरण के बाद प्रदर्शन अन्य विधियों के स्तर के करीब पुनः प्राप्त हो सकता है
NTK प्रशिक्षण के साथ और बिना प्रभाव की तुलना:
- SATA बनाम SATA NTK: NTK प्रशिक्षण हमेशा विस्मृति प्रदर्शन में सुधार करता है
- SAFA बनाम SAFA NTK: SAFA (Stand Alone FedAvg) वैश्विक सटीकता पर अधिक है, लेकिन विस्मृति प्रभाव थोड़ा कम है
- θ₀ + ∑ᵢ≠tgt λᵢτᵢˢᵃ: केवल शेष क्लाइंट के स्वतंत्र कार्य वेक्टर का उपयोग करना
- θ̂ - λtgt τₜₒₜˢᵃ: वैश्विक मॉडल से लक्ष्य क्लाइंट योगदान को घटाना (SATA विधि)
परिणाम दर्शाते हैं कि SATA विधि विस्मृति प्रभाव में अधिक प्रभावी है।
Figure 1 के दृश्य परिणामों से देखा जा सकता है:
- SATA लक्ष्य क्लाइंट सटीकता पर न्यूनतम मान प्राप्त करता है
- वैश्विक सटीकता पर हालांकि गिरावट है, लेकिन PU चरण में तेजी से पुनः प्राप्त हो सकता है
- β मान जितना अधिक (डेटा विषमता जितनी कम), विधि प्रदर्शन उतना बेहतर
- एकल-दौर विस्मृति की प्रभावशीलता: SATA एकल-दौर संचार में प्रभावी विस्मृति को सफलतापूर्वक लागू करता है
- NTK की महत्ता: NTK प्रशिक्षण कार्य अंकगणित प्रभाव में काफी सुधार करता है
- डेटा विषमता का प्रभाव: उच्च विषमता वातावरण में विधि को अधिक चुनौतियों का सामना करना पड़ता है
- तेजी से पुनः प्राप्ति क्षमता: PU चरण मॉडल प्रदर्शन को तेजी से पुनः प्राप्त कर सकता है
- FedAvg: पैरामीटर औसत एकत्रीकरण की आधारभूत विधि
- FedProx: विषमता को संभालने के लिए निकटता पद का परिचय
- SCAFFOLD: क्लाइंट ड्रिफ्ट को कम करने के लिए नियंत्रण चर का उपयोग
- FedDC: स्थानीय ड्रिफ्ट का अनुमान लगाकर और सुधार करके अपडेट को समायोजित करना
- केंद्रीकृत विस्मृति: पारंपरिक मशीन विस्मृति विधियां संघीय सेटिंग के लिए उपयुक्त नहीं हैं
- संघीय विस्मृति: FedEraser, FedRecover, FedRecovery आदि विधियां
- पूर्व-प्रशिक्षित मॉडल संपादन के लिए रैखिक संचालन ढांचा
- NTK-वर्धित कार्य अंकगणित का सैद्धांतिक आधार
- एकल-दौर संचार के भीतर संघीय विस्मृति को पूरा करने में सक्षम पहली प्रभावी विधि प्रस्तावित की
- कार्य अंकगणित और NTK के आधार पर सैद्धांतिक ढांचा अच्छी व्याख्यात्मकता प्रदान करता है
- कई डेटा विषमता सेटिंग में विधि की प्रभावशीलता को सत्यापित किया
- विस्मृति प्रक्रिया में सेवा में व्यवधान के समय को काफी कम किया
- उच्च विषमता चुनौती: उच्च Dirichlet गुणांक (कम विषमता) वातावरण में प्रदर्शन सीमित है
- वैश्विक प्रदर्शन में गिरावट: विस्मृति प्रक्रिया के दौरान वैश्विक मॉडल सटीकता में कुछ गिरावट
- दोहरी-वेक्टर ओवरहेड: अतिरिक्त स्वतंत्र कार्य वेक्टर बनाए रखने की आवश्यकता, भंडारण और कम्प्यूटिंग लागत में वृद्धि
- हाइपरपैरामीटर संवेदनशीलता: λtgt जैसे पैरामीटर को सावधानीपूर्वक ट्यून करने की आवश्यकता है
- उच्च Dirichlet गुणांक के तहत प्रदर्शन सीमाओं को हल करना
- अन्य मोडल और संघीय सेटिंग में अनुकूलन की खोज करना
- वैश्विक मॉडल प्रदर्शन संरक्षण को और अनुकूलित करना
- स्वचालित हाइपरपैरामीटर चयन विधियों का अनुसंधान करना
- मजबूत नवाचार: पहली बार एकल-दौर संघीय विस्मृति को लागू किया, वास्तविक अनुप्रयोग में महत्वपूर्ण समस्या को हल किया
- ठोस सैद्धांतिक आधार: कार्य अंकगणित और NTK के आधार पर ठोस सैद्धांतिक आधार
- उच्च व्यावहारिक मूल्य: सेवा में व्यवधान के समय को काफी कम किया, सिस्टम उपलब्धता में सुधार
- पूर्ण प्रयोग: कई डेटासेट और विभिन्न विषमता सेटिंग में व्यापक मूल्यांकन
- सरल विधि: मूल विचार सरल और सहज है, समझने और लागू करने में आसान
- प्रदर्शन व्यापार-बंद: विस्मृति प्रभाव और वैश्विक प्रदर्शन के बीच स्पष्ट व्यापार-बंद
- विषमता सीमा: कुछ विषमता सेटिंग में प्रदर्शन आदर्श नहीं है
- संसाधन ओवरहेड: दोहरी कार्य वेक्टर तंत्र अतिरिक्त भंडारण और कम्प्यूटिंग लागत जोड़ता है
- सैद्धांतिक विश्लेषण अपर्याप्त: विधि अभिसरण और सैद्धांतिक गारंटी के गहन विश्लेषण की कमी
- शैक्षणिक योगदान: संघीय विस्मृति क्षेत्र के लिए नई अनुसंधान दिशा प्रदान करता है
- व्यावहारिक मूल्य: वास्तविक तैनाती में महत्वपूर्ण समस्या को हल करता है, महत्वपूर्ण अनुप्रयोग संभावना है
- तकनीकी प्रेरणा: संघीय शिक्षा में कार्य अंकगणित का अनुप्रयोग प्रेरणादायक है
- समय-संवेदनशील सिस्टम: तेजी से विस्मृति प्रतिक्रिया की आवश्यकता वाली वास्तविक समय सेवाएं
- उच्च-आवृत्ति विस्मृति आवश्यकता: गतिशील वातावरण जहां अक्सर क्लाइंट को हटाने की आवश्यकता होती है
- संसाधन-पर्याप्त वातावरण: दोहरी-वेक्टर भंडारण ओवरहेड को सहन कर सकने वाली प्रणालियां
- मध्यम-कम विषमता वातावरण: डेटा वितरण अपेक्षाकृत समान संघीय शिक्षा परिदृश्य
यह पेपर 34 संबंधित संदर्भों का हवाला देता है, जो संघीय शिक्षा, मशीन विस्मृति, कार्य अंकगणित और अन्य संबंधित क्षेत्रों के महत्वपूर्ण कार्यों को शामिल करता है, अनुसंधान के लिए पर्याप्त सैद्धांतिक आधार और तुलनात्मक आधारभूत प्रदान करता है।
समग्र मूल्यांकन: यह संघीय विस्मृति क्षेत्र में महत्वपूर्ण योगदान वाला एक पेपर है, जो प्रस्तावित एकल-दौर विस्मृति विधि वास्तविक अनुप्रयोग में महत्वपूर्ण समस्या को हल करती है। हालांकि कुछ पहलुओं में सीमाएं हैं, लेकिन इसकी नवाचार और व्यावहारिक मूल्य इसे इस क्षेत्र में महत्वपूर्ण प्रगति बनाती है।