Disclosing private information via publication of a machine learning model is often a concern. Intuitively, publishing a learned model should be less risky than publishing a dataset. But how much risk is there? In this paper, we present a principled disclosure metric called \emph{gradient uniqueness} that is derived from an upper bound on the amount of information disclosure from publishing a learned model. Gradient uniqueness provides an intuitive way to perform privacy auditing. The mathematical derivation of gradient uniqueness is general, and does not make any assumption on the model architecture, dataset type, or the strategy of an attacker. We examine a simple defense based on monitoring gradient uniqueness, and find that it achieves privacy comparable to classical methods such as DP-SGD, while being substantially better in terms of (utility) testing accuracy.
- पेपर ID: 2510.10902
- शीर्षक: ग्रेडिएंट डिसेंट के दौरान सूचना प्रकटीकरण को ग्रेडिएंट विशिष्टता का उपयोग करके परिमाणित करना
- लेखक: महमूद अब्देलघफार (राइस विश्वविद्यालय), मरियम अलियाकबरपूर (राइस विश्वविद्यालय), क्रिस जर्मेन (राइस विश्वविद्यालय)
- वर्गीकरण: cs.LG stat.ML
- प्रकाशन तिथि: 13 अक्टूबर 2025
- पेपर लिंक: https://arxiv.org/abs/2510.10902v1
मशीन लर्निंग मॉडल को प्रकाशित करना निजी सूचना को लीक कर सकता है, जो एक महत्वपूर्ण गोपनीयता समस्या है। सहज रूप से, प्रशिक्षित मॉडल को प्रकाशित करना सीधे डेटासेट प्रकाशित करने की तुलना में कम जोखिम भरा होना चाहिए, लेकिन वास्तविक जोखिम कितना बड़ा है? यह पेपर सिद्धांत-आधारित प्रकटीकरण माप विधि प्रस्तावित करता है - ग्रेडिएंट विशिष्टता (Gradient Uniqueness, GNQ)। यह विधि सीखे गए मॉडल को प्रकाशित करते समय सूचना प्रकटीकरण की मात्रा के ऊपरी सीमा के गणितीय व्युत्पन्न से उत्पन्न होती है। ग्रेडिएंट विशिष्टता गोपनीयता ऑडिट के लिए एक सहज विधि प्रदान करती है, जिसका गणितीय व्युत्पन्न सार्वभौमिक है और मॉडल आर्किटेक्चर, डेटासेट प्रकार या आक्रमणकारी रणनीति पर कोई धारणा नहीं बनाता है। अनुसंधान से पता चलता है कि GNQ निगरानी के आधार पर सरल रक्षा विधि DP-SGD जैसी शास्त्रीय विधियों के साथ गोपनीयता सुरक्षा में तुलनीय है, साथ ही परीक्षण सटीकता में बेहतर प्रदर्शन करती है।
यह अनुसंधान जो मूल समस्या को हल करना चाहता है वह है: मशीन लर्निंग मॉडल प्रकाशन प्रक्रिया के दौरान गोपनीयता रिसाव जोखिम को कैसे परिमाणित किया जाए। विशेष रूप से, जब स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) का उपयोग करके मॉडल को प्रशिक्षित किया जाता है और अंतिम मॉडल पैरामीटर प्रकाशित किए जाते हैं, तो एक आक्रमणकारी प्रशिक्षण डेटा के बारे में कितनी जानकारी का अनुमान लगा सकता है?
- व्यावहारिक आवश्यकता तीव्र है: आधुनिक AI प्रणालियों (जैसे बड़े भाषा मॉडल) की प्रशिक्षण लागत अत्यधिक है, संगठन गोपनीयता सुरक्षा के लिए प्रशिक्षण एल्गोरिदम को महत्वपूर्ण रूप से संशोधित करने के लिए अनिच्छुक हैं
- मौजूदा विधियों की सीमाएं: विभेदक गोपनीयता (DP-SGD) सैद्धांतिक गारंटी प्रदान करती है, लेकिन मॉडल प्रदर्शन को गंभीर रूप से नुकसान पहुंचाती है
- परिमाणीकरण साधनों की कमी: मौजूदा विधियां मुख्य रूप से हमले के प्रयोगों पर आधारित हैं, सिद्धांत-समर्थित गोपनीयता जोखिम परिमाणीकरण संकेतकों की कमी है
- विभेदक गोपनीयता विधि बहुत रूढ़िवादी है: DP-SGD को प्रत्येक ग्रेडिएंट पर शोर जोड़ने और क्लिपिंग की आवश्यकता है, जिससे मॉडल प्रदर्शन में गंभीर गिरावट आती है
- हमले-आधारित ऑडिट विधि: विशिष्ट हमले की रणनीति पर निर्भर है, सार्वभौमिकता और सैद्धांतिक आधार की कमी है
- सबसे खराब स्थिति की धारणा: मौजूदा सैद्धांतिक विश्लेषण अक्सर सबसे खराब स्थिति पर आधारित होते हैं, व्यावहारिक अनुप्रयोगों में बहुत निराशावादी होते हैं
इस पेपर का मूल विचार है: चूंकि SGD में स्वयं स्टोकेस्टिकिटी है, क्या हम प्रशिक्षण एल्गोरिदम को संशोधित किए बिना जोखिम को परिमाणित करने के लिए इस आंतरिक गोपनीयता सुरक्षा विशेषता का उपयोग कर सकते हैं? यह दृष्टिकोण व्यावहारिक अनुप्रयोग आवश्यकताओं के अनुरूप है।
- ग्रेडिएंट विशिष्टता (GNQ) संकेतक प्रस्तावित करना: सूचना सिद्धांत व्युत्पन्न गोपनीयता जोखिम माप विधि, सूचना रिसाव ऊपरी सीमा के साथ एकरस संबंधित
- सैद्धांतिक सार्वभौमिकता: गणितीय व्युत्पन्न मॉडल आर्किटेक्चर, डेटासेट प्रकार या आक्रमणकारी रणनीति पर निर्भर नहीं है, व्यापक प्रयोज्यता है
- अनुभवजन्य सत्यापन: GNQ विभिन्न हमलों की सफलता दर को प्रभावी ढंग से भविष्यवाणी और व्याख्या कर सकता है
- सरल और प्रभावी रक्षा विधि: GNQ रैंकिंग के आधार पर उच्च जोखिम डेटा बिंदुओं को हटाना, मॉडल उपयोगिता बनाए रखते हुए गोपनीयता सुरक्षा प्रदान करता है
सार्वजनिक डेटासेट D={dj}j=1N दिया गया है, जिससे प्रतिस्थापन के बिना समान रूप से नमूना लिया जाता है निजी प्रशिक्षण सेट Dt प्राप्त करने के लिए। पैरामीटरयुक्त मॉडल hθ को प्रशिक्षित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट का उपयोग करें, आक्रमणकारी अंतिम मॉडल पैरामीटर θNr को देखता है, लक्ष्य यह अनुमान लगाना है कि क्या कोई डेटा बिंदु dj प्रशिक्षण सेट Dt में है।
परिभाषा 1 (ग्रेडिएंट विशिष्टता): प्रशिक्षण बैच i के लिए, डेटा बिंदु dj की ग्रेडिएंट विशिष्टता बैच i के सापेक्ष को निम्नानुसार परिभाषित किया गया है:
GNQij=gijTS+gij
जहां:
- S=∑k=1,k=jNgikgikT∈RNp×Np
- S+ मूर-पेनरोज़ छद्म-व्युत्क्रम को दर्शाता है
- gij=∇θ[ℓ[θi,dj]]∈RNp डेटा बिंदु dj पर हानि फ़ंक्शन की ग्रेडिएंट है
प्रमेय (अनौपचारिक संस्करण): कोई भी आक्रमणकारी θNr की जांच करके यह निर्धारित करने के लिए कि dj∈Dt है, जो सूचना निकाल सकता है (बिट्स में) उसे एक ऐसे फ़ंक्शन द्वारा ऊपरी सीमा दी जाती है जो ∑i=1Nr−1GNQij के साथ एकरस रूप से बढ़ता है।
GNQ की गणना को ज्यामितीय रूप से इस प्रकार दर्शाया जा सकता है:
- सभी ग्रेडिएंट को सारांशित करने वाली एक दीर्घवृत्त का निर्माण करें
- GNQij डेटा बिंदु dj की ग्रेडिएंट की इस दीर्घवृत्त के सापेक्ष विसंगति को मापता है
- ग्रेडिएंट जितना अधिक "अद्वितीय" है (अन्य ग्रेडिएंट की दिशा से विचलित), GNQ मान उतना अधिक है, गोपनीयता जोखिम उतना अधिक है
- सूचना सिद्धांत आधार: पारस्परिक सूचना सिद्धांत पर आधारित, GNQ और सूचना रिसाव ऊपरी सीमा के बीच गणितीय संबंध स्थापित किया गया है
- हमले-अज्ञेयवाद: विशिष्ट हमले की विधि पर निर्भर नहीं है, सार्वभौमिक गोपनीयता जोखिम मूल्यांकन प्रदान करता है
- ज्यामितीय व्याख्या: ग्रेडिएंट स्पेस की ज्यामितीय विश्लेषण के माध्यम से, जोखिम की सहज समझ प्रदान करता है
- कम्प्यूटेशनल दक्षता: विकर्णकरण सन्निकटन जैसी तकनीकें प्रस्तावित करता है, विधि को बड़े पैमाने के मॉडल के लिए लागू बनाता है
- MNIST: हस्तलिखित अंक पहचान
- CIFAR-10/100: प्राकृतिक छवि वर्गीकरण
- AT&T Database of Faces: चेहरे की पहचान
- Tiny ImageNet: बड़े पैमाने की छवि वर्गीकरण
- IMDB: भावना विश्लेषण
- MLP: बहु-परत परसेप्ट्रॉन
- CNN: कनवोल्यूशनल न्यूरल नेटवर्क
- ResNet: अवशिष्ट नेटवर्क (कंप्यूटर दृष्टि)
- BERT: ट्रांसफॉर्मर-आधारित पाठ वर्गीकारक
- गोपनीयता सुरक्षा: सदस्यता अनुमान हमले (MIA) की AUC ROC मान
- मॉडल उपयोगिता: परीक्षण सेट सटीकता
- पुनर्निर्माण हमला: मॉडल उलटा हमले की पुनर्निर्माण गुणवत्ता
- Baseline: गोपनीयता सुरक्षा के बिना मानक प्रशिक्षण
- DP-SGD: विभेदक गोपनीयता स्टोकेस्टिक ग्रेडिएंट डिसेंट (ϵ∈{2,8,512})
- GNQ-based: ग्रेडिएंट विशिष्टता पर आधारित रक्षा विधि
तालिका 1 GNQ फ़िल्टरिंग विधि और DP-SGD की तुलना दिखाती है:
| डेटासेट | मॉडल | सेटअप | AUC ROC | परीक्षण सटीकता |
|---|
| CIFAR10 | ResNet | Baseline | 0.7294 | 80.80% |
| | शीर्ष-10% GNQ हटाया गया | 0.5122 | 71.33% |
| | DP-SGD (ε=2) | 0.5008 | 41.83% |
| CIFAR100 | ResNet | Baseline | 0.8752 | 49.58% |
| | शीर्ष-20% GNQ हटाया गया | 0.5137 | 34.92% |
| | DP-SGD (ε=2) | 0.5015 | 6.83% |
मुख्य निष्कर्ष:
- GNQ विधि MIA हमले की सफलता दर को यादृच्छिक अनुमान स्तर तक कम कर सकती है (AUC ≈ 0.5)
- समान गोपनीयता सुरक्षा स्तर पर, GNQ विधि की मॉडल सटीकता DP-SGD से काफी अधिक है
- CIFAR100 के लिए, DP-SGD की सटीकता केवल 6.83% है, जबकि GNQ विधि 34.92% तक पहुंचती है
चित्र 5 विभिन्न डेटासेट पर GNQ और MIA हमले की सफलता दर के बीच संबंध दिखाता है:
- सभी मॉडल और डेटासेट पर, हमले की सफलता दर GNQ मान के साथ बढ़ती है
- उच्च GNQ मान वाले नमूने वास्तव में वे नमूने हैं जहां हमले अधिक सफल होते हैं
- GNQ को गोपनीयता जोखिम संकेतक के रूप में प्रभावशीलता को प्रमाणित करता है
AT&T चेहरे डेटाबेस पर प्रयोग से पता चलता है:
- सबसे अधिक GNQ स्कोर वाले एकल नमूने को हटाने के बाद, मॉडल उलटा हमले की पुनर्निर्माण गुणवत्ता में काफी गिरावट आती है
- सत्यापन सटीकता केवल 95.31% से 94.15% तक गिरती है, लेकिन गोपनीयता सुरक्षा प्रभाव स्पष्ट है
चित्र 7 विभिन्न प्रशिक्षण पैरामीटर और GNQ तथा हमले की सफलता दर के बीच संबंध दिखाता है:
- प्रशिक्षण राउंड: अधिक राउंड उच्च गोपनीयता जोखिम की ओर ले जाते हैं
- डेटासेट आकार: छोटे डेटासेट उच्च जोखिम में होते हैं
- मॉडल आकार: बड़े मॉडल आमतौर पर उच्च जोखिम में होते हैं
- बैच आकार: छोटे बैच जोखिम बढ़ाते हैं
- सीखने की दर: उच्च सीखने की दर संभवतः जोखिम बढ़ा सकती है
- छाया मॉडल MIA: मॉडल की पश्च संभावना को हमले की विशेषता के रूप में उपयोग करना
- व्हाइट-बॉक्स MIA: ग्रेडिएंट, सक्रियण मान आदि आंतरिक जानकारी का उपयोग करना
- हानि-आधारित MIA: उम्मीदवार बिंदुओं पर मॉडल की हानि को सदस्यता संकेतक के रूप में उपयोग करना
- ग्रेडिएंट उलटा हमला: लक्ष्य को अनुकूलित करके प्रशिक्षण डेटा को पुनः प्राप्त करना
मौजूदा विधियां मुख्य रूप से DP कार्यान्वयन यह सत्यापित करती हैं कि क्या वे दावा की गई गोपनीयता स्तर तक पहुंचते हैं, जबकि GNQ किसी भी प्रशिक्षित मॉडल की गोपनीयता जोखिम को परिमाणित करता है।
GNQ प्रशिक्षण समय के दौरान जोखिम-जागरूक विस्मृति का मार्गदर्शन कर सकता है और अंतर्निहित संकेतक के रूप में जोखिम परिवर्तन को ऑडिट कर सकता है।
- GNQ सिद्धांत-समर्थित गोपनीयता जोखिम परिमाणीकरण विधि प्रदान करता है, विशिष्ट हमले की रणनीति पर निर्भर नहीं है
- सरल GNQ रक्षा विधि गोपनीयता-उपयोगिता व्यापार-बंद पर DP-SGD से बेहतर है
- GNQ विभिन्न गोपनीयता हमलों की सफलता पैटर्न को समझा और भविष्यवाणी कर सकता है
- सैद्धांतिक धारणाएं: ग्रेडिएंट गॉसियन वितरण और ग्रेडिएंट रैखिक सहसंबंध जैसी धारणाओं पर निर्भर है
- कम्प्यूटेशनल जटिलता: बड़े पैमाने के मॉडल के लिए सन्निकटन विधियों की आवश्यकता है (जैसे विकर्णकरण)
- सरल रक्षा विधि: केवल डेटा बिंदु हटाने की एक रक्षा रणनीति पर विचार किया गया है
- अधिक परिष्कृत रक्षा रणनीतियां: डेटा बिंदुओं को पूरी तरह से हटाने के बजाय, उच्च जोखिम बिंदुओं की ग्रेडिएंट में कम शोर जोड़ना
- मशीन विस्मृति अनुप्रयोग: GNQ उभरते हुए मशीन विस्मृति क्षेत्र की सेवा कर सकता है
- बड़े पैमाने के मॉडल अनुकूलन: GNQ गणना के लिए अधिक कुशल विधियां विकसित करना
- सैद्धांतिक नवाचार मजबूत है: पहली बार सूचना सिद्धांत के दृष्टिकोण से ग्रेडिएंट ज्यामिति और गोपनीयता रिसाव के बीच मात्रात्मक संबंध स्थापित किया गया है
- व्यावहारिक मूल्य अधिक है: प्रशिक्षण एल्गोरिदम को संशोधित किए बिना गोपनीयता मूल्यांकन विधि प्रदान करता है, व्यावहारिक अनुप्रयोग आवश्यकताओं के अनुरूप है
- सार्वभौमिकता अच्छी है: विधि विशिष्ट मॉडल आर्किटेक्चर या हमले की रणनीति पर निर्भर नहीं है
- प्रयोग पर्याप्त है: कई डेटासेट और मॉडल पर विधि की प्रभावशीलता को सत्यापित किया गया है
- सैद्धांतिक धारणाएं अपेक्षाकृत मजबूत हैं: ग्रेडिएंट गॉसियन वितरण की धारणा व्यावहारिक रूप से सत्य नहीं हो सकती है
- स्केलेबिलिटी समस्या: अति-बड़े पैमाने के मॉडल के लिए, सन्निकटन विधियों का उपयोग करने के बाद भी, कम्प्यूटेशनल ओवरहेड अभी भी काफी है
- एकल रक्षा रणनीति: केवल डेटा हटाने की एक रक्षा विधि की खोज की गई है
- दीर्घकालिक गोपनीयता गारंटी: गतिशील वातावरण में गोपनीयता सुरक्षा की निरंतरता के विश्लेषण की कमी है
- सैद्धांतिक योगदान: गोपनीयता-संरक्षण मशीन लर्निंग के लिए नए सैद्धांतिक उपकरण प्रदान करता है
- व्यावहारिक मार्गदर्शन: वास्तविक तैनाती वाली ML प्रणालियों के लिए गोपनीयता जोखिम मूल्यांकन विधि प्रदान करता है
- अनुसंधान प्रेरणा: प्रशिक्षण गतिविधि के आधार पर गोपनीयता विश्लेषण की नई दिशा खोलता है
- एंटरप्राइज ML प्रणालियां: प्रशिक्षण प्रवाह को महत्वपूर्ण रूप से संशोधित किए बिना गोपनीयता जोखिम का मूल्यांकन करने की आवश्यकता है
- ओपन-सोर्स मॉडल प्रकाशन: मॉडल प्रकाशित करने से पहले गोपनीयता रिसाव जोखिम का मूल्यांकन और कमी करना
- नियामक अनुपालन: गोपनीयता कानूनों के अनुपालन के लिए परिमाणीकृत उपकरण प्रदान करता है
- अनुसंधान उपकरण: गोपनीयता-संरक्षण मशीन लर्निंग अनुसंधान के लिए नई विश्लेषण विधि प्रदान करता है
समग्र मूल्यांकन: यह गोपनीयता-संरक्षण मशीन लर्निंग क्षेत्र में महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य वाला कार्य है। पेपर द्वारा प्रस्तावित ग्रेडिएंट विशिष्टता की अवधारणा मौजूदा विधियों के महत्वपूर्ण अंतराल को भरती है, व्यावहारिक अनुप्रयोग के लिए अधिक व्यावहारिक गोपनीयता जोखिम मूल्यांकन उपकरण प्रदान करती है। हालांकि सैद्धांतिक धारणाओं और कम्प्यूटेशनल जटिलता के संदर्भ में कुछ सीमाएं हैं, लेकिन इसकी नवाचारिता और व्यावहारिकता इसे इस क्षेत्र का महत्वपूर्ण योगदान बनाती है।