2025-11-18T11:19:13.666890

Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness

Abdelghafar, Aliakbarpour, Jermaine

Disclosing private information via publication of a machine learning model is often a concern. Intuitively, publishing a learned model should be less risky than publishing a dataset. But how much risk is there? In this paper, we present a principled disclosure metric called \emph{gradient uniqueness} that is derived from an upper bound on the amount of information disclosure from publishing a learned model. Gradient uniqueness provides an intuitive way to perform privacy auditing. The mathematical derivation of gradient uniqueness is general, and does not make any assumption on the model architecture, dataset type, or the strategy of an attacker. We examine a simple defense based on monitoring gradient uniqueness, and find that it achieves privacy comparable to classical methods such as DP-SGD, while being substantially better in terms of (utility) testing accuracy.

academic

ग्रेडिएंट डिसेंट के दौरान सूचना प्रकटीकरण को ग्रेडिएंट विशिष्टता का उपयोग करके परिमाणित करना

मूल जानकारी

पेपर ID: 2510.10902
शीर्षक: ग्रेडिएंट डिसेंट के दौरान सूचना प्रकटीकरण को ग्रेडिएंट विशिष्टता का उपयोग करके परिमाणित करना
लेखक: महमूद अब्देलघफार (राइस विश्वविद्यालय), मरियम अलियाकबरपूर (राइस विश्वविद्यालय), क्रिस जर्मेन (राइस विश्वविद्यालय)
वर्गीकरण: cs.LG stat.ML
प्रकाशन तिथि: 13 अक्टूबर 2025
पेपर लिंक: https://arxiv.org/abs/2510.10902v1

सारांश

मशीन लर्निंग मॉडल को प्रकाशित करना निजी सूचना को लीक कर सकता है, जो एक महत्वपूर्ण गोपनीयता समस्या है। सहज रूप से, प्रशिक्षित मॉडल को प्रकाशित करना सीधे डेटासेट प्रकाशित करने की तुलना में कम जोखिम भरा होना चाहिए, लेकिन वास्तविक जोखिम कितना बड़ा है? यह पेपर सिद्धांत-आधारित प्रकटीकरण माप विधि प्रस्तावित करता है - ग्रेडिएंट विशिष्टता (Gradient Uniqueness, GNQ)। यह विधि सीखे गए मॉडल को प्रकाशित करते समय सूचना प्रकटीकरण की मात्रा के ऊपरी सीमा के गणितीय व्युत्पन्न से उत्पन्न होती है। ग्रेडिएंट विशिष्टता गोपनीयता ऑडिट के लिए एक सहज विधि प्रदान करती है, जिसका गणितीय व्युत्पन्न सार्वभौमिक है और मॉडल आर्किटेक्चर, डेटासेट प्रकार या आक्रमणकारी रणनीति पर कोई धारणा नहीं बनाता है। अनुसंधान से पता चलता है कि GNQ निगरानी के आधार पर सरल रक्षा विधि DP-SGD जैसी शास्त्रीय विधियों के साथ गोपनीयता सुरक्षा में तुलनीय है, साथ ही परीक्षण सटीकता में बेहतर प्रदर्शन करती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

मूल समस्या

यह अनुसंधान जो मूल समस्या को हल करना चाहता है वह है: मशीन लर्निंग मॉडल प्रकाशन प्रक्रिया के दौरान गोपनीयता रिसाव जोखिम को कैसे परिमाणित किया जाए। विशेष रूप से, जब स्टोकेस्टिक ग्रेडिएंट डिसेंट (SGD) का उपयोग करके मॉडल को प्रशिक्षित किया जाता है और अंतिम मॉडल पैरामीटर प्रकाशित किए जाते हैं, तो एक आक्रमणकारी प्रशिक्षण डेटा के बारे में कितनी जानकारी का अनुमान लगा सकता है?

समस्या की महत्ता

व्यावहारिक आवश्यकता तीव्र है: आधुनिक AI प्रणालियों (जैसे बड़े भाषा मॉडल) की प्रशिक्षण लागत अत्यधिक है, संगठन गोपनीयता सुरक्षा के लिए प्रशिक्षण एल्गोरिदम को महत्वपूर्ण रूप से संशोधित करने के लिए अनिच्छुक हैं
मौजूदा विधियों की सीमाएं: विभेदक गोपनीयता (DP-SGD) सैद्धांतिक गारंटी प्रदान करती है, लेकिन मॉडल प्रदर्शन को गंभीर रूप से नुकसान पहुंचाती है
परिमाणीकरण साधनों की कमी: मौजूदा विधियां मुख्य रूप से हमले के प्रयोगों पर आधारित हैं, सिद्धांत-समर्थित गोपनीयता जोखिम परिमाणीकरण संकेतकों की कमी है

मौजूदा विधियों की सीमाएं

विभेदक गोपनीयता विधि बहुत रूढ़िवादी है: DP-SGD को प्रत्येक ग्रेडिएंट पर शोर जोड़ने और क्लिपिंग की आवश्यकता है, जिससे मॉडल प्रदर्शन में गंभीर गिरावट आती है
हमले-आधारित ऑडिट विधि: विशिष्ट हमले की रणनीति पर निर्भर है, सार्वभौमिकता और सैद्धांतिक आधार की कमी है
सबसे खराब स्थिति की धारणा: मौजूदा सैद्धांतिक विश्लेषण अक्सर सबसे खराब स्थिति पर आधारित होते हैं, व्यावहारिक अनुप्रयोगों में बहुत निराशावादी होते हैं

अनुसंधान प्रेरणा

इस पेपर का मूल विचार है: चूंकि SGD में स्वयं स्टोकेस्टिकिटी है, क्या हम प्रशिक्षण एल्गोरिदम को संशोधित किए बिना जोखिम को परिमाणित करने के लिए इस आंतरिक गोपनीयता सुरक्षा विशेषता का उपयोग कर सकते हैं? यह दृष्टिकोण व्यावहारिक अनुप्रयोग आवश्यकताओं के अनुरूप है।

मूल योगदान

ग्रेडिएंट विशिष्टता (GNQ) संकेतक प्रस्तावित करना: सूचना सिद्धांत व्युत्पन्न गोपनीयता जोखिम माप विधि, सूचना रिसाव ऊपरी सीमा के साथ एकरस संबंधित
सैद्धांतिक सार्वभौमिकता: गणितीय व्युत्पन्न मॉडल आर्किटेक्चर, डेटासेट प्रकार या आक्रमणकारी रणनीति पर निर्भर नहीं है, व्यापक प्रयोज्यता है
अनुभवजन्य सत्यापन: GNQ विभिन्न हमलों की सफलता दर को प्रभावी ढंग से भविष्यवाणी और व्याख्या कर सकता है
सरल और प्रभावी रक्षा विधि: GNQ रैंकिंग के आधार पर उच्च जोखिम डेटा बिंदुओं को हटाना, मॉडल उपयोगिता बनाए रखते हुए गोपनीयता सुरक्षा प्रदान करता है

विधि विवरण

कार्य परिभाषा

सार्वजनिक डेटासेट $D = \{d_j\}_{j=1}^N$ दिया गया है, जिससे प्रतिस्थापन के बिना समान रूप से नमूना लिया जाता है निजी प्रशिक्षण सेट $D_t$ प्राप्त करने के लिए। पैरामीटरयुक्त मॉडल $h_\theta$ को प्रशिक्षित करने के लिए स्टोकेस्टिक ग्रेडिएंट डिसेंट का उपयोग करें, आक्रमणकारी अंतिम मॉडल पैरामीटर $\theta_{N_r}$ को देखता है, लक्ष्य यह अनुमान लगाना है कि क्या कोई डेटा बिंदु $d_j$ प्रशिक्षण सेट $D_t$ में है।

ग्रेडिएंट विशिष्टता परिभाषा

परिभाषा 1 (ग्रेडिएंट विशिष्टता): प्रशिक्षण बैच $i$ के लिए, डेटा बिंदु $d_j$ की ग्रेडिएंट विशिष्टता बैच $i$ के सापेक्ष को निम्नानुसार परिभाषित किया गया है:

$\text{GNQ}_{ij} = g_{ij}^T S^+ g_{ij}$

जहां:

$S = \sum_{k=1, k \neq j}^N g_{ik} g_{ik}^T \in \mathbb{R}^{N_p \times N_p}$
$S^+$ मूर-पेनरोज़ छद्म-व्युत्क्रम को दर्शाता है
$g_{ij} = \nabla_\theta[\ell[\theta_i, d_j]] \in \mathbb{R}^{N_p}$ डेटा बिंदु $d_j$ पर हानि फ़ंक्शन की ग्रेडिएंट है

मूल सैद्धांतिक परिणाम

प्रमेय (अनौपचारिक संस्करण): कोई भी आक्रमणकारी $\theta_{N_r}$ की जांच करके यह निर्धारित करने के लिए कि $d_j \in D_t$ है, जो सूचना निकाल सकता है (बिट्स में) उसे एक ऐसे फ़ंक्शन द्वारा ऊपरी सीमा दी जाती है जो $\sum_{i=1}^{N_r-1} \text{GNQ}_{ij}$ के साथ एकरस रूप से बढ़ता है।

ज्यामितीय सहज समझ

GNQ की गणना को ज्यामितीय रूप से इस प्रकार दर्शाया जा सकता है:

सभी ग्रेडिएंट को सारांशित करने वाली एक दीर्घवृत्त का निर्माण करें
$\text{GNQ}_{ij}$ डेटा बिंदु $d_j$ की ग्रेडिएंट की इस दीर्घवृत्त के सापेक्ष विसंगति को मापता है
ग्रेडिएंट जितना अधिक "अद्वितीय" है (अन्य ग्रेडिएंट की दिशा से विचलित), GNQ मान उतना अधिक है, गोपनीयता जोखिम उतना अधिक है

तकनीकी नवाचार बिंदु

सूचना सिद्धांत आधार: पारस्परिक सूचना सिद्धांत पर आधारित, GNQ और सूचना रिसाव ऊपरी सीमा के बीच गणितीय संबंध स्थापित किया गया है
हमले-अज्ञेयवाद: विशिष्ट हमले की विधि पर निर्भर नहीं है, सार्वभौमिक गोपनीयता जोखिम मूल्यांकन प्रदान करता है
ज्यामितीय व्याख्या: ग्रेडिएंट स्पेस की ज्यामितीय विश्लेषण के माध्यम से, जोखिम की सहज समझ प्रदान करता है
कम्प्यूटेशनल दक्षता: विकर्णकरण सन्निकटन जैसी तकनीकें प्रस्तावित करता है, विधि को बड़े पैमाने के मॉडल के लिए लागू बनाता है

प्रायोगिक सेटअप

डेटासेट

MNIST: हस्तलिखित अंक पहचान
CIFAR-10/100: प्राकृतिक छवि वर्गीकरण
AT&T Database of Faces: चेहरे की पहचान
Tiny ImageNet: बड़े पैमाने की छवि वर्गीकरण
IMDB: भावना विश्लेषण

मॉडल आर्किटेक्चर

MLP: बहु-परत परसेप्ट्रॉन
CNN: कनवोल्यूशनल न्यूरल नेटवर्क
ResNet: अवशिष्ट नेटवर्क (कंप्यूटर दृष्टि)
BERT: ट्रांसफॉर्मर-आधारित पाठ वर्गीकारक

मूल्यांकन संकेतक

गोपनीयता सुरक्षा: सदस्यता अनुमान हमले (MIA) की AUC ROC मान
मॉडल उपयोगिता: परीक्षण सेट सटीकता
पुनर्निर्माण हमला: मॉडल उलटा हमले की पुनर्निर्माण गुणवत्ता

तुलना विधियां

Baseline: गोपनीयता सुरक्षा के बिना मानक प्रशिक्षण
DP-SGD: विभेदक गोपनीयता स्टोकेस्टिक ग्रेडिएंट डिसेंट ( $\epsilon \in \{2, 8, 512\}$ )
GNQ-based: ग्रेडिएंट विशिष्टता पर आधारित रक्षा विधि

प्रायोगिक परिणाम

मुख्य परिणाम

तालिका 1 GNQ फ़िल्टरिंग विधि और DP-SGD की तुलना दिखाती है:

डेटासेट	मॉडल	सेटअप	AUC ROC	परीक्षण सटीकता
CIFAR10	ResNet	Baseline	0.7294	80.80%
		शीर्ष-10% GNQ हटाया गया	0.5122	71.33%
		DP-SGD (ε=2)	0.5008	41.83%
CIFAR100	ResNet	Baseline	0.8752	49.58%
		शीर्ष-20% GNQ हटाया गया	0.5137	34.92%
		DP-SGD (ε=2)	0.5015	6.83%

मुख्य निष्कर्ष:

GNQ विधि MIA हमले की सफलता दर को यादृच्छिक अनुमान स्तर तक कम कर सकती है (AUC ≈ 0.5)
समान गोपनीयता सुरक्षा स्तर पर, GNQ विधि की मॉडल सटीकता DP-SGD से काफी अधिक है
CIFAR100 के लिए, DP-SGD की सटीकता केवल 6.83% है, जबकि GNQ विधि 34.92% तक पहुंचती है

GNQ हमले की सफलता दर के भविष्यवाणी संकेतक के रूप में

चित्र 5 विभिन्न डेटासेट पर GNQ और MIA हमले की सफलता दर के बीच संबंध दिखाता है:

सभी मॉडल और डेटासेट पर, हमले की सफलता दर GNQ मान के साथ बढ़ती है
उच्च GNQ मान वाले नमूने वास्तव में वे नमूने हैं जहां हमले अधिक सफल होते हैं
GNQ को गोपनीयता जोखिम संकेतक के रूप में प्रभावशीलता को प्रमाणित करता है

पुनर्निर्माण हमला प्रयोग

AT&T चेहरे डेटाबेस पर प्रयोग से पता चलता है:

सबसे अधिक GNQ स्कोर वाले एकल नमूने को हटाने के बाद, मॉडल उलटा हमले की पुनर्निर्माण गुणवत्ता में काफी गिरावट आती है
सत्यापन सटीकता केवल 95.31% से 94.15% तक गिरती है, लेकिन गोपनीयता सुरक्षा प्रभाव स्पष्ट है

SGD पैरामीटर गोपनीयता पर प्रभाव

चित्र 7 विभिन्न प्रशिक्षण पैरामीटर और GNQ तथा हमले की सफलता दर के बीच संबंध दिखाता है:

प्रशिक्षण राउंड: अधिक राउंड उच्च गोपनीयता जोखिम की ओर ले जाते हैं
डेटासेट आकार: छोटे डेटासेट उच्च जोखिम में होते हैं
मॉडल आकार: बड़े मॉडल आमतौर पर उच्च जोखिम में होते हैं
बैच आकार: छोटे बैच जोखिम बढ़ाते हैं
सीखने की दर: उच्च सीखने की दर संभवतः जोखिम बढ़ा सकती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

GNQ सिद्धांत-समर्थित गोपनीयता जोखिम परिमाणीकरण विधि प्रदान करता है, विशिष्ट हमले की रणनीति पर निर्भर नहीं है
सरल GNQ रक्षा विधि गोपनीयता-उपयोगिता व्यापार-बंद पर DP-SGD से बेहतर है
GNQ विभिन्न गोपनीयता हमलों की सफलता पैटर्न को समझा और भविष्यवाणी कर सकता है

सीमाएं

सैद्धांतिक धारणाएं: ग्रेडिएंट गॉसियन वितरण और ग्रेडिएंट रैखिक सहसंबंध जैसी धारणाओं पर निर्भर है
कम्प्यूटेशनल जटिलता: बड़े पैमाने के मॉडल के लिए सन्निकटन विधियों की आवश्यकता है (जैसे विकर्णकरण)
सरल रक्षा विधि: केवल डेटा बिंदु हटाने की एक रक्षा रणनीति पर विचार किया गया है

भविष्य की दिशाएं

अधिक परिष्कृत रक्षा रणनीतियां: डेटा बिंदुओं को पूरी तरह से हटाने के बजाय, उच्च जोखिम बिंदुओं की ग्रेडिएंट में कम शोर जोड़ना
मशीन विस्मृति अनुप्रयोग: GNQ उभरते हुए मशीन विस्मृति क्षेत्र की सेवा कर सकता है
बड़े पैमाने के मॉडल अनुकूलन: GNQ गणना के लिए अधिक कुशल विधियां विकसित करना

गहन मूल्यांकन

लाभ

सैद्धांतिक नवाचार मजबूत है: पहली बार सूचना सिद्धांत के दृष्टिकोण से ग्रेडिएंट ज्यामिति और गोपनीयता रिसाव के बीच मात्रात्मक संबंध स्थापित किया गया है
व्यावहारिक मूल्य अधिक है: प्रशिक्षण एल्गोरिदम को संशोधित किए बिना गोपनीयता मूल्यांकन विधि प्रदान करता है, व्यावहारिक अनुप्रयोग आवश्यकताओं के अनुरूप है
सार्वभौमिकता अच्छी है: विधि विशिष्ट मॉडल आर्किटेक्चर या हमले की रणनीति पर निर्भर नहीं है
प्रयोग पर्याप्त है: कई डेटासेट और मॉडल पर विधि की प्रभावशीलता को सत्यापित किया गया है

कमियां

सैद्धांतिक धारणाएं अपेक्षाकृत मजबूत हैं: ग्रेडिएंट गॉसियन वितरण की धारणा व्यावहारिक रूप से सत्य नहीं हो सकती है
स्केलेबिलिटी समस्या: अति-बड़े पैमाने के मॉडल के लिए, सन्निकटन विधियों का उपयोग करने के बाद भी, कम्प्यूटेशनल ओवरहेड अभी भी काफी है
एकल रक्षा रणनीति: केवल डेटा हटाने की एक रक्षा विधि की खोज की गई है
दीर्घकालिक गोपनीयता गारंटी: गतिशील वातावरण में गोपनीयता सुरक्षा की निरंतरता के विश्लेषण की कमी है

प्रभाव

सैद्धांतिक योगदान: गोपनीयता-संरक्षण मशीन लर्निंग के लिए नए सैद्धांतिक उपकरण प्रदान करता है
व्यावहारिक मार्गदर्शन: वास्तविक तैनाती वाली ML प्रणालियों के लिए गोपनीयता जोखिम मूल्यांकन विधि प्रदान करता है
अनुसंधान प्रेरणा: प्रशिक्षण गतिविधि के आधार पर गोपनीयता विश्लेषण की नई दिशा खोलता है

लागू परिदृश्य

एंटरप्राइज ML प्रणालियां: प्रशिक्षण प्रवाह को महत्वपूर्ण रूप से संशोधित किए बिना गोपनीयता जोखिम का मूल्यांकन करने की आवश्यकता है
ओपन-सोर्स मॉडल प्रकाशन: मॉडल प्रकाशित करने से पहले गोपनीयता रिसाव जोखिम का मूल्यांकन और कमी करना
नियामक अनुपालन: गोपनीयता कानूनों के अनुपालन के लिए परिमाणीकृत उपकरण प्रदान करता है
अनुसंधान उपकरण: गोपनीयता-संरक्षण मशीन लर्निंग अनुसंधान के लिए नई विश्लेषण विधि प्रदान करता है

समग्र मूल्यांकन: यह गोपनीयता-संरक्षण मशीन लर्निंग क्षेत्र में महत्वपूर्ण सैद्धांतिक और व्यावहारिक मूल्य वाला कार्य है। पेपर द्वारा प्रस्तावित ग्रेडिएंट विशिष्टता की अवधारणा मौजूदा विधियों के महत्वपूर्ण अंतराल को भरती है, व्यावहारिक अनुप्रयोग के लिए अधिक व्यावहारिक गोपनीयता जोखिम मूल्यांकन उपकरण प्रदान करती है। हालांकि सैद्धांतिक धारणाओं और कम्प्यूटेशनल जटिलता के संदर्भ में कुछ सीमाएं हैं, लेकिन इसकी नवाचारिता और व्यावहारिकता इसे इस क्षेत्र का महत्वपूर्ण योगदान बनाती है।