2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.

Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower FrÃ©chet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.

academic

गोपनीयता-संरक्षित विकास विभेदक रूप से निजी संश्लेषित पाठ पीढ़ी के लिए

मूल जानकारी

पेपर ID: 2510.10990
शीर्षक: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
लेखक: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
वर्गीकरण: cs.CR (क्रिप्टोग्राफी और सुरक्षा), cs.CL (कम्प्यूटेशनल और भाषा), cs.NE (तंत्रिका और विकासवादी कंप्यूटिंग)
प्रकाशन समय: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10990

सारांश

पाठ डेटा बड़े भाषा मॉडल (LLMs) में अत्यंत मूल्यवान हो गया है, और यहां तक कि सामान्य कृत्रिम बुद्धिमत्ता (AGI) के विकास को भी प्रेरित कर सकता है। हालांकि, वास्तविक दुनिया में कई उच्च-गुणवत्ता वाले पाठ डेटा निजी हैं, गोपनीयता चिंताओं के कारण स्वतंत्र रूप से उपयोग नहीं किए जा सकते। इसलिए, विभेदक गोपनीयता (DP) संश्लेषित पाठ पीढ़ी का प्रस्ताव दिया गया है, जिसका उद्देश्य उच्च-उपयोगिता संश्लेषित डेटा उत्पन्न करना है जबकि संवेदनशील जानकारी की रक्षा करना है। हालांकि, मौजूदा DP संश्लेषित पाठ पीढ़ी विधियां एकीकृत गारंटी लागू करती हैं, जो अक्सर गैर-संवेदनशील सामग्री को अत्यधिक सुरक्षित करती हैं, जिससे महत्वपूर्ण उपयोगिता हानि और कम्प्यूटेशनल ओवरहेड होता है। यह पेपर Secret-Protected Evolution (SecPE) प्रस्तावित करता है, जो गोपनीयता-जागरूक सुरक्षा के माध्यम से निजी विकास को विस्तारित करने के लिए एक नई रूपरेखा है। सिद्धांत रूप से यह साबित किया गया है कि SecPE (p,r)-गोपनीयता-संरक्षण को संतुष्ट करता है, जो गॉसियन DP का एक शिथिलीकरण है, जो अधिक कसी हुई उपयोगिता-गोपनीयता व्यापार-बंद को प्राप्त करता है, जबकि आधारभूत विधियों की तुलना में कम्प्यूटेशनल जटिलता में काफी कमी आती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

बड़े भाषा मॉडल के तीव्र विकास के साथ, पाठ डेटा का मूल्य दिन-प्रतिदिन बढ़ रहा है। हालांकि, इन मॉडल को प्रशिक्षित और अनुकूलित करना आमतौर पर बड़ी मात्रा में निजी उपयोगकर्ता पाठ डेटा पर निर्भर करता है, जो गंभीर गोपनीयता जोखिम पैदा करता है, जिसमें संवेदनशील सामग्री का स्मरण और रिसाव शामिल है।

समस्या की महत्ता

डेटा मूल्य और गोपनीयता संघर्ष: उच्च-गुणवत्ता वाले पाठ डेटा LLMs के लिए महत्वपूर्ण हैं, लेकिन निजी डेटा का उपयोग गोपनीयता नियमों द्वारा प्रतिबंधित है
मौजूदा विधियों की सीमाएं: पारंपरिक विभेदक गोपनीयता विधियां सभी रिकॉर्ड को एकीकृत सुरक्षा प्रदान करती हैं, भले ही संवेदनशील जानकारी विरल हो सकती है और उपयोगकर्ताओं और विशेषताओं में भिन्न हो सकती है
कम्प्यूटेशनल दक्षता समस्या: मौजूदा निजी विकास (PE) विधियों को बड़ी संख्या में जोड़ी गई समानता गणनाओं की आवश्यकता होती है, जिससे विशाल कम्प्यूटेशनल ओवरहेड होता है

अनुसंधान प्रेरणा

मौजूदा DP विधियां मानती हैं कि प्रत्येक रिकॉर्ड समान रूप से संवेदनशील है, लेकिन वास्तव में:

संवेदनशील जानकारी विरल रूप से वितरित हो सकती है
विभिन्न उपयोगकर्ताओं और विशेषताओं की संवेदनशीलता की डिग्री अलग है
गोपनीयता रिकॉर्ड में दोहराई जा सकती है
एकीकृत गारंटी अत्यधिक सुरक्षा और उपयोगिता हानि की ओर ले जाती है

मूल योगदान

SecPE रूपरेखा का प्रस्ताव: एक निजी संश्लेषित डेटा पीढ़ी रूपरेखा जो पारंपरिक DP के बजाय गोपनीयता-संरक्षण पर जोर देती है, आमतौर पर DP द्वारा आवश्यक शोर को कम करके उपयोगिता में सुधार करती है
गोपनीयता-संरक्षण क्लस्टरिंग विधि विकसित करना: PE विधि की तुलना में रनटाइम जटिलता में काफी कमी, O(MNsyn) से O(KNsyn) तक, जहां K≪M
सैद्धांतिक गारंटी: यह साबित करना कि SecPE (p,r)-गोपनीयता-संरक्षण को संतुष्ट करता है, जो गॉसियन DP का एक शिथिलीकृत संस्करण है
प्रायोगिक सत्यापन: OpenReview, PubMed और Yelp डेटासेट पर, SecPE समान पुनर्निर्माण गारंटी के तहत उच्च दक्षता, निम्न FID और बेहतर डाउनस्ट्रीम सटीकता प्राप्त करता है

विधि विवरण

कार्य परिभाषा

संवेदनशील गोपनीयता युक्त निजी पाठ डेटासेट दिया गया है, उच्च-गुणवत्ता वाले संश्लेषित पाठ डेटा उत्पन्न करें, जो:

मूल डेटा के समान सांख्यिकीय गुणों को बनाए रखता है
विशिष्ट गोपनीयता को पुनर्निर्माण से सुरक्षित करता है
डाउनस्ट्रीम कार्यों में अच्छा प्रदर्शन बनाए रखता है

गोपनीयता-संरक्षण परिभाषा

परिभाषा 3.1 (गोपनीयता-संरक्षण): मान लीजिए D = {x₁,...,xₙ} प्रशिक्षण डेटासेट है, प्रत्येक नमूना संभवतः S = {s₁,...,sₘ} से गोपनीयता रख सकता है। गोपनीयता sⱼ∈S के लिए, मान लीजिए πⱼ डेटासेट {D¹ⱼ,...,Dᴷⱼ} पर पूर्व वितरण है, जो Pr(Dᵏⱼ) ≤ pⱼ को संतुष्ट करता है, जहां D और Dᵏⱼ केवल sⱼ की उपस्थिति में भिन्न हैं। यादृच्छिक तंत्र A (p,r)-गोपनीयता-संरक्षण को संतुष्ट करता है, यदि किसी भी पुनर्निर्माण हमले B के लिए:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

मॉडल आर्किटेक्चर

SecPE रूपरेखा में दो मुख्य घटक हैं:

1. गोपनीयता क्लस्टरिंग (Secret Clustering)

उद्देश्य: सार्वजनिक डेटा का उपयोग करके क्लस्टरिंग करना, फिर शोर निजी डेटा के साथ प्रतिनिधि केंद्र बनाने के लिए अपडेट करना
एल्गोरिदम प्रवाह:
1. सार्वजनिक डेटा पर K-means क्लस्टरिंग निष्पादित करें: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
2. निजी डेटा को निकटतम सार्वजनिक केंद्र को असाइन करें
3. क्लस्टरिंग आंकड़ों को अपडेट करने के लिए कैलिब्रेटेड शोर जोड़ें

2. संरक्षित विकास (Protected Evolution)

उद्देश्य: निजी डेटा पर सीधे मतदान के बजाय शोर प्रतिनिधि के आधार पर पुनरावृत्ति चयन
लाभ: जटिलता को O(MNsyn) से O(KNsyn) तक कम करता है

शोर कैलिब्रेशन

एल्गोरिदम 1 (SecretNoise): रैखिक प्रोग्रामिंग के माध्यम से प्रत्येक निजी नमूने को वजन असाइन करना:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

जहां ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) क्षमता बाधा के रूप में कार्य करता है।

तकनीकी नवाचार बिंदु

सदस्यता गोपनीयता से गोपनीयता-संरक्षण तक: डेटासेट सदस्यता संबंध की सुरक्षा नहीं करना, बल्कि विशिष्ट गोपनीयता सामग्री की सुरक्षा करना
क्लस्टरिंग त्वरण: बिंदु-दर-बिंदु मतदान को प्रतिनिधि मतदान से बदलना, कम्प्यूटेशनल दक्षता में काफी सुधार
DP बाधा शिथिलीकरण: (p,r)-गोपनीयता-संरक्षण केवल एकल-बिंदु पूर्व प्रतिद्वंद्वी की सफलता दर को बाधित करता है, संपूर्ण व्यापार-बंद वक्र नहीं

प्रायोगिक सेटअप

डेटासेट

OpenReview: ICLR 2023 पेपर समीक्षा, अनुसंधान क्षेत्र और अनुशंसा रेटिंग द्वारा टैग किए गए
PubMed: चिकित्सा पेपर सारांश
Yelp: उपयोगकर्ता व्यावसायिक समीक्षाएं, व्यावसायिक श्रेणी और रेटिंग द्वारा टैग की गई

मूल्यांकन मेट्रिक्स

कम्प्यूटेशनल दक्षता: GPU घंटे और हिस्टोग्राम गणना समय
डाउनस्ट्रीम प्रदर्शन: संश्लेषित डेटा पर RoBERTa/BERT को फाइन-ट्यून करने की वर्गीकरण सटीकता
वास्तविक-संश्लेषित समानता: पाठ एम्बेडिंग पर FID और पाठ लंबाई वितरण तुलना

तुलनात्मक विधियां

Aug-PE: μ-GDP पर आधारित संवर्धित निजी विकास विधि
विभिन्न क्लस्टरिंग संख्या K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀ आदि वेरिएंट

कार्यान्वयन विवरण

पीढ़ी मॉडल: GPT-2, Qwen-2.5-1.5B (मुख्य प्रयोग), Llama-3.1-8B, GPT-4o-Mini (विलोपन)
एम्बेडिंग मॉडल: Sentence-Transformers
गोपनीयता बजट: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

प्रायोगिक परिणाम

मुख्य परिणाम

रनटाइम तुलना

तालिका 2 हिस्टोग्राम निर्माण पर SecPE में महत्वपूर्ण त्वरण दिखाती है:

OpenReview: 126.9s → 1.5s (84× त्वरण)
PubMed: 32.2s → 0.5s (64× त्वरण)
Yelp: 30126.4s → 2.3s (लगभग 13,000× त्वरण)

डाउनस्ट्रीम कार्य प्रदर्शन

सभी डेटासेट पर, SecPE लगातार Aug-PE से बेहतर है:

PubMed (तालिका 3):

GPT-2 + BERT-small: Aug-PE 29.70→24.93 (r/p: ∞→2), SecPE 29.19→29.18
गोपनीयता आवश्यकता जितनी कठोर, SecPE लाभ उतना अधिक

Yelp (तालिका 5):

r/p=2 पर, SecPE₈₀₀ श्रेणी वर्गीकरण पर 72.74% बनाम Aug-PE का 71.53%
रेटिंग वर्गीकरण पर SecPE₈₀₀ 62.46% बनाम Aug-PE का 47.02%

वास्तविक-संश्लेषित समानता

चित्र 2 दिखाता है कि r/p कम होने के साथ, SecPE निम्न FID (उच्च समानता) प्राप्त करता है, जबकि गैर-निजी सेटिंग में FID थोड़ा अधिक है लेकिन मूलतः तुलनीय है।

विलोपन प्रयोग

LLM चयन प्रभाव (तालिका 6)

मजबूत LLM बेहतर परिणाम देते हैं:

GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

क्लस्टरिंग संख्या K का प्रभाव

प्रयोग दिखाते हैं कि प्रदर्शन K की पसंद के प्रति असंवेदनशील है, विधि मजबूत है।

PII कार्य परिणाम

वास्तविक PII पहचान कार्य पर, SecPE का Aug-PE की तुलना में सुधार मामूली है, लेकिन अभी भी प्रतिस्पर्धी है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

SecPE गोपनीयता-जागरूक सुरक्षा के माध्यम से बेहतर उपयोगिता-गोपनीयता व्यापार-बंद प्राप्त करता है
क्लस्टरिंग विधि कम्प्यूटेशनल दक्षता में काफी सुधार करती है
कई डेटासेट पर GDP आधारभूत विधि से लगातार बेहतर है
मजबूत LLM उच्च-गुणवत्ता वाले संश्लेषित पाठ का उत्पादन कर सकते हैं

सीमाएं

क्लस्टरिंग अमूर्तता हानि: क्लस्टरिंग सूक्ष्म-दानेदार विवरण को अमूर्त करता है, गैर-निजी परिस्थिति में हल्की उपयोगिता हानि हो सकती है
गोपनीयता परिभाषा चुनौती: गोपनीयता को औपचारिक रूप से कैसे परिभाषित करें और इसकी संवेदनशीलता को कैसे मापें यह अभी भी एक खुला प्रश्न है
अनुप्रयोग सीमा: विधि मानती है कि संवेदनशील जानकारी विरल और दोहराई गई है, सभी परिस्थितियों के लिए उपयुक्त नहीं हो सकती है

भविष्य की दिशा

विषम, गोपनीयता-विशिष्ट बजट और अनुकूली पूर्व की खोज
छवि डोमेन में विस्तार और गोपनीयता-संरक्षण जनरेटर की जांच
निजी डेटा उपयोग को और मानकीकृत करना

गहन मूल्यांकन

शक्तियां

सैद्धांतिक नवाचार: (p,r)-गोपनीयता-संरक्षण अवधारणा नई है, गोपनीयता सुरक्षा के लिए नया दृष्टिकोण प्रदान करती है
व्यावहारिक मूल्य: महत्वपूर्ण कम्प्यूटेशनल त्वरण विधि को अधिक व्यावहारिक अनुप्रयोग मूल्य देता है
पर्याप्त प्रयोग: कई डेटासेट, कई मेट्रिक्स की व्यापक मूल्यांकन
ठोस तकनीक: कठोर सैद्धांतिक विश्लेषण और प्रमाण

कमियां

गोपनीयता पहचान: पेपर व्यावहारिक रूप से "गोपनीयता" की पहचान और परिभाषा कैसे करें इस पर पर्याप्त चर्चा नहीं करता है
आधारभूत सीमा: मुख्य रूप से एक आधारभूत विधि के साथ तुलना, अन्य DP पाठ पीढ़ी विधियों के साथ तुलना की कमी
सामान्यीकरण: PII कार्य पर सुधार सीमित है, विधि की सामान्यीकरण क्षमता को आगे सत्यापन की आवश्यकता है

प्रभाव

शैक्षणिक योगदान: गोपनीयता-संरक्षण संश्लेषित डेटा पीढ़ी के लिए नई सैद्धांतिक रूपरेखा प्रदान करता है
व्यावहारिक मूल्य: कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार विधि को बड़े पैमाने पर अनुप्रयोग के लिए अधिक उपयुक्त बनाता है
पुनरुत्पादनीयता: विस्तृत कार्यान्वयन विवरण और हाइपरपैरामीटर सेटिंग प्रदान करता है

लागू परिस्थितियां

संवेदनशील जानकारी विरल और प्रकार ज्ञात हो ऐसे पाठ डेटा
बड़े पैमाने पर गोपनीयता-संरक्षण पाठ पीढ़ी की आवश्यकता वाले अनुप्रयोग
कम्प्यूटेशनल दक्षता के लिए उच्च आवश्यकता वाली परिस्थितियां
जहां "गोपनीयता" को स्पष्ट रूप से परिभाषित किया जा सकता है ऐसे डोमेन अनुप्रयोग

संदर्भ

पेपर गोपनीयता सुरक्षा, विभेदक गोपनीयता, पाठ पीढ़ी आदि क्षेत्रों के महत्वपूर्ण कार्यों का संदर्भ देता है, जिसमें शामिल हैं:

Abadi et al. (2016): DP-SGD मौलिक कार्य
Dong et al. (2019): गॉसियन विभेदक गोपनीयता सिद्धांत
Xie et al. (2024): Private Evolution विधि
Ganesh et al. (2025): गोपनीयता-संरक्षण सिद्धांत आधार