पाठ डेटा बड़े भाषा मॉडल (LLMs) में अत्यंत मूल्यवान हो गया है, और यहां तक कि सामान्य कृत्रिम बुद्धिमत्ता (AGI) के विकास को भी प्रेरित कर सकता है। हालांकि, वास्तविक दुनिया में कई उच्च-गुणवत्ता वाले पाठ डेटा निजी हैं, गोपनीयता चिंताओं के कारण स्वतंत्र रूप से उपयोग नहीं किए जा सकते। इसलिए, विभेदक गोपनीयता (DP) संश्लेषित पाठ पीढ़ी का प्रस्ताव दिया गया है, जिसका उद्देश्य उच्च-उपयोगिता संश्लेषित डेटा उत्पन्न करना है जबकि संवेदनशील जानकारी की रक्षा करना है। हालांकि, मौजूदा DP संश्लेषित पाठ पीढ़ी विधियां एकीकृत गारंटी लागू करती हैं, जो अक्सर गैर-संवेदनशील सामग्री को अत्यधिक सुरक्षित करती हैं, जिससे महत्वपूर्ण उपयोगिता हानि और कम्प्यूटेशनल ओवरहेड होता है। यह पेपर Secret-Protected Evolution (SecPE) प्रस्तावित करता है, जो गोपनीयता-जागरूक सुरक्षा के माध्यम से निजी विकास को विस्तारित करने के लिए एक नई रूपरेखा है। सिद्धांत रूप से यह साबित किया गया है कि SecPE (p,r)-गोपनीयता-संरक्षण को संतुष्ट करता है, जो गॉसियन DP का एक शिथिलीकरण है, जो अधिक कसी हुई उपयोगिता-गोपनीयता व्यापार-बंद को प्राप्त करता है, जबकि आधारभूत विधियों की तुलना में कम्प्यूटेशनल जटिलता में काफी कमी आती है।
बड़े भाषा मॉडल के तीव्र विकास के साथ, पाठ डेटा का मूल्य दिन-प्रतिदिन बढ़ रहा है। हालांकि, इन मॉडल को प्रशिक्षित और अनुकूलित करना आमतौर पर बड़ी मात्रा में निजी उपयोगकर्ता पाठ डेटा पर निर्भर करता है, जो गंभीर गोपनीयता जोखिम पैदा करता है, जिसमें संवेदनशील सामग्री का स्मरण और रिसाव शामिल है।
डेटा मूल्य और गोपनीयता संघर्ष: उच्च-गुणवत्ता वाले पाठ डेटा LLMs के लिए महत्वपूर्ण हैं, लेकिन निजी डेटा का उपयोग गोपनीयता नियमों द्वारा प्रतिबंधित है
मौजूदा विधियों की सीमाएं: पारंपरिक विभेदक गोपनीयता विधियां सभी रिकॉर्ड को एकीकृत सुरक्षा प्रदान करती हैं, भले ही संवेदनशील जानकारी विरल हो सकती है और उपयोगकर्ताओं और विशेषताओं में भिन्न हो सकती है
कम्प्यूटेशनल दक्षता समस्या: मौजूदा निजी विकास (PE) विधियों को बड़ी संख्या में जोड़ी गई समानता गणनाओं की आवश्यकता होती है, जिससे विशाल कम्प्यूटेशनल ओवरहेड होता है
SecPE रूपरेखा का प्रस्ताव: एक निजी संश्लेषित डेटा पीढ़ी रूपरेखा जो पारंपरिक DP के बजाय गोपनीयता-संरक्षण पर जोर देती है, आमतौर पर DP द्वारा आवश्यक शोर को कम करके उपयोगिता में सुधार करती है
गोपनीयता-संरक्षण क्लस्टरिंग विधि विकसित करना: PE विधि की तुलना में रनटाइम जटिलता में काफी कमी, O(MNsyn) से O(KNsyn) तक, जहां K≪M
सैद्धांतिक गारंटी: यह साबित करना कि SecPE (p,r)-गोपनीयता-संरक्षण को संतुष्ट करता है, जो गॉसियन DP का एक शिथिलीकृत संस्करण है
प्रायोगिक सत्यापन: OpenReview, PubMed और Yelp डेटासेट पर, SecPE समान पुनर्निर्माण गारंटी के तहत उच्च दक्षता, निम्न FID और बेहतर डाउनस्ट्रीम सटीकता प्राप्त करता है
परिभाषा 3.1 (गोपनीयता-संरक्षण): मान लीजिए D = {x₁,...,xₙ} प्रशिक्षण डेटासेट है, प्रत्येक नमूना संभवतः S = {s₁,...,sₘ} से गोपनीयता रख सकता है। गोपनीयता sⱼ∈S के लिए, मान लीजिए πⱼ डेटासेट {D¹ⱼ,...,Dᴷⱼ} पर पूर्व वितरण है, जो Pr(Dᵏⱼ) ≤ pⱼ को संतुष्ट करता है, जहां D और Dᵏⱼ केवल sⱼ की उपस्थिति में भिन्न हैं। यादृच्छिक तंत्र A (p,r)-गोपनीयता-संरक्षण को संतुष्ट करता है, यदि किसी भी पुनर्निर्माण हमले B के लिए:
चित्र 2 दिखाता है कि r/p कम होने के साथ, SecPE निम्न FID (उच्च समानता) प्राप्त करता है, जबकि गैर-निजी सेटिंग में FID थोड़ा अधिक है लेकिन मूलतः तुलनीय है।