I dati testuali sono diventati estremamente preziosi nei modelli linguistici di grandi dimensioni (LLM) e potrebbero potenzialmente guidare lo sviluppo dell'intelligenza artificiale generale (AGI). Tuttavia, molti dati testuali di alta qualità nel mondo reale sono privati e non possono essere utilizzati liberamente a causa di preoccupazioni sulla privacy. Di conseguenza, la generazione di testo sintetico con privacy differenziale (DP) è stata proposta per generare dati sintetici ad alta utilità proteggendo al contempo le informazioni sensibili. Tuttavia, i metodi esistenti di generazione di testo sintetico con DP impongono garanzie uniformi, che spesso sovraprotteggono i contenuti non sensibili, causando significative perdite di utilità e costi computazionali. Questo articolo propone Secret-Protected Evolution (SecPE), un nuovo framework che estende l'evoluzione privata attraverso la protezione consapevole dei segreti. Dimostriamo teoricamente che SecPE soddisfa la protezione (p,r)-segreta, che costituisce un rilassamento della DP gaussiana, realizzando un compromesso utilità-privacy più stretto e riducendo significativamente la complessità computazionale rispetto ai metodi di base.
Con il rapido sviluppo dei modelli linguistici di grandi dimensioni, il valore dei dati testuali è sempre più evidente. Tuttavia, l'addestramento e l'adattamento di questi modelli dipendono tipicamente da grandi quantità di dati testuali privati degli utenti, il che comporta seri rischi di privacy, inclusa la memorizzazione e la divulgazione di contenuti sensibili.
Conflitto tra Valore dei Dati e Privacy: I dati testuali di alta qualità sono cruciali per gli LLM, ma l'utilizzo di dati privati affronta limitazioni normative sulla privacy
Limitazioni dei Metodi Esistenti: I metodi tradizionali di privacy differenziale forniscono protezione uniforme per tutti i record, anche quando le informazioni sensibili potrebbero essere sparse e variare tra utenti e attributi
Problemi di Efficienza Computazionale: I metodi di evoluzione privata (PE) esistenti richiedono un'enorme quantità di calcoli di similarità pairwise, con costi computazionali significativi
Propone il Framework SecPE: Un framework per la generazione di dati sintetici privati che enfatizza la protezione dei segreti piuttosto che la DP tradizionale, migliorando l'utilità riducendo il rumore tipicamente richiesto dalla DP
Sviluppa Metodo di Clustering Protetto da Segreti: Riduce significativamente la complessità di runtime rispetto al metodo PE, da O(MNsyn) a O(KNsyn), dove K≪M
Garanzie Teoriche: Dimostra che SecPE soddisfa la protezione (p,r)-segreta, che è una versione rilassata della DP gaussiana
Verifica Sperimentale: Su dataset OpenReview, PubMed e Yelp, SecPE realizza maggiore efficienza, FID inferiore e migliore accuratezza downstream rispetto alle garanzie di ricostruzione equivalenti
Definizione 3.1 (Protezione dei Segreti): Sia D = {x₁,...,xₙ} un dataset di addestramento, dove ogni campione potrebbe contenere segreti da S = {s₁,...,sₘ}. Per un segreto sⱼ∈S, sia πⱼ una distribuzione a priori su {D¹ⱼ,...,Dᴷⱼ}, soddisfacendo Pr(Dᵏⱼ) ≤ pⱼ, dove D e Dᵏⱼ differiscono solo nella presenza di sⱼ. Un meccanismo casuale A soddisfa la protezione (p,r)-segreta se per qualsiasi attacco di ricostruzione B:
Da Privacy di Appartenenza a Protezione dei Segreti: Non protegge l'appartenenza al dataset, ma protegge il contenuto specifico dei segreti
Accelerazione del Clustering: Sostituisce la votazione punto per punto con votazione rappresentativa, migliorando significativamente l'efficienza computazionale
Rilassamento dei Vincoli DP: La protezione (p,r)-segreta vincola solo il tasso di successo dell'avversario con priori a punto singolo, non l'intera curva di compromesso
La Figura 2 mostra che al diminuire di r/p, SecPE realizza FID inferiore (similarità superiore), mentre in impostazioni non private il FID è leggermente superiore ma sostanzialmente comparabile.
Perdita di Astrazione del Clustering: Il clustering astrae i dettagli a grana fine, potendo causare una leggera perdita di utilità in situazioni non private
Sfida nella Definizione dei Segreti: Come definire formalmente i segreti e quantificarne la sensibilità rimane una questione aperta
Ambito di Applicabilità: Il metodo presuppone che le informazioni sensibili siano sparse e ripetute, potendo non essere applicabile a tutti gli scenari