2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.

Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower FrÃ©chet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.

academic

Evoluzione Protetta da Segreti per la Generazione di Testo Sintetico Differenzialmente Privato

Informazioni Fondamentali

ID Articolo: 2510.10990
Titolo: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
Autori: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
Classificazione: cs.CR (Crittografia e Sicurezza), cs.CL (Calcolo e Linguaggio), cs.NE (Calcolo Neurale ed Evolutivo)
Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
Link Articolo: https://arxiv.org/abs/2510.10990

Riassunto

I dati testuali sono diventati estremamente preziosi nei modelli linguistici di grandi dimensioni (LLM) e potrebbero potenzialmente guidare lo sviluppo dell'intelligenza artificiale generale (AGI). Tuttavia, molti dati testuali di alta qualità nel mondo reale sono privati e non possono essere utilizzati liberamente a causa di preoccupazioni sulla privacy. Di conseguenza, la generazione di testo sintetico con privacy differenziale (DP) è stata proposta per generare dati sintetici ad alta utilità proteggendo al contempo le informazioni sensibili. Tuttavia, i metodi esistenti di generazione di testo sintetico con DP impongono garanzie uniformi, che spesso sovraprotteggono i contenuti non sensibili, causando significative perdite di utilità e costi computazionali. Questo articolo propone Secret-Protected Evolution (SecPE), un nuovo framework che estende l'evoluzione privata attraverso la protezione consapevole dei segreti. Dimostriamo teoricamente che SecPE soddisfa la protezione (p,r)-segreta, che costituisce un rilassamento della DP gaussiana, realizzando un compromesso utilità-privacy più stretto e riducendo significativamente la complessità computazionale rispetto ai metodi di base.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con il rapido sviluppo dei modelli linguistici di grandi dimensioni, il valore dei dati testuali è sempre più evidente. Tuttavia, l'addestramento e l'adattamento di questi modelli dipendono tipicamente da grandi quantità di dati testuali privati degli utenti, il che comporta seri rischi di privacy, inclusa la memorizzazione e la divulgazione di contenuti sensibili.

Importanza del Problema

Conflitto tra Valore dei Dati e Privacy: I dati testuali di alta qualità sono cruciali per gli LLM, ma l'utilizzo di dati privati affronta limitazioni normative sulla privacy
Limitazioni dei Metodi Esistenti: I metodi tradizionali di privacy differenziale forniscono protezione uniforme per tutti i record, anche quando le informazioni sensibili potrebbero essere sparse e variare tra utenti e attributi
Problemi di Efficienza Computazionale: I metodi di evoluzione privata (PE) esistenti richiedono un'enorme quantità di calcoli di similarità pairwise, con costi computazionali significativi

Motivazione della Ricerca

I metodi DP esistenti presuppongono che ogni record sia ugualmente sensibile, ma in realtà:

Le informazioni sensibili potrebbero essere distribuite in modo sparso
Il grado di sensibilità varia tra diversi utenti e attributi
I segreti potrebbero ripetersi tra i record
Le garanzie uniformi portano a sovraprotezione e perdita di utilità

Contributi Principali

Propone il Framework SecPE: Un framework per la generazione di dati sintetici privati che enfatizza la protezione dei segreti piuttosto che la DP tradizionale, migliorando l'utilità riducendo il rumore tipicamente richiesto dalla DP
Sviluppa Metodo di Clustering Protetto da Segreti: Riduce significativamente la complessità di runtime rispetto al metodo PE, da O(MNsyn) a O(KNsyn), dove K≪M
Garanzie Teoriche: Dimostra che SecPE soddisfa la protezione (p,r)-segreta, che è una versione rilassata della DP gaussiana
Verifica Sperimentale: Su dataset OpenReview, PubMed e Yelp, SecPE realizza maggiore efficienza, FID inferiore e migliore accuratezza downstream rispetto alle garanzie di ricostruzione equivalenti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un dataset di testo privato contenente segreti sensibili, generare dati testuali sintetici di alta qualità che:

Mantengono proprietà statistiche simili ai dati originali
Proteggono specifici segreti dalla ricostruzione
Mantengono buone prestazioni nei compiti downstream

Definizione di Protezione dei Segreti

Definizione 3.1 (Protezione dei Segreti): Sia D = {x₁,...,xₙ} un dataset di addestramento, dove ogni campione potrebbe contenere segreti da S = {s₁,...,sₘ}. Per un segreto sⱼ∈S, sia πⱼ una distribuzione a priori su {D¹ⱼ,...,Dᴷⱼ}, soddisfacendo Pr(Dᵏⱼ) ≤ pⱼ, dove D e Dᵏⱼ differiscono solo nella presenza di sⱼ. Un meccanismo casuale A soddisfa la protezione (p,r)-segreta se per qualsiasi attacco di ricostruzione B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

Architettura del Modello

Il framework SecPE contiene due componenti principali:

1. Clustering dei Segreti (Secret Clustering)

Obiettivo: Utilizzare dati pubblici per il clustering, quindi aggiornare con dati privati rumorosi per formare centri rappresentativi
Flusso Algoritmo:
1. Eseguire clustering K-means su dati pubblici: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
2. Assegnare dati privati ai centri pubblici più vicini
3. Aggiungere rumore calibrato per aggiornare le statistiche di clustering

2. Evoluzione Protetta (Protected Evolution)

Obiettivo: Eseguire selezione iterativa basata su rappresentanti rumorosi, piuttosto che votazione diretta su dati privati
Vantaggi: Riduce la complessità da O(MNsyn) a O(KNsyn)

Calibrazione del Rumore

Algoritmo 1 (SecretNoise): Assegna pesi a ogni campione privato tramite programmazione lineare:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

dove ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) funge da vincolo di capacità.

Punti di Innovazione Tecnica

Da Privacy di Appartenenza a Protezione dei Segreti: Non protegge l'appartenenza al dataset, ma protegge il contenuto specifico dei segreti
Accelerazione del Clustering: Sostituisce la votazione punto per punto con votazione rappresentativa, migliorando significativamente l'efficienza computazionale
Rilassamento dei Vincoli DP: La protezione (p,r)-segreta vincola solo il tasso di successo dell'avversario con priori a punto singolo, non l'intera curva di compromesso

Configurazione Sperimentale

Dataset

OpenReview: Revisioni di articoli ICLR 2023, annotate per area di ricerca e valutazione di raccomandazione
PubMed: Estratti di articoli medici
Yelp: Recensioni commerciali degli utenti, annotate per categoria commerciale e valutazione

Metriche di Valutazione

Efficienza Computazionale: Ore GPU e tempo di calcolo dell'istogramma
Prestazioni Downstream: Accuratezza di classificazione su RoBERTa/BERT fine-tuned su dati sintetici
Similarità Reale-Sintetico: FID su embedding testuali e confronto della distribuzione della lunghezza del testo

Metodi di Confronto

Aug-PE: Metodo di evoluzione privata aumentato basato su μ-GDP
Diversi Numeri di Clustering K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀ e varianti

Dettagli di Implementazione

Modello Generativo: GPT-2, Qwen-2.5-1.5B (esperimenti principali), Llama-3.1-8B, GPT-4o-Mini (ablazione)
Modello di Embedding: Sentence-Transformers
Budget di Privacy: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

Risultati Sperimentali

Risultati Principali

Confronto dei Tempi di Esecuzione

La Tabella 2 mostra accelerazione significativa di SecPE nella costruzione dell'istogramma:

OpenReview: 126.9s → 1.5s (accelerazione 84×)
PubMed: 32.2s → 0.5s (accelerazione 64×)
Yelp: 30126.4s → 2.3s (accelerazione ~13.000×)

Prestazioni nei Compiti Downstream

Su tutti i dataset, SecPE supera costantemente Aug-PE:

PubMed (Tabella 3):

GPT-2 + BERT-small: Aug-PE da 29.70→24.93 (r/p: ∞→2), SecPE da 29.19→29.18
Quanto più rigorosi i requisiti di privacy, tanto maggiore il vantaggio di SecPE

Yelp (Tabella 5):

Con r/p=2, SecPE₈₀₀ raggiunge 72.74% nella classificazione per categoria vs 71.53% di Aug-PE
Nella classificazione per valutazione SecPE₈₀₀ raggiunge 62.46% vs 47.02% di Aug-PE

Similarità Reale-Sintetico

La Figura 2 mostra che al diminuire di r/p, SecPE realizza FID inferiore (similarità superiore), mentre in impostazioni non private il FID è leggermente superiore ma sostanzialmente comparabile.

Esperimenti di Ablazione

Impatto della Scelta dell'LLM (Tabella 6)

LLM più forti producono risultati migliori:

GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

DP-Generator: Addestra modelli linguistici utilizzando DP-SGD, computazionalmente intensivo e richiede grandi quantità di dati privati di alta qualità
Private Evolution (PE): Accede ai modelli di base tramite API, aggiorna iterativamente campioni inizializzati casualmente
Contributo di questo Articolo: Transizione dalla protezione uniforme alla protezione consapevole dei segreti

Protezione dei Segreti vs Privacy Differenziale

DP Tradizionale: Protegge l'appartenenza, fornisce protezione uniforme per tutti i record
Protezione dei Segreti: Calibra le garanzie per segreti specifici, consente l'utilizzo non protetto di dati pubblici

Conclusioni e Discussione

Conclusioni Principali

SecPE realizza un migliore compromesso utilità-privacy attraverso la protezione consapevole dei segreti
Il metodo di clustering migliora significativamente l'efficienza computazionale
Supera costantemente i metodi di base GDP su più dataset
LLM più forti producono testo sintetico di qualità superiore

Limitazioni

Perdita di Astrazione del Clustering: Il clustering astrae i dettagli a grana fine, potendo causare una leggera perdita di utilità in situazioni non private
Sfida nella Definizione dei Segreti: Come definire formalmente i segreti e quantificarne la sensibilità rimane una questione aperta
Ambito di Applicabilità: Il metodo presuppone che le informazioni sensibili siano sparse e ripetute, potendo non essere applicabile a tutti gli scenari

Direzioni Future

Esplorare budget eterogenei e specifici per segreto e priori adattivi
Estendere al dominio delle immagini e investigare generatori protetti da segreti
Standardizzare ulteriormente l'utilizzo di dati privati

Valutazione Approfondita

Punti di Forza

Innovazione Teorica: Il concetto di protezione (p,r)-segreta è innovativo e offre una nuova prospettiva sulla protezione della privacy
Valore Pratico: L'accelerazione computazionale significativa rende il metodo più applicabile nella pratica
Esperimenti Completi: Valutazione completa su più dataset e metriche
Tecnica Solida: Analisi teorica rigorosa e prove

Insufficienze

Identificazione dei Segreti: L'articolo non discute sufficientemente come identificare e definire i "segreti" nella pratica
Limitazioni dei Baseline: Principalmente confrontato con un metodo di base, mancano confronti con altri metodi di generazione di testo DP
Generalizzabilità: Il miglioramento nel compito PII è limitato, la capacità di generalizzazione del metodo richiede ulteriore verifica

Impatto

Contributo Accademico: Fornisce un nuovo framework teorico per la generazione di dati sintetici privati
Valore Pratico: L'efficienza computazionale significativamente migliorata rende il metodo più adatto per applicazioni su larga scala
Riproducibilità: Fornisce dettagli di implementazione e impostazioni di iperparametri dettagliati

Scenari di Applicazione

Dati testuali dove le informazioni sensibili sono sparse e il tipo è noto
Applicazioni che richiedono generazione di testo privato su larga scala
Scenari con elevati requisiti di efficienza computazionale
Applicazioni di dominio dove i "segreti" possono essere definiti chiaramente

Bibliografia

L'articolo cita importanti lavori nei campi della protezione della privacy, privacy differenziale e generazione di testo, inclusi:

Abadi et al. (2016): Lavoro fondamentale su DP-SGD
Dong et al. (2019): Teoria della privacy differenziale gaussiana
Xie et al. (2024): Metodo di Private Evolution
Ganesh et al. (2025): Fondamenti teorici della protezione dei segreti