2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.
Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower Fréchet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.
academic

Evoluzione Protetta da Segreti per la Generazione di Testo Sintetico Differenzialmente Privato

Informazioni Fondamentali

  • ID Articolo: 2510.10990
  • Titolo: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
  • Autori: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
  • Classificazione: cs.CR (Crittografia e Sicurezza), cs.CL (Calcolo e Linguaggio), cs.NE (Calcolo Neurale ed Evolutivo)
  • Data di Pubblicazione: 13 ottobre 2025 (preprint arXiv)
  • Link Articolo: https://arxiv.org/abs/2510.10990

Riassunto

I dati testuali sono diventati estremamente preziosi nei modelli linguistici di grandi dimensioni (LLM) e potrebbero potenzialmente guidare lo sviluppo dell'intelligenza artificiale generale (AGI). Tuttavia, molti dati testuali di alta qualità nel mondo reale sono privati e non possono essere utilizzati liberamente a causa di preoccupazioni sulla privacy. Di conseguenza, la generazione di testo sintetico con privacy differenziale (DP) è stata proposta per generare dati sintetici ad alta utilità proteggendo al contempo le informazioni sensibili. Tuttavia, i metodi esistenti di generazione di testo sintetico con DP impongono garanzie uniformi, che spesso sovraprotteggono i contenuti non sensibili, causando significative perdite di utilità e costi computazionali. Questo articolo propone Secret-Protected Evolution (SecPE), un nuovo framework che estende l'evoluzione privata attraverso la protezione consapevole dei segreti. Dimostriamo teoricamente che SecPE soddisfa la protezione (p,r)-segreta, che costituisce un rilassamento della DP gaussiana, realizzando un compromesso utilità-privacy più stretto e riducendo significativamente la complessità computazionale rispetto ai metodi di base.

Contesto di Ricerca e Motivazione

Definizione del Problema

Con il rapido sviluppo dei modelli linguistici di grandi dimensioni, il valore dei dati testuali è sempre più evidente. Tuttavia, l'addestramento e l'adattamento di questi modelli dipendono tipicamente da grandi quantità di dati testuali privati degli utenti, il che comporta seri rischi di privacy, inclusa la memorizzazione e la divulgazione di contenuti sensibili.

Importanza del Problema

  1. Conflitto tra Valore dei Dati e Privacy: I dati testuali di alta qualità sono cruciali per gli LLM, ma l'utilizzo di dati privati affronta limitazioni normative sulla privacy
  2. Limitazioni dei Metodi Esistenti: I metodi tradizionali di privacy differenziale forniscono protezione uniforme per tutti i record, anche quando le informazioni sensibili potrebbero essere sparse e variare tra utenti e attributi
  3. Problemi di Efficienza Computazionale: I metodi di evoluzione privata (PE) esistenti richiedono un'enorme quantità di calcoli di similarità pairwise, con costi computazionali significativi

Motivazione della Ricerca

I metodi DP esistenti presuppongono che ogni record sia ugualmente sensibile, ma in realtà:

  • Le informazioni sensibili potrebbero essere distribuite in modo sparso
  • Il grado di sensibilità varia tra diversi utenti e attributi
  • I segreti potrebbero ripetersi tra i record
  • Le garanzie uniformi portano a sovraprotezione e perdita di utilità

Contributi Principali

  1. Propone il Framework SecPE: Un framework per la generazione di dati sintetici privati che enfatizza la protezione dei segreti piuttosto che la DP tradizionale, migliorando l'utilità riducendo il rumore tipicamente richiesto dalla DP
  2. Sviluppa Metodo di Clustering Protetto da Segreti: Riduce significativamente la complessità di runtime rispetto al metodo PE, da O(MNsyn) a O(KNsyn), dove K≪M
  3. Garanzie Teoriche: Dimostra che SecPE soddisfa la protezione (p,r)-segreta, che è una versione rilassata della DP gaussiana
  4. Verifica Sperimentale: Su dataset OpenReview, PubMed e Yelp, SecPE realizza maggiore efficienza, FID inferiore e migliore accuratezza downstream rispetto alle garanzie di ricostruzione equivalenti

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un dataset di testo privato contenente segreti sensibili, generare dati testuali sintetici di alta qualità che:

  1. Mantengono proprietà statistiche simili ai dati originali
  2. Proteggono specifici segreti dalla ricostruzione
  3. Mantengono buone prestazioni nei compiti downstream

Definizione di Protezione dei Segreti

Definizione 3.1 (Protezione dei Segreti): Sia D = {x₁,...,xₙ} un dataset di addestramento, dove ogni campione potrebbe contenere segreti da S = {s₁,...,sₘ}. Per un segreto sⱼ∈S, sia πⱼ una distribuzione a priori su {D¹ⱼ,...,Dᴷⱼ}, soddisfacendo Pr(Dᵏⱼ) ≤ pⱼ, dove D e Dᵏⱼ differiscono solo nella presenza di sⱼ. Un meccanismo casuale A soddisfa la protezione (p,r)-segreta se per qualsiasi attacco di ricostruzione B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

Architettura del Modello

Il framework SecPE contiene due componenti principali:

1. Clustering dei Segreti (Secret Clustering)

  • Obiettivo: Utilizzare dati pubblici per il clustering, quindi aggiornare con dati privati rumorosi per formare centri rappresentativi
  • Flusso Algoritmo:
    1. Eseguire clustering K-means su dati pubblici: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
    2. Assegnare dati privati ai centri pubblici più vicini
    3. Aggiungere rumore calibrato per aggiornare le statistiche di clustering

2. Evoluzione Protetta (Protected Evolution)

  • Obiettivo: Eseguire selezione iterativa basata su rappresentanti rumorosi, piuttosto che votazione diretta su dati privati
  • Vantaggi: Riduce la complessità da O(MNsyn) a O(KNsyn)

Calibrazione del Rumore

Algoritmo 1 (SecretNoise): Assegna pesi a ogni campione privato tramite programmazione lineare:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

dove ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) funge da vincolo di capacità.

Punti di Innovazione Tecnica

  1. Da Privacy di Appartenenza a Protezione dei Segreti: Non protegge l'appartenenza al dataset, ma protegge il contenuto specifico dei segreti
  2. Accelerazione del Clustering: Sostituisce la votazione punto per punto con votazione rappresentativa, migliorando significativamente l'efficienza computazionale
  3. Rilassamento dei Vincoli DP: La protezione (p,r)-segreta vincola solo il tasso di successo dell'avversario con priori a punto singolo, non l'intera curva di compromesso

Configurazione Sperimentale

Dataset

  1. OpenReview: Revisioni di articoli ICLR 2023, annotate per area di ricerca e valutazione di raccomandazione
  2. PubMed: Estratti di articoli medici
  3. Yelp: Recensioni commerciali degli utenti, annotate per categoria commerciale e valutazione

Metriche di Valutazione

  1. Efficienza Computazionale: Ore GPU e tempo di calcolo dell'istogramma
  2. Prestazioni Downstream: Accuratezza di classificazione su RoBERTa/BERT fine-tuned su dati sintetici
  3. Similarità Reale-Sintetico: FID su embedding testuali e confronto della distribuzione della lunghezza del testo

Metodi di Confronto

  • Aug-PE: Metodo di evoluzione privata aumentato basato su μ-GDP
  • Diversi Numeri di Clustering K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀ e varianti

Dettagli di Implementazione

  • Modello Generativo: GPT-2, Qwen-2.5-1.5B (esperimenti principali), Llama-3.1-8B, GPT-4o-Mini (ablazione)
  • Modello di Embedding: Sentence-Transformers
  • Budget di Privacy: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

Risultati Sperimentali

Risultati Principali

Confronto dei Tempi di Esecuzione

La Tabella 2 mostra accelerazione significativa di SecPE nella costruzione dell'istogramma:

  • OpenReview: 126.9s → 1.5s (accelerazione 84×)
  • PubMed: 32.2s → 0.5s (accelerazione 64×)
  • Yelp: 30126.4s → 2.3s (accelerazione ~13.000×)

Prestazioni nei Compiti Downstream

Su tutti i dataset, SecPE supera costantemente Aug-PE:

PubMed (Tabella 3):

  • GPT-2 + BERT-small: Aug-PE da 29.70→24.93 (r/p: ∞→2), SecPE da 29.19→29.18
  • Quanto più rigorosi i requisiti di privacy, tanto maggiore il vantaggio di SecPE

Yelp (Tabella 5):

  • Con r/p=2, SecPE₈₀₀ raggiunge 72.74% nella classificazione per categoria vs 71.53% di Aug-PE
  • Nella classificazione per valutazione SecPE₈₀₀ raggiunge 62.46% vs 47.02% di Aug-PE

Similarità Reale-Sintetico

La Figura 2 mostra che al diminuire di r/p, SecPE realizza FID inferiore (similarità superiore), mentre in impostazioni non private il FID è leggermente superiore ma sostanzialmente comparabile.

Esperimenti di Ablazione

Impatto della Scelta dell'LLM (Tabella 6)

LLM più forti producono risultati migliori:

  • GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
  • Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

Impatto del Numero di Clustering K

Gli esperimenti mostrano che le prestazioni sono insensibili alla scelta di K, dimostrando la robustezza del metodo.

Risultati del Compito PII

Nel compito di rilevamento PII reale, il miglioramento di SecPE rispetto ad Aug-PE è moderato, ma rimane competitivo.

Lavori Correlati

Generazione di Testo con Privacy Differenziale

  1. DP-Generator: Addestra modelli linguistici utilizzando DP-SGD, computazionalmente intensivo e richiede grandi quantità di dati privati di alta qualità
  2. Private Evolution (PE): Accede ai modelli di base tramite API, aggiorna iterativamente campioni inizializzati casualmente
  3. Contributo di questo Articolo: Transizione dalla protezione uniforme alla protezione consapevole dei segreti

Protezione dei Segreti vs Privacy Differenziale

  • DP Tradizionale: Protegge l'appartenenza, fornisce protezione uniforme per tutti i record
  • Protezione dei Segreti: Calibra le garanzie per segreti specifici, consente l'utilizzo non protetto di dati pubblici

Conclusioni e Discussione

Conclusioni Principali

  1. SecPE realizza un migliore compromesso utilità-privacy attraverso la protezione consapevole dei segreti
  2. Il metodo di clustering migliora significativamente l'efficienza computazionale
  3. Supera costantemente i metodi di base GDP su più dataset
  4. LLM più forti producono testo sintetico di qualità superiore

Limitazioni

  1. Perdita di Astrazione del Clustering: Il clustering astrae i dettagli a grana fine, potendo causare una leggera perdita di utilità in situazioni non private
  2. Sfida nella Definizione dei Segreti: Come definire formalmente i segreti e quantificarne la sensibilità rimane una questione aperta
  3. Ambito di Applicabilità: Il metodo presuppone che le informazioni sensibili siano sparse e ripetute, potendo non essere applicabile a tutti gli scenari

Direzioni Future

  1. Esplorare budget eterogenei e specifici per segreto e priori adattivi
  2. Estendere al dominio delle immagini e investigare generatori protetti da segreti
  3. Standardizzare ulteriormente l'utilizzo di dati privati

Valutazione Approfondita

Punti di Forza

  1. Innovazione Teorica: Il concetto di protezione (p,r)-segreta è innovativo e offre una nuova prospettiva sulla protezione della privacy
  2. Valore Pratico: L'accelerazione computazionale significativa rende il metodo più applicabile nella pratica
  3. Esperimenti Completi: Valutazione completa su più dataset e metriche
  4. Tecnica Solida: Analisi teorica rigorosa e prove

Insufficienze

  1. Identificazione dei Segreti: L'articolo non discute sufficientemente come identificare e definire i "segreti" nella pratica
  2. Limitazioni dei Baseline: Principalmente confrontato con un metodo di base, mancano confronti con altri metodi di generazione di testo DP
  3. Generalizzabilità: Il miglioramento nel compito PII è limitato, la capacità di generalizzazione del metodo richiede ulteriore verifica

Impatto

  1. Contributo Accademico: Fornisce un nuovo framework teorico per la generazione di dati sintetici privati
  2. Valore Pratico: L'efficienza computazionale significativamente migliorata rende il metodo più adatto per applicazioni su larga scala
  3. Riproducibilità: Fornisce dettagli di implementazione e impostazioni di iperparametri dettagliati

Scenari di Applicazione

  1. Dati testuali dove le informazioni sensibili sono sparse e il tipo è noto
  2. Applicazioni che richiedono generazione di testo privato su larga scala
  3. Scenari con elevati requisiti di efficienza computazionale
  4. Applicazioni di dominio dove i "segreti" possono essere definiti chiaramente

Bibliografia

L'articolo cita importanti lavori nei campi della protezione della privacy, privacy differenziale e generazione di testo, inclusi:

  • Abadi et al. (2016): Lavoro fondamentale su DP-SGD
  • Dong et al. (2019): Teoria della privacy differenziale gaussiana
  • Xie et al. (2024): Metodo di Private Evolution
  • Ganesh et al. (2025): Fondamenti teorici della protezione dei segreti