2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.

Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower FrÃ©chet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.

academic

Évolution Protégée par Secret pour la Génération de Texte Synthétique Différentiellement Privée

Informations Fondamentales

ID de l'article: 2510.10990
Titre: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
Auteurs: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
Classification: cs.CR (Cryptographie et Sécurité), cs.CL (Calcul et Langage), cs.NE (Calcul Neural et Évolutionnaire)
Date de publication: 13 octobre 2025 (prépublication arXiv)
Lien de l'article: https://arxiv.org/abs/2510.10990

Résumé

Les données textuelles sont devenues extrêmement précieuses dans les modèles de langage de grande taille (LLMs) et pourraient potentiellement favoriser le développement de l'intelligence artificielle générale (AGI). Cependant, de nombreuses données textuelles de haute qualité dans le monde réel sont privées et ne peuvent pas être utilisées librement en raison des préoccupations relatives à la confidentialité. Par conséquent, la génération de texte synthétique avec confidentialité différentielle (DP) a été proposée, visant à générer des données synthétiques hautement utiles tout en protégeant les informations sensibles. Cependant, les méthodes existantes de génération de texte synthétique DP imposent des garanties uniformes, qui surprotègent souvent le contenu non sensible, entraînant une perte d'utilité significative et une surcharge informatique. Cet article propose Secret-Protected Evolution (SecPE), un nouveau cadre qui étend l'évolution privée par une protection consciente des secrets. Nous prouvons théoriquement que SecPE satisfait la protection des secrets (p,r), qui constitue une relaxation de la DP gaussienne, réalisant un meilleur compromis utilité-confidentialité tout en réduisant considérablement la complexité informatique par rapport aux méthodes de base.

Contexte de Recherche et Motivation

Définition du Problème

Avec le développement rapide des modèles de langage de grande taille, la valeur des données textuelles devient de plus en plus évidente. Cependant, l'entraînement et l'adaptation de ces modèles dépendent généralement de grandes quantités de données textuelles privées d'utilisateurs, ce qui pose des risques graves pour la confidentialité, notamment la mémorisation et la fuite de contenu sensible.

Importance du Problème

Conflit entre valeur des données et confidentialité: Les données textuelles de haute qualité sont essentielles pour les LLMs, mais l'utilisation de données privées fait face à des restrictions réglementaires en matière de confidentialité
Limitations des méthodes existantes: Les méthodes de confidentialité différentielle traditionnelles fournissent une protection uniforme pour tous les enregistrements, même si les informations sensibles peuvent être rares et varier selon les utilisateurs et les attributs
Problèmes d'efficacité informatique: Les méthodes d'évolution privée (PE) existantes nécessitent un grand nombre de calculs de similarité par paires, entraînant une surcharge informatique considérable

Motivation de la Recherche

Les méthodes DP existantes supposent que chaque enregistrement est également sensible, mais en réalité:

Les informations sensibles peuvent être distribuées de manière clairsemée
Le degré de sensibilité varie selon les utilisateurs et les attributs
Les secrets peuvent être répétés entre les enregistrements
Les garanties uniformes entraînent une surprotection et une perte d'utilité

Contributions Principales

Proposition du cadre SecPE: Un cadre de génération de données synthétiques privées qui met l'accent sur la protection des secrets plutôt que sur la DP traditionnelle, améliorant l'utilité en réduisant le bruit généralement requis par la DP
Développement d'une méthode de clustering protégée par secret: Réduisant considérablement la complexité d'exécution par rapport à la méthode PE, de O(MNsyn) à O(KNsyn), où K≪M
Garanties théoriques: Preuve que SecPE satisfait la protection des secrets (p,r), qui est une version relaxée de la DP gaussienne
Vérification expérimentale: Sur les ensembles de données OpenReview, PubMed et Yelp, SecPE réalise une efficacité supérieure, un FID inférieur et une meilleure précision en aval pour les mêmes garanties de reconstruction

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un ensemble de données textuelles privées contenant des secrets sensibles, générer des données textuelles synthétiques de haute qualité qui:

Conservent les caractéristiques statistiques similaires aux données originales
Protègent les secrets spécifiques contre la reconstruction
Maintiennent de bonnes performances dans les tâches en aval

Définition de la Protection des Secrets

Définition 3.1 (Protection des Secrets): Soit D = {x₁,...,xₙ} l'ensemble de données d'entraînement, où chaque échantillon peut contenir des secrets de S = {s₁,...,sₘ}. Pour un secret sⱼ∈S, soit πⱼ une distribution a priori sur l'ensemble de données {D¹ⱼ,...,Dᴷⱼ}, satisfaisant Pr(Dᵏⱼ) ≤ pⱼ, où D et Dᵏⱼ ne diffèrent que par la présence de sⱼ. Un mécanisme aléatoire A satisfait la protection des secrets (p,r) si pour toute attaque de reconstruction B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

Architecture du Modèle

Le cadre SecPE comprend deux composants principaux:

1. Clustering des Secrets (Secret Clustering)

Objectif: Utiliser des données publiques pour le clustering, puis mettre à jour avec des données privées bruitées pour former des centres représentatifs
Flux algorithmique:
1. Exécuter K-means clustering sur les données publiques: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
2. Assigner les données privées au centre public le plus proche
3. Ajouter du bruit calibré pour mettre à jour les statistiques de clustering

2. Évolution Protégée (Protected Evolution)

Objectif: Effectuer une sélection itérative basée sur des représentants bruitées plutôt que sur un vote direct sur les données privées
Avantage: Réduire la complexité de O(MNsyn) à O(KNsyn)

Calibrage du Bruit

Algorithme 1 (SecretNoise): Assigner des poids à chaque échantillon privé via programmation linéaire:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

où ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) comme contrainte de capacité.

Points d'Innovation Technique

De la confidentialité des membres à la protection des secrets: Ne pas protéger l'appartenance à l'ensemble de données, mais plutôt protéger le contenu spécifique des secrets
Accélération du clustering: Remplacer le vote point par point par un vote représentatif, améliorant considérablement l'efficacité informatique
Relaxation des contraintes DP: La protection des secrets (p,r) ne contraint que le taux de succès de l'adversaire avec un a priori ponctuel, plutôt que l'ensemble de la courbe de compromis

Configuration Expérimentale

Ensembles de Données

OpenReview: Évaluations d'articles ICLR 2023, annotées par domaine de recherche et note de recommandation
PubMed: Résumés d'articles médicaux
Yelp: Avis commerciaux d'utilisateurs, annotés par catégorie commerciale et note

Métriques d'Évaluation

Efficacité informatique: Heures GPU et temps de calcul d'histogramme
Performance en aval: Précision de classification en affinant RoBERTa/BERT sur les données synthétiques
Similarité réel-synthétique: FID sur les plongements textuels et comparaison de distribution de longueur de texte

Méthodes de Comparaison

Aug-PE: Méthode d'évolution privée améliorée basée sur μ-GDP
Différents nombres de clusters K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀ et variantes

Détails d'Implémentation

Modèles de génération: GPT-2, Qwen-2.5-1.5B (expériences principales), Llama-3.1-8B, GPT-4o-Mini (ablation)
Modèle d'plongement: Sentence-Transformers
Budget de confidentialité: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

Résultats Expérimentaux

Résultats Principaux

Comparaison des Temps d'Exécution

Le Tableau 2 montre que SecPE réalise une accélération significative dans la construction d'histogrammes:

OpenReview: 126.9s → 1.5s (accélération 84×)
PubMed: 32.2s → 0.5s (accélération 64×)
Yelp: 30126.4s → 2.3s (accélération ~13 000×)

Performance des Tâches en Aval

Sur tous les ensembles de données, SecPE surpasse constamment Aug-PE:

PubMed (Tableau 3):

GPT-2 + BERT-small: Aug-PE de 29.70→24.93 (r/p: ∞→2), SecPE de 29.19→29.18
Plus les exigences de confidentialité sont strictes, plus l'avantage de SecPE est évident

Yelp (Tableau 5):

Avec r/p=2, SecPE₈₀₀ atteint 72.74% en classification de catégorie vs 71.53% pour Aug-PE
En classification de note, SecPE₈₀₀ atteint 62.46% vs 47.02% pour Aug-PE

Similarité Réel-Synthétique

La Figure 2 montre que avec la diminution de r/p, SecPE réalise un FID inférieur (similarité supérieure), tandis que dans le cadre non-privé, le FID est légèrement supérieur mais essentiellement comparable.

Expériences d'Ablation

Impact du Choix de LLM (Tableau 6)

Les LLMs plus puissants produisent de meilleurs résultats:

GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

DP-Generator: Entraînement de modèles de langage avec DP-SGD, intensif en calcul et nécessitant de grandes quantités de données privées de haute qualité
Private Evolution (PE): Accès par API aux modèles de base, mise à jour itérative d'échantillons initialisés aléatoirement
Contribution de cet article: Transition de la protection uniforme à la protection consciente des secrets

Protection des Secrets vs Confidentialité Différentielle

DP traditionnelle: Protège l'appartenance, fournit une protection uniforme pour tous les enregistrements
Protection des secrets: Calibre les garanties pour des secrets spécifiques, permettant l'utilisation sans protection des données publiques

Conclusion et Discussion

Conclusions Principales

SecPE réalise un meilleur compromis utilité-confidentialité par une protection consciente des secrets
La méthode de clustering améliore considérablement l'efficacité informatique
Surpasse constamment la méthode de base GDP sur plusieurs ensembles de données
Les LLMs plus puissants produisent du texte synthétique de meilleure qualité

Limitations

Perte d'abstraction du clustering: Le clustering abstrait les détails à grain fin, pouvant entraîner une légère perte d'utilité en situation non-privée
Défi de définition des secrets: Comment définir formellement les secrets et quantifier leur sensibilité reste une question ouverte
Portée d'application: La méthode suppose que les informations sensibles sont rares et répétées, ce qui peut ne pas s'appliquer à tous les scénarios

Directions Futures

Explorer des budgets hétérogènes spécifiques aux secrets et des a priori adaptatifs
Étendre au domaine des images et investiguer les générateurs protégés par secret
Standardiser davantage l'utilisation des données privées

Évaluation Approfondie

Points Forts

Innovation théorique: Le concept de protection des secrets (p,r) est novateur, offrant une nouvelle perspective sur la protection de la confidentialité
Valeur pratique: L'accélération informatique significative rend la méthode plus applicable en pratique
Expériences complètes: Évaluation exhaustive sur plusieurs ensembles de données et métriques
Technique solide: Analyse théorique rigoureuse et preuves

Insuffisances

Identification des secrets: L'article ne discute pas suffisamment de comment identifier et définir les "secrets" en pratique
Limitation des baselines: Comparaison principalement avec une seule méthode de base, manque de comparaison avec d'autres méthodes de génération de texte DP
Généralisation: Les améliorations sur les tâches PII sont limitées, la capacité de généralisation de la méthode nécessite une vérification supplémentaire

Impact

Contribution académique: Fournit un nouveau cadre théorique pour la génération de données synthétiques privées
Valeur pratique: L'amélioration significative de l'efficacité informatique rend la méthode plus adaptée aux applications à grande échelle
Reproductibilité: Fournit des détails d'implémentation détaillés et des paramètres d'hypertuning

Scénarios d'Application

Données textuelles où les informations sensibles sont rares et de type connu
Applications nécessitant une génération de texte privée à grande échelle
Scénarios avec des exigences élevées d'efficacité informatique
Applications de domaine où les "secrets" peuvent être clairement définis

Références

L'article cite des travaux importants dans les domaines de la protection de la confidentialité, de la confidentialité différentielle et de la génération de texte, notamment:

Abadi et al. (2016): Travail fondateur sur DP-SGD
Dong et al. (2019): Théorie de la confidentialité différentielle gaussienne
Xie et al. (2024): Méthode d'évolution privée
Ganesh et al. (2025): Fondements théoriques de la protection des secrets