2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.
Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower Fréchet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.
academic

Évolution Protégée par Secret pour la Génération de Texte Synthétique Différentiellement Privée

Informations Fondamentales

  • ID de l'article: 2510.10990
  • Titre: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
  • Auteurs: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
  • Classification: cs.CR (Cryptographie et Sécurité), cs.CL (Calcul et Langage), cs.NE (Calcul Neural et Évolutionnaire)
  • Date de publication: 13 octobre 2025 (prépublication arXiv)
  • Lien de l'article: https://arxiv.org/abs/2510.10990

Résumé

Les données textuelles sont devenues extrêmement précieuses dans les modèles de langage de grande taille (LLMs) et pourraient potentiellement favoriser le développement de l'intelligence artificielle générale (AGI). Cependant, de nombreuses données textuelles de haute qualité dans le monde réel sont privées et ne peuvent pas être utilisées librement en raison des préoccupations relatives à la confidentialité. Par conséquent, la génération de texte synthétique avec confidentialité différentielle (DP) a été proposée, visant à générer des données synthétiques hautement utiles tout en protégeant les informations sensibles. Cependant, les méthodes existantes de génération de texte synthétique DP imposent des garanties uniformes, qui surprotègent souvent le contenu non sensible, entraînant une perte d'utilité significative et une surcharge informatique. Cet article propose Secret-Protected Evolution (SecPE), un nouveau cadre qui étend l'évolution privée par une protection consciente des secrets. Nous prouvons théoriquement que SecPE satisfait la protection des secrets (p,r), qui constitue une relaxation de la DP gaussienne, réalisant un meilleur compromis utilité-confidentialité tout en réduisant considérablement la complexité informatique par rapport aux méthodes de base.

Contexte de Recherche et Motivation

Définition du Problème

Avec le développement rapide des modèles de langage de grande taille, la valeur des données textuelles devient de plus en plus évidente. Cependant, l'entraînement et l'adaptation de ces modèles dépendent généralement de grandes quantités de données textuelles privées d'utilisateurs, ce qui pose des risques graves pour la confidentialité, notamment la mémorisation et la fuite de contenu sensible.

Importance du Problème

  1. Conflit entre valeur des données et confidentialité: Les données textuelles de haute qualité sont essentielles pour les LLMs, mais l'utilisation de données privées fait face à des restrictions réglementaires en matière de confidentialité
  2. Limitations des méthodes existantes: Les méthodes de confidentialité différentielle traditionnelles fournissent une protection uniforme pour tous les enregistrements, même si les informations sensibles peuvent être rares et varier selon les utilisateurs et les attributs
  3. Problèmes d'efficacité informatique: Les méthodes d'évolution privée (PE) existantes nécessitent un grand nombre de calculs de similarité par paires, entraînant une surcharge informatique considérable

Motivation de la Recherche

Les méthodes DP existantes supposent que chaque enregistrement est également sensible, mais en réalité:

  • Les informations sensibles peuvent être distribuées de manière clairsemée
  • Le degré de sensibilité varie selon les utilisateurs et les attributs
  • Les secrets peuvent être répétés entre les enregistrements
  • Les garanties uniformes entraînent une surprotection et une perte d'utilité

Contributions Principales

  1. Proposition du cadre SecPE: Un cadre de génération de données synthétiques privées qui met l'accent sur la protection des secrets plutôt que sur la DP traditionnelle, améliorant l'utilité en réduisant le bruit généralement requis par la DP
  2. Développement d'une méthode de clustering protégée par secret: Réduisant considérablement la complexité d'exécution par rapport à la méthode PE, de O(MNsyn) à O(KNsyn), où K≪M
  3. Garanties théoriques: Preuve que SecPE satisfait la protection des secrets (p,r), qui est une version relaxée de la DP gaussienne
  4. Vérification expérimentale: Sur les ensembles de données OpenReview, PubMed et Yelp, SecPE réalise une efficacité supérieure, un FID inférieur et une meilleure précision en aval pour les mêmes garanties de reconstruction

Explication Détaillée de la Méthode

Définition de la Tâche

Étant donné un ensemble de données textuelles privées contenant des secrets sensibles, générer des données textuelles synthétiques de haute qualité qui:

  1. Conservent les caractéristiques statistiques similaires aux données originales
  2. Protègent les secrets spécifiques contre la reconstruction
  3. Maintiennent de bonnes performances dans les tâches en aval

Définition de la Protection des Secrets

Définition 3.1 (Protection des Secrets): Soit D = {x₁,...,xₙ} l'ensemble de données d'entraînement, où chaque échantillon peut contenir des secrets de S = {s₁,...,sₘ}. Pour un secret sⱼ∈S, soit πⱼ une distribution a priori sur l'ensemble de données {D¹ⱼ,...,Dᴷⱼ}, satisfaisant Pr(Dᵏⱼ) ≤ pⱼ, où D et Dᵏⱼ ne diffèrent que par la présence de sⱼ. Un mécanisme aléatoire A satisfait la protection des secrets (p,r) si pour toute attaque de reconstruction B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

Architecture du Modèle

Le cadre SecPE comprend deux composants principaux:

1. Clustering des Secrets (Secret Clustering)

  • Objectif: Utiliser des données publiques pour le clustering, puis mettre à jour avec des données privées bruitées pour former des centres représentatifs
  • Flux algorithmique:
    1. Exécuter K-means clustering sur les données publiques: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
    2. Assigner les données privées au centre public le plus proche
    3. Ajouter du bruit calibré pour mettre à jour les statistiques de clustering

2. Évolution Protégée (Protected Evolution)

  • Objectif: Effectuer une sélection itérative basée sur des représentants bruitées plutôt que sur un vote direct sur les données privées
  • Avantage: Réduire la complexité de O(MNsyn) à O(KNsyn)

Calibrage du Bruit

Algorithme 1 (SecretNoise): Assigner des poids à chaque échantillon privé via programmation linéaire:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

où ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) comme contrainte de capacité.

Points d'Innovation Technique

  1. De la confidentialité des membres à la protection des secrets: Ne pas protéger l'appartenance à l'ensemble de données, mais plutôt protéger le contenu spécifique des secrets
  2. Accélération du clustering: Remplacer le vote point par point par un vote représentatif, améliorant considérablement l'efficacité informatique
  3. Relaxation des contraintes DP: La protection des secrets (p,r) ne contraint que le taux de succès de l'adversaire avec un a priori ponctuel, plutôt que l'ensemble de la courbe de compromis

Configuration Expérimentale

Ensembles de Données

  1. OpenReview: Évaluations d'articles ICLR 2023, annotées par domaine de recherche et note de recommandation
  2. PubMed: Résumés d'articles médicaux
  3. Yelp: Avis commerciaux d'utilisateurs, annotés par catégorie commerciale et note

Métriques d'Évaluation

  1. Efficacité informatique: Heures GPU et temps de calcul d'histogramme
  2. Performance en aval: Précision de classification en affinant RoBERTa/BERT sur les données synthétiques
  3. Similarité réel-synthétique: FID sur les plongements textuels et comparaison de distribution de longueur de texte

Méthodes de Comparaison

  • Aug-PE: Méthode d'évolution privée améliorée basée sur μ-GDP
  • Différents nombres de clusters K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀ et variantes

Détails d'Implémentation

  • Modèles de génération: GPT-2, Qwen-2.5-1.5B (expériences principales), Llama-3.1-8B, GPT-4o-Mini (ablation)
  • Modèle d'plongement: Sentence-Transformers
  • Budget de confidentialité: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

Résultats Expérimentaux

Résultats Principaux

Comparaison des Temps d'Exécution

Le Tableau 2 montre que SecPE réalise une accélération significative dans la construction d'histogrammes:

  • OpenReview: 126.9s → 1.5s (accélération 84×)
  • PubMed: 32.2s → 0.5s (accélération 64×)
  • Yelp: 30126.4s → 2.3s (accélération ~13 000×)

Performance des Tâches en Aval

Sur tous les ensembles de données, SecPE surpasse constamment Aug-PE:

PubMed (Tableau 3):

  • GPT-2 + BERT-small: Aug-PE de 29.70→24.93 (r/p: ∞→2), SecPE de 29.19→29.18
  • Plus les exigences de confidentialité sont strictes, plus l'avantage de SecPE est évident

Yelp (Tableau 5):

  • Avec r/p=2, SecPE₈₀₀ atteint 72.74% en classification de catégorie vs 71.53% pour Aug-PE
  • En classification de note, SecPE₈₀₀ atteint 62.46% vs 47.02% pour Aug-PE

Similarité Réel-Synthétique

La Figure 2 montre que avec la diminution de r/p, SecPE réalise un FID inférieur (similarité supérieure), tandis que dans le cadre non-privé, le FID est légèrement supérieur mais essentiellement comparable.

Expériences d'Ablation

Impact du Choix de LLM (Tableau 6)

Les LLMs plus puissants produisent de meilleurs résultats:

  • GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
  • Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

Impact du Nombre de Clusters K

Les expériences montrent que la performance est insensible au choix de K, démontrant la robustesse de la méthode.

Résultats des Tâches PII

Sur les tâches réelles de détection PII, les améliorations de SecPE par rapport à Aug-PE sont modérées, mais la méthode reste compétitive.

Travaux Connexes

Génération de Texte avec Confidentialité Différentielle

  1. DP-Generator: Entraînement de modèles de langage avec DP-SGD, intensif en calcul et nécessitant de grandes quantités de données privées de haute qualité
  2. Private Evolution (PE): Accès par API aux modèles de base, mise à jour itérative d'échantillons initialisés aléatoirement
  3. Contribution de cet article: Transition de la protection uniforme à la protection consciente des secrets

Protection des Secrets vs Confidentialité Différentielle

  • DP traditionnelle: Protège l'appartenance, fournit une protection uniforme pour tous les enregistrements
  • Protection des secrets: Calibre les garanties pour des secrets spécifiques, permettant l'utilisation sans protection des données publiques

Conclusion et Discussion

Conclusions Principales

  1. SecPE réalise un meilleur compromis utilité-confidentialité par une protection consciente des secrets
  2. La méthode de clustering améliore considérablement l'efficacité informatique
  3. Surpasse constamment la méthode de base GDP sur plusieurs ensembles de données
  4. Les LLMs plus puissants produisent du texte synthétique de meilleure qualité

Limitations

  1. Perte d'abstraction du clustering: Le clustering abstrait les détails à grain fin, pouvant entraîner une légère perte d'utilité en situation non-privée
  2. Défi de définition des secrets: Comment définir formellement les secrets et quantifier leur sensibilité reste une question ouverte
  3. Portée d'application: La méthode suppose que les informations sensibles sont rares et répétées, ce qui peut ne pas s'appliquer à tous les scénarios

Directions Futures

  1. Explorer des budgets hétérogènes spécifiques aux secrets et des a priori adaptatifs
  2. Étendre au domaine des images et investiguer les générateurs protégés par secret
  3. Standardiser davantage l'utilisation des données privées

Évaluation Approfondie

Points Forts

  1. Innovation théorique: Le concept de protection des secrets (p,r) est novateur, offrant une nouvelle perspective sur la protection de la confidentialité
  2. Valeur pratique: L'accélération informatique significative rend la méthode plus applicable en pratique
  3. Expériences complètes: Évaluation exhaustive sur plusieurs ensembles de données et métriques
  4. Technique solide: Analyse théorique rigoureuse et preuves

Insuffisances

  1. Identification des secrets: L'article ne discute pas suffisamment de comment identifier et définir les "secrets" en pratique
  2. Limitation des baselines: Comparaison principalement avec une seule méthode de base, manque de comparaison avec d'autres méthodes de génération de texte DP
  3. Généralisation: Les améliorations sur les tâches PII sont limitées, la capacité de généralisation de la méthode nécessite une vérification supplémentaire

Impact

  1. Contribution académique: Fournit un nouveau cadre théorique pour la génération de données synthétiques privées
  2. Valeur pratique: L'amélioration significative de l'efficacité informatique rend la méthode plus adaptée aux applications à grande échelle
  3. Reproductibilité: Fournit des détails d'implémentation détaillés et des paramètres d'hypertuning

Scénarios d'Application

  1. Données textuelles où les informations sensibles sont rares et de type connu
  2. Applications nécessitant une génération de texte privée à grande échelle
  3. Scénarios avec des exigences élevées d'efficacité informatique
  4. Applications de domaine où les "secrets" peuvent être clairement définis

Références

L'article cite des travaux importants dans les domaines de la protection de la confidentialité, de la confidentialité différentielle et de la génération de texte, notamment:

  • Abadi et al. (2016): Travail fondateur sur DP-SGD
  • Dong et al. (2019): Théorie de la confidentialité différentielle gaussienne
  • Xie et al. (2024): Méthode d'évolution privée
  • Ganesh et al. (2025): Fondements théoriques de la protection des secrets