Les données textuelles sont devenues extrêmement précieuses dans les modèles de langage de grande taille (LLMs) et pourraient potentiellement favoriser le développement de l'intelligence artificielle générale (AGI). Cependant, de nombreuses données textuelles de haute qualité dans le monde réel sont privées et ne peuvent pas être utilisées librement en raison des préoccupations relatives à la confidentialité. Par conséquent, la génération de texte synthétique avec confidentialité différentielle (DP) a été proposée, visant à générer des données synthétiques hautement utiles tout en protégeant les informations sensibles. Cependant, les méthodes existantes de génération de texte synthétique DP imposent des garanties uniformes, qui surprotègent souvent le contenu non sensible, entraînant une perte d'utilité significative et une surcharge informatique. Cet article propose Secret-Protected Evolution (SecPE), un nouveau cadre qui étend l'évolution privée par une protection consciente des secrets. Nous prouvons théoriquement que SecPE satisfait la protection des secrets (p,r), qui constitue une relaxation de la DP gaussienne, réalisant un meilleur compromis utilité-confidentialité tout en réduisant considérablement la complexité informatique par rapport aux méthodes de base.
Avec le développement rapide des modèles de langage de grande taille, la valeur des données textuelles devient de plus en plus évidente. Cependant, l'entraînement et l'adaptation de ces modèles dépendent généralement de grandes quantités de données textuelles privées d'utilisateurs, ce qui pose des risques graves pour la confidentialité, notamment la mémorisation et la fuite de contenu sensible.
Conflit entre valeur des données et confidentialité: Les données textuelles de haute qualité sont essentielles pour les LLMs, mais l'utilisation de données privées fait face à des restrictions réglementaires en matière de confidentialité
Limitations des méthodes existantes: Les méthodes de confidentialité différentielle traditionnelles fournissent une protection uniforme pour tous les enregistrements, même si les informations sensibles peuvent être rares et varier selon les utilisateurs et les attributs
Problèmes d'efficacité informatique: Les méthodes d'évolution privée (PE) existantes nécessitent un grand nombre de calculs de similarité par paires, entraînant une surcharge informatique considérable
Proposition du cadre SecPE: Un cadre de génération de données synthétiques privées qui met l'accent sur la protection des secrets plutôt que sur la DP traditionnelle, améliorant l'utilité en réduisant le bruit généralement requis par la DP
Développement d'une méthode de clustering protégée par secret: Réduisant considérablement la complexité d'exécution par rapport à la méthode PE, de O(MNsyn) à O(KNsyn), où K≪M
Garanties théoriques: Preuve que SecPE satisfait la protection des secrets (p,r), qui est une version relaxée de la DP gaussienne
Vérification expérimentale: Sur les ensembles de données OpenReview, PubMed et Yelp, SecPE réalise une efficacité supérieure, un FID inférieur et une meilleure précision en aval pour les mêmes garanties de reconstruction
Étant donné un ensemble de données textuelles privées contenant des secrets sensibles, générer des données textuelles synthétiques de haute qualité qui:
Conservent les caractéristiques statistiques similaires aux données originales
Protègent les secrets spécifiques contre la reconstruction
Maintiennent de bonnes performances dans les tâches en aval
Définition 3.1 (Protection des Secrets): Soit D = {x₁,...,xₙ} l'ensemble de données d'entraînement, où chaque échantillon peut contenir des secrets de S = {s₁,...,sₘ}. Pour un secret sⱼ∈S, soit πⱼ une distribution a priori sur l'ensemble de données {D¹ⱼ,...,Dᴷⱼ}, satisfaisant Pr(Dᵏⱼ) ≤ pⱼ, où D et Dᵏⱼ ne diffèrent que par la présence de sⱼ. Un mécanisme aléatoire A satisfait la protection des secrets (p,r) si pour toute attaque de reconstruction B:
Objectif: Utiliser des données publiques pour le clustering, puis mettre à jour avec des données privées bruitées pour former des centres représentatifs
Flux algorithmique:
Exécuter K-means clustering sur les données publiques: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
Assigner les données privées au centre public le plus proche
Ajouter du bruit calibré pour mettre à jour les statistiques de clustering
De la confidentialité des membres à la protection des secrets: Ne pas protéger l'appartenance à l'ensemble de données, mais plutôt protéger le contenu spécifique des secrets
Accélération du clustering: Remplacer le vote point par point par un vote représentatif, améliorant considérablement l'efficacité informatique
Relaxation des contraintes DP: La protection des secrets (p,r) ne contraint que le taux de succès de l'adversaire avec un a priori ponctuel, plutôt que l'ensemble de la courbe de compromis
La Figure 2 montre que avec la diminution de r/p, SecPE réalise un FID inférieur (similarité supérieure), tandis que dans le cadre non-privé, le FID est légèrement supérieur mais essentiellement comparable.
DP-Generator: Entraînement de modèles de langage avec DP-SGD, intensif en calcul et nécessitant de grandes quantités de données privées de haute qualité
Private Evolution (PE): Accès par API aux modèles de base, mise à jour itérative d'échantillons initialisés aléatoirement
Contribution de cet article: Transition de la protection uniforme à la protection consciente des secrets
Perte d'abstraction du clustering: Le clustering abstrait les détails à grain fin, pouvant entraîner une légère perte d'utilité en situation non-privée
Défi de définition des secrets: Comment définir formellement les secrets et quantifier leur sensibilité reste une question ouverte
Portée d'application: La méthode suppose que les informations sensibles sont rares et répétées, ce qui peut ne pas s'appliquer à tous les scénarios
Innovation théorique: Le concept de protection des secrets (p,r) est novateur, offrant une nouvelle perspective sur la protection de la confidentialité
Valeur pratique: L'accélération informatique significative rend la méthode plus applicable en pratique
Expériences complètes: Évaluation exhaustive sur plusieurs ensembles de données et métriques
Technique solide: Analyse théorique rigoureuse et preuves
Identification des secrets: L'article ne discute pas suffisamment de comment identifier et définir les "secrets" en pratique
Limitation des baselines: Comparaison principalement avec une seule méthode de base, manque de comparaison avec d'autres méthodes de génération de texte DP
Généralisation: Les améliorations sur les tâches PII sont limitées, la capacité de généralisation de la méthode nécessite une vérification supplémentaire
L'article cite des travaux importants dans les domaines de la protection de la confidentialité, de la confidentialité différentielle et de la génération de texte, notamment:
Abadi et al. (2016): Travail fondateur sur DP-SGD
Dong et al. (2019): Théorie de la confidentialité différentielle gaussienne
Xie et al. (2024): Méthode d'évolution privée
Ganesh et al. (2025): Fondements théoriques de la protection des secrets