2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.

Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower FrÃ©chet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.

academic

Evolución Protegida por Secretos para Generación de Texto Sintético Diferencialmente Privado

Información Básica

ID del Artículo: 2510.10990
Título: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
Autores: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
Clasificación: cs.CR (Criptografía y Seguridad), cs.CL (Computación y Lenguaje), cs.NE (Computación Neuronal y Evolutiva)
Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
Enlace del Artículo: https://arxiv.org/abs/2510.10990

Resumen

Los datos de texto se han vuelto extremadamente valiosos en modelos de lenguaje grandes (LLMs), pudiendo incluso impulsar el desarrollo de inteligencia artificial general (AGI). Sin embargo, muchos datos de texto de alta calidad en el mundo real son privados y no pueden utilizarse libremente debido a preocupaciones de privacidad. Por lo tanto, se ha propuesto la generación de texto sintético con privacidad diferencial (DP) con el objetivo de generar datos sintéticos de alta utilidad mientras se protege la información sensible. Sin embargo, los métodos existentes de generación de texto sintético con DP imponen garantías uniformes, que a menudo sobreprotegen contenido no sensible, resultando en pérdida significativa de utilidad y sobrecarga computacional. Este artículo propone Secret-Protected Evolution (SecPE), un nuevo marco que extiende la evolución privada mediante protección consciente de secretos. Se demuestra teóricamente que SecPE satisface protección de secretos (p,r), constituyendo una relajación de la DP gaussiana, logrando un equilibrio más estrecho entre utilidad y privacidad, mientras se reduce significativamente la complejidad computacional respecto a métodos de referencia.

Antecedentes de Investigación y Motivación

Definición del Problema

Con el rápido desarrollo de modelos de lenguaje grandes, el valor de los datos de texto es cada vez más evidente. Sin embargo, el entrenamiento y adaptación de estos modelos generalmente depende de grandes cantidades de datos de texto privados de usuarios, lo que presenta riesgos graves de privacidad, incluyendo memorización y fuga de contenido sensible.

Importancia del Problema

Conflicto entre Valor de Datos y Privacidad: Los datos de texto de alta calidad son críticos para LLMs, pero el uso de datos privados enfrenta restricciones regulatorias de privacidad
Limitaciones de Métodos Existentes: Los métodos de privacidad diferencial tradicionales proporcionan protección uniforme para todos los registros, incluso cuando la información sensible puede ser escasa y variar entre usuarios y atributos
Problemas de Eficiencia Computacional: Los métodos existentes de evolución privada (PE) requieren cálculos masivos de similitud por pares, generando una sobrecarga computacional considerable

Motivación de la Investigación

Los métodos DP existentes asumen que cada registro es igualmente sensible, pero en realidad:

La información sensible puede estar distribuida de manera dispersa
El grado de sensibilidad varía entre diferentes usuarios y atributos
Los secretos pueden repetirse entre registros
Las garantías uniformes conducen a sobreprotección y pérdida de utilidad

Contribuciones Principales

Propone el Marco SecPE: Un marco de generación de datos sintéticos privados que enfatiza la protección de secretos en lugar de DP tradicional, mejorando la utilidad al reducir el ruido que típicamente requiere DP
Desarrolla Método de Agrupamiento Protegido por Secretos: Reduce significativamente la complejidad de tiempo de ejecución en comparación con el método PE, de O(MNsyn) a O(KNsyn), donde K≪M
Garantías Teóricas: Demuestra que SecPE satisface protección de secretos (p,r), que es una versión relajada de DP gaussiana
Verificación Experimental: En conjuntos de datos OpenReview, PubMed y Yelp, SecPE logra mayor eficiencia, FID más bajo y mejor precisión en tareas posteriores bajo las mismas garantías de reconstrucción

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de datos de texto privado que contiene secretos sensibles, generar datos de texto sintético de alta calidad que:

Mantengan propiedades estadísticas similares a los datos originales
Protejan secretos específicos de no ser reconstruidos
Mantengan buen desempeño en tareas posteriores

Definición de Protección de Secretos

Definición 3.1 (Protección de Secretos): Sea D = {x₁,...,xₙ} un conjunto de datos de entrenamiento, donde cada muestra puede contener secretos de S = {s₁,...,sₘ}. Para un secreto sⱼ∈S, sea πⱼ una distribución previa sobre el conjunto de datos {D¹ⱼ,...,Dᴷⱼ}, satisfaciendo Pr(Dᵏⱼ) ≤ pⱼ, donde D y Dᵏⱼ difieren solo en la presencia de sⱼ. Un mecanismo aleatorio A satisface protección de secretos (p,r) si para cualquier ataque de reconstrucción B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

Arquitectura del Modelo

El marco SecPE contiene dos componentes principales:

1. Agrupamiento de Secretos (Secret Clustering)

Objetivo: Utilizar datos públicos para agrupamiento, luego actualizar con datos privados ruidosos para formar centros representativos
Flujo del Algoritmo:
1. Ejecutar agrupamiento K-means en datos públicos: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
2. Asignar datos privados al centro público más cercano
3. Añadir ruido calibrado para actualizar estadísticas de agrupamiento

2. Evolución Protegida (Protected Evolution)

Objetivo: Realizar selección iterativa basada en representantes ruidosos, en lugar de votación directa sobre datos privados
Ventaja: Reduce la complejidad de O(MNsyn) a O(KNsyn)

Calibración de Ruido

Algoritmo 1 (SecretNoise): Asignar pesos a cada muestra privada mediante programación lineal:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

donde ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) actúa como restricción de capacidad.

Puntos de Innovación Técnica

De Privacidad de Membresía a Protección de Secretos: No protege la relación de membresía del conjunto de datos, sino que protege contenido de secretos específicos
Aceleración de Agrupamiento: Reemplaza votación punto a punto con votación representativa, mejorando significativamente la eficiencia computacional
Relajación de Restricciones DP: La protección de secretos (p,r) solo restringe la tasa de éxito del adversario de priori de punto único, no toda la curva de compensación

Configuración Experimental

Conjuntos de Datos

OpenReview: Revisiones de artículos ICLR 2023, anotadas por área de investigación y calificación de recomendación
PubMed: Resúmenes de artículos médicos
Yelp: Reseñas comerciales de usuarios, anotadas por categoría comercial y calificación

Métricas de Evaluación

Eficiencia Computacional: Horas de GPU y tiempo de cálculo de histogramas
Desempeño en Tareas Posteriores: Precisión de clasificación al ajustar RoBERTa/BERT en datos sintéticos
Similitud Real-Sintética: FID en incrustaciones de texto y comparación de distribuciones de longitud de texto

Métodos de Comparación

Aug-PE: Método de evolución privada mejorado basado en μ-GDP
Diferentes Números de Agrupamientos K: Variantes SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀, etc.

Detalles de Implementación

Modelo Generativo: GPT-2, Qwen-2.5-1.5B (experimentos principales), Llama-3.1-8B, GPT-4o-Mini (ablación)
Modelo de Incrustación: Sentence-Transformers
Presupuesto de Privacidad: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

Resultados Experimentales

Resultados Principales

Comparación de Tiempo de Ejecución

Tabla 2 muestra aceleración significativa de SecPE en construcción de histogramas:

OpenReview: 126.9s → 1.5s (aceleración de 84×)
PubMed: 32.2s → 0.5s (aceleración de 64×)
Yelp: 30126.4s → 2.3s (aceleración de aproximadamente 13,000×)

Desempeño en Tareas Posteriores

En todos los conjuntos de datos, SecPE supera consistentemente a Aug-PE:

PubMed (Tabla 3):

GPT-2 + BERT-small: Aug-PE de 29.70→24.93 (r/p: ∞→2), SecPE de 29.19→29.18
Cuanto más estricto el requisito de privacidad, mayor la ventaja de SecPE

Yelp (Tabla 5):

Con r/p=2, SecPE₈₀₀ alcanza 72.74% en clasificación de categoría vs 71.53% de Aug-PE
En clasificación de calificación SecPE₈₀₀ alcanza 62.46% vs 47.02% de Aug-PE

Similitud Real-Sintética

Figura 2 muestra que conforme r/p disminuye, SecPE logra FID más bajo (mayor similitud), mientras que en configuración no privada el FID es ligeramente más alto pero básicamente comparable.

Experimentos de Ablación

Impacto de la Selección de LLM (Tabla 6)

LLMs más fuertes producen mejores resultados:

GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

DP-Generator: Entrena modelos de lenguaje usando DP-SGD, computacionalmente intensivo y requiere grandes cantidades de datos privados de alta calidad
Private Evolution (PE): Accede a modelos base mediante API, actualizando iterativamente muestras inicializadas aleatoriamente
Contribución de este Artículo: Transición de protección uniforme a protección consciente de secretos

Protección de Secretos vs Privacidad Diferencial

DP Tradicional: Protege relaciones de membresía, proporciona protección uniforme para todos los registros
Protección de Secretos: Calibra garantías para secretos específicos, permitiendo uso sin protección de datos públicos

Conclusiones y Discusión

Conclusiones Principales

SecPE logra mejor equilibrio entre utilidad y privacidad mediante protección consciente de secretos
El método de agrupamiento mejora significativamente la eficiencia computacional
Supera consistentemente métodos de referencia basados en GDP en múltiples conjuntos de datos
LLMs más fuertes producen texto sintético de mayor calidad

Limitaciones

Pérdida de Abstracción de Agrupamiento: El agrupamiento puede abstraer detalles de grano fino, potencialmente resultando en pérdida leve de utilidad en situaciones no privadas
Desafío en Definición de Secretos: Cómo definir formalmente secretos y cuantificar su sensibilidad sigue siendo una pregunta abierta
Rango de Aplicabilidad: El método asume que la información sensible es dispersa y repetida, pudiendo no ser aplicable a todos los escenarios

Direcciones Futuras

Explorar presupuestos heterogéneos específicos de secretos y priores adaptativos
Extender al dominio de imágenes e investigar generadores protegidos por secretos
Estandarizar aún más el uso de datos privados

Evaluación Profunda

Fortalezas

Innovación Teórica: El concepto de protección de secretos (p,r) es novedoso, proporcionando una nueva perspectiva para protección de privacidad
Valor Práctico: La aceleración computacional significativa hace el método más aplicable en la práctica
Experimentos Exhaustivos: Evaluación integral con múltiples conjuntos de datos e indicadores
Técnica Sólida: Análisis teórico riguroso y pruebas

Insuficiencias

Identificación de Secretos: El artículo no discute suficientemente cómo identificar y definir "secretos" en la práctica
Limitaciones de Referencia: Principalmente comparado con un método de referencia, faltando comparación con otros métodos de generación de texto con DP
Generalización: La mejora en tareas PII es limitada, requiriendo verificación adicional de la capacidad de generalización del método

Impacto

Contribución Académica: Proporciona nuevo marco teórico para generación de datos sintéticos con protección de privacidad
Valor Práctico: La mejora significativa en eficiencia computacional hace el método más adecuado para aplicaciones a gran escala
Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros

Escenarios Aplicables

Datos de texto donde la información sensible es dispersa y el tipo es conocido
Aplicaciones que requieren generación de texto privado a gran escala
Escenarios con altos requisitos de eficiencia computacional
Aplicaciones de dominio donde se pueden definir claramente "secretos"

Referencias

El artículo cita trabajos importantes en los campos de protección de privacidad, privacidad diferencial y generación de texto, incluyendo:

Abadi et al. (2016): Trabajo fundamental de DP-SGD
Dong et al. (2019): Teoría de privacidad diferencial gaussiana
Xie et al. (2024): Método de Private Evolution
Ganesh et al. (2025): Fundamentos teóricos de protección de secretos