2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.
Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower Fréchet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.
academic

Evolución Protegida por Secretos para Generación de Texto Sintético Diferencialmente Privado

Información Básica

  • ID del Artículo: 2510.10990
  • Título: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
  • Autores: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
  • Clasificación: cs.CR (Criptografía y Seguridad), cs.CL (Computación y Lenguaje), cs.NE (Computación Neuronal y Evolutiva)
  • Fecha de Publicación: 13 de octubre de 2025 (preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.10990

Resumen

Los datos de texto se han vuelto extremadamente valiosos en modelos de lenguaje grandes (LLMs), pudiendo incluso impulsar el desarrollo de inteligencia artificial general (AGI). Sin embargo, muchos datos de texto de alta calidad en el mundo real son privados y no pueden utilizarse libremente debido a preocupaciones de privacidad. Por lo tanto, se ha propuesto la generación de texto sintético con privacidad diferencial (DP) con el objetivo de generar datos sintéticos de alta utilidad mientras se protege la información sensible. Sin embargo, los métodos existentes de generación de texto sintético con DP imponen garantías uniformes, que a menudo sobreprotegen contenido no sensible, resultando en pérdida significativa de utilidad y sobrecarga computacional. Este artículo propone Secret-Protected Evolution (SecPE), un nuevo marco que extiende la evolución privada mediante protección consciente de secretos. Se demuestra teóricamente que SecPE satisface protección de secretos (p,r), constituyendo una relajación de la DP gaussiana, logrando un equilibrio más estrecho entre utilidad y privacidad, mientras se reduce significativamente la complejidad computacional respecto a métodos de referencia.

Antecedentes de Investigación y Motivación

Definición del Problema

Con el rápido desarrollo de modelos de lenguaje grandes, el valor de los datos de texto es cada vez más evidente. Sin embargo, el entrenamiento y adaptación de estos modelos generalmente depende de grandes cantidades de datos de texto privados de usuarios, lo que presenta riesgos graves de privacidad, incluyendo memorización y fuga de contenido sensible.

Importancia del Problema

  1. Conflicto entre Valor de Datos y Privacidad: Los datos de texto de alta calidad son críticos para LLMs, pero el uso de datos privados enfrenta restricciones regulatorias de privacidad
  2. Limitaciones de Métodos Existentes: Los métodos de privacidad diferencial tradicionales proporcionan protección uniforme para todos los registros, incluso cuando la información sensible puede ser escasa y variar entre usuarios y atributos
  3. Problemas de Eficiencia Computacional: Los métodos existentes de evolución privada (PE) requieren cálculos masivos de similitud por pares, generando una sobrecarga computacional considerable

Motivación de la Investigación

Los métodos DP existentes asumen que cada registro es igualmente sensible, pero en realidad:

  • La información sensible puede estar distribuida de manera dispersa
  • El grado de sensibilidad varía entre diferentes usuarios y atributos
  • Los secretos pueden repetirse entre registros
  • Las garantías uniformes conducen a sobreprotección y pérdida de utilidad

Contribuciones Principales

  1. Propone el Marco SecPE: Un marco de generación de datos sintéticos privados que enfatiza la protección de secretos en lugar de DP tradicional, mejorando la utilidad al reducir el ruido que típicamente requiere DP
  2. Desarrolla Método de Agrupamiento Protegido por Secretos: Reduce significativamente la complejidad de tiempo de ejecución en comparación con el método PE, de O(MNsyn) a O(KNsyn), donde K≪M
  3. Garantías Teóricas: Demuestra que SecPE satisface protección de secretos (p,r), que es una versión relajada de DP gaussiana
  4. Verificación Experimental: En conjuntos de datos OpenReview, PubMed y Yelp, SecPE logra mayor eficiencia, FID más bajo y mejor precisión en tareas posteriores bajo las mismas garantías de reconstrucción

Explicación Detallada del Método

Definición de la Tarea

Dado un conjunto de datos de texto privado que contiene secretos sensibles, generar datos de texto sintético de alta calidad que:

  1. Mantengan propiedades estadísticas similares a los datos originales
  2. Protejan secretos específicos de no ser reconstruidos
  3. Mantengan buen desempeño en tareas posteriores

Definición de Protección de Secretos

Definición 3.1 (Protección de Secretos): Sea D = {x₁,...,xₙ} un conjunto de datos de entrenamiento, donde cada muestra puede contener secretos de S = {s₁,...,sₘ}. Para un secreto sⱼ∈S, sea πⱼ una distribución previa sobre el conjunto de datos {D¹ⱼ,...,Dᴷⱼ}, satisfaciendo Pr(Dᵏⱼ) ≤ pⱼ, donde D y Dᵏⱼ difieren solo en la presencia de sⱼ. Un mecanismo aleatorio A satisface protección de secretos (p,r) si para cualquier ataque de reconstrucción B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

Arquitectura del Modelo

El marco SecPE contiene dos componentes principales:

1. Agrupamiento de Secretos (Secret Clustering)

  • Objetivo: Utilizar datos públicos para agrupamiento, luego actualizar con datos privados ruidosos para formar centros representativos
  • Flujo del Algoritmo:
    1. Ejecutar agrupamiento K-means en datos públicos: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
    2. Asignar datos privados al centro público más cercano
    3. Añadir ruido calibrado para actualizar estadísticas de agrupamiento

2. Evolución Protegida (Protected Evolution)

  • Objetivo: Realizar selección iterativa basada en representantes ruidosos, en lugar de votación directa sobre datos privados
  • Ventaja: Reduce la complejidad de O(MNsyn) a O(KNsyn)

Calibración de Ruido

Algoritmo 1 (SecretNoise): Asignar pesos a cada muestra privada mediante programación lineal:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

donde ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) actúa como restricción de capacidad.

Puntos de Innovación Técnica

  1. De Privacidad de Membresía a Protección de Secretos: No protege la relación de membresía del conjunto de datos, sino que protege contenido de secretos específicos
  2. Aceleración de Agrupamiento: Reemplaza votación punto a punto con votación representativa, mejorando significativamente la eficiencia computacional
  3. Relajación de Restricciones DP: La protección de secretos (p,r) solo restringe la tasa de éxito del adversario de priori de punto único, no toda la curva de compensación

Configuración Experimental

Conjuntos de Datos

  1. OpenReview: Revisiones de artículos ICLR 2023, anotadas por área de investigación y calificación de recomendación
  2. PubMed: Resúmenes de artículos médicos
  3. Yelp: Reseñas comerciales de usuarios, anotadas por categoría comercial y calificación

Métricas de Evaluación

  1. Eficiencia Computacional: Horas de GPU y tiempo de cálculo de histogramas
  2. Desempeño en Tareas Posteriores: Precisión de clasificación al ajustar RoBERTa/BERT en datos sintéticos
  3. Similitud Real-Sintética: FID en incrustaciones de texto y comparación de distribuciones de longitud de texto

Métodos de Comparación

  • Aug-PE: Método de evolución privada mejorado basado en μ-GDP
  • Diferentes Números de Agrupamientos K: Variantes SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀, etc.

Detalles de Implementación

  • Modelo Generativo: GPT-2, Qwen-2.5-1.5B (experimentos principales), Llama-3.1-8B, GPT-4o-Mini (ablación)
  • Modelo de Incrustación: Sentence-Transformers
  • Presupuesto de Privacidad: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

Resultados Experimentales

Resultados Principales

Comparación de Tiempo de Ejecución

Tabla 2 muestra aceleración significativa de SecPE en construcción de histogramas:

  • OpenReview: 126.9s → 1.5s (aceleración de 84×)
  • PubMed: 32.2s → 0.5s (aceleración de 64×)
  • Yelp: 30126.4s → 2.3s (aceleración de aproximadamente 13,000×)

Desempeño en Tareas Posteriores

En todos los conjuntos de datos, SecPE supera consistentemente a Aug-PE:

PubMed (Tabla 3):

  • GPT-2 + BERT-small: Aug-PE de 29.70→24.93 (r/p: ∞→2), SecPE de 29.19→29.18
  • Cuanto más estricto el requisito de privacidad, mayor la ventaja de SecPE

Yelp (Tabla 5):

  • Con r/p=2, SecPE₈₀₀ alcanza 72.74% en clasificación de categoría vs 71.53% de Aug-PE
  • En clasificación de calificación SecPE₈₀₀ alcanza 62.46% vs 47.02% de Aug-PE

Similitud Real-Sintética

Figura 2 muestra que conforme r/p disminuye, SecPE logra FID más bajo (mayor similitud), mientras que en configuración no privada el FID es ligeramente más alto pero básicamente comparable.

Experimentos de Ablación

Impacto de la Selección de LLM (Tabla 6)

LLMs más fuertes producen mejores resultados:

  • GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
  • Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

Impacto del Número de Agrupamientos K

Los experimentos muestran que el desempeño es insensible a la selección de K, demostrando robustez del método.

Resultados de Tareas PII

En tareas reales de detección de PII, la mejora de SecPE respecto a Aug-PE es moderada, pero mantiene competitividad.

Trabajo Relacionado

Generación de Texto con Privacidad Diferencial

  1. DP-Generator: Entrena modelos de lenguaje usando DP-SGD, computacionalmente intensivo y requiere grandes cantidades de datos privados de alta calidad
  2. Private Evolution (PE): Accede a modelos base mediante API, actualizando iterativamente muestras inicializadas aleatoriamente
  3. Contribución de este Artículo: Transición de protección uniforme a protección consciente de secretos

Protección de Secretos vs Privacidad Diferencial

  • DP Tradicional: Protege relaciones de membresía, proporciona protección uniforme para todos los registros
  • Protección de Secretos: Calibra garantías para secretos específicos, permitiendo uso sin protección de datos públicos

Conclusiones y Discusión

Conclusiones Principales

  1. SecPE logra mejor equilibrio entre utilidad y privacidad mediante protección consciente de secretos
  2. El método de agrupamiento mejora significativamente la eficiencia computacional
  3. Supera consistentemente métodos de referencia basados en GDP en múltiples conjuntos de datos
  4. LLMs más fuertes producen texto sintético de mayor calidad

Limitaciones

  1. Pérdida de Abstracción de Agrupamiento: El agrupamiento puede abstraer detalles de grano fino, potencialmente resultando en pérdida leve de utilidad en situaciones no privadas
  2. Desafío en Definición de Secretos: Cómo definir formalmente secretos y cuantificar su sensibilidad sigue siendo una pregunta abierta
  3. Rango de Aplicabilidad: El método asume que la información sensible es dispersa y repetida, pudiendo no ser aplicable a todos los escenarios

Direcciones Futuras

  1. Explorar presupuestos heterogéneos específicos de secretos y priores adaptativos
  2. Extender al dominio de imágenes e investigar generadores protegidos por secretos
  3. Estandarizar aún más el uso de datos privados

Evaluación Profunda

Fortalezas

  1. Innovación Teórica: El concepto de protección de secretos (p,r) es novedoso, proporcionando una nueva perspectiva para protección de privacidad
  2. Valor Práctico: La aceleración computacional significativa hace el método más aplicable en la práctica
  3. Experimentos Exhaustivos: Evaluación integral con múltiples conjuntos de datos e indicadores
  4. Técnica Sólida: Análisis teórico riguroso y pruebas

Insuficiencias

  1. Identificación de Secretos: El artículo no discute suficientemente cómo identificar y definir "secretos" en la práctica
  2. Limitaciones de Referencia: Principalmente comparado con un método de referencia, faltando comparación con otros métodos de generación de texto con DP
  3. Generalización: La mejora en tareas PII es limitada, requiriendo verificación adicional de la capacidad de generalización del método

Impacto

  1. Contribución Académica: Proporciona nuevo marco teórico para generación de datos sintéticos con protección de privacidad
  2. Valor Práctico: La mejora significativa en eficiencia computacional hace el método más adecuado para aplicaciones a gran escala
  3. Reproducibilidad: Proporciona detalles de implementación detallados y configuración de hiperparámetros

Escenarios Aplicables

  1. Datos de texto donde la información sensible es dispersa y el tipo es conocido
  2. Aplicaciones que requieren generación de texto privado a gran escala
  3. Escenarios con altos requisitos de eficiencia computacional
  4. Aplicaciones de dominio donde se pueden definir claramente "secretos"

Referencias

El artículo cita trabajos importantes en los campos de protección de privacidad, privacidad diferencial y generación de texto, incluyendo:

  • Abadi et al. (2016): Trabajo fundamental de DP-SGD
  • Dong et al. (2019): Teoría de privacidad diferencial gaussiana
  • Xie et al. (2024): Método de Private Evolution
  • Ganesh et al. (2025): Fundamentos teóricos de protección de secretos