Los datos de texto se han vuelto extremadamente valiosos en modelos de lenguaje grandes (LLMs), pudiendo incluso impulsar el desarrollo de inteligencia artificial general (AGI). Sin embargo, muchos datos de texto de alta calidad en el mundo real son privados y no pueden utilizarse libremente debido a preocupaciones de privacidad. Por lo tanto, se ha propuesto la generación de texto sintético con privacidad diferencial (DP) con el objetivo de generar datos sintéticos de alta utilidad mientras se protege la información sensible. Sin embargo, los métodos existentes de generación de texto sintético con DP imponen garantías uniformes, que a menudo sobreprotegen contenido no sensible, resultando en pérdida significativa de utilidad y sobrecarga computacional. Este artículo propone Secret-Protected Evolution (SecPE), un nuevo marco que extiende la evolución privada mediante protección consciente de secretos. Se demuestra teóricamente que SecPE satisface protección de secretos (p,r), constituyendo una relajación de la DP gaussiana, logrando un equilibrio más estrecho entre utilidad y privacidad, mientras se reduce significativamente la complejidad computacional respecto a métodos de referencia.
Con el rápido desarrollo de modelos de lenguaje grandes, el valor de los datos de texto es cada vez más evidente. Sin embargo, el entrenamiento y adaptación de estos modelos generalmente depende de grandes cantidades de datos de texto privados de usuarios, lo que presenta riesgos graves de privacidad, incluyendo memorización y fuga de contenido sensible.
Conflicto entre Valor de Datos y Privacidad: Los datos de texto de alta calidad son críticos para LLMs, pero el uso de datos privados enfrenta restricciones regulatorias de privacidad
Limitaciones de Métodos Existentes: Los métodos de privacidad diferencial tradicionales proporcionan protección uniforme para todos los registros, incluso cuando la información sensible puede ser escasa y variar entre usuarios y atributos
Problemas de Eficiencia Computacional: Los métodos existentes de evolución privada (PE) requieren cálculos masivos de similitud por pares, generando una sobrecarga computacional considerable
Propone el Marco SecPE: Un marco de generación de datos sintéticos privados que enfatiza la protección de secretos en lugar de DP tradicional, mejorando la utilidad al reducir el ruido que típicamente requiere DP
Desarrolla Método de Agrupamiento Protegido por Secretos: Reduce significativamente la complejidad de tiempo de ejecución en comparación con el método PE, de O(MNsyn) a O(KNsyn), donde K≪M
Garantías Teóricas: Demuestra que SecPE satisface protección de secretos (p,r), que es una versión relajada de DP gaussiana
Verificación Experimental: En conjuntos de datos OpenReview, PubMed y Yelp, SecPE logra mayor eficiencia, FID más bajo y mejor precisión en tareas posteriores bajo las mismas garantías de reconstrucción
Definición 3.1 (Protección de Secretos): Sea D = {x₁,...,xₙ} un conjunto de datos de entrenamiento, donde cada muestra puede contener secretos de S = {s₁,...,sₘ}. Para un secreto sⱼ∈S, sea πⱼ una distribución previa sobre el conjunto de datos {D¹ⱼ,...,Dᴷⱼ}, satisfaciendo Pr(Dᵏⱼ) ≤ pⱼ, donde D y Dᵏⱼ difieren solo en la presencia de sⱼ. Un mecanismo aleatorio A satisface protección de secretos (p,r) si para cualquier ataque de reconstrucción B:
De Privacidad de Membresía a Protección de Secretos: No protege la relación de membresía del conjunto de datos, sino que protege contenido de secretos específicos
Aceleración de Agrupamiento: Reemplaza votación punto a punto con votación representativa, mejorando significativamente la eficiencia computacional
Relajación de Restricciones DP: La protección de secretos (p,r) solo restringe la tasa de éxito del adversario de priori de punto único, no toda la curva de compensación
Figura 2 muestra que conforme r/p disminuye, SecPE logra FID más bajo (mayor similitud), mientras que en configuración no privada el FID es ligeramente más alto pero básicamente comparable.
Pérdida de Abstracción de Agrupamiento: El agrupamiento puede abstraer detalles de grano fino, potencialmente resultando en pérdida leve de utilidad en situaciones no privadas
Desafío en Definición de Secretos: Cómo definir formalmente secretos y cuantificar su sensibilidad sigue siendo una pregunta abierta
Rango de Aplicabilidad: El método asume que la información sensible es dispersa y repetida, pudiendo no ser aplicable a todos los escenarios