2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.
Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower Fréchet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.
academic

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

基本信息

  • 论文ID: 2510.10990
  • 标题: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
  • 作者: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
  • 分类: cs.CR (Cryptography and Security), cs.CL (Computation and Language), cs.NE (Neural and Evolutionary Computing)
  • 发表时间: 2025年10月13日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2510.10990

摘要

文本数据在大语言模型(LLMs)中变得极其宝贵,甚至可能推动通用人工智能(AGI)的发展。然而,现实世界中许多高质量文本数据是私有的,由于隐私担忧无法自由使用。因此,差分隐私(DP)合成文本生成被提出,旨在生成高效用的合成数据同时保护敏感信息。然而,现有DP合成文本生成方法施加统一保证,往往过度保护非敏感内容,导致显著的效用损失和计算开销。本文提出了Secret-Protected Evolution (SecPE),一个通过秘密感知保护扩展私有进化的新框架。理论上证明SecPE满足(p,r)-秘密保护,构成了高斯DP的松弛,实现更紧密的效用-隐私权衡,同时相对于基线方法大幅降低计算复杂度。

研究背景与动机

问题定义

随着大语言模型的快速发展,文本数据的价值日益凸显。然而,训练和适应这些模型通常依赖大量私有用户文本数据,这带来了严重的隐私风险,包括敏感内容的记忆化和泄露。

问题重要性

  1. 数据价值与隐私冲突: 高质量文本数据对LLMs至关重要,但私有数据的使用面临隐私法规限制
  2. 现有方法局限: 传统差分隐私方法对所有记录提供统一保护,即使敏感信息可能稀疏且在用户和属性间变化
  3. 计算效率问题: 现有私有进化(PE)方法需要大量成对相似性计算,计算开销巨大

研究动机

现有DP方法假设每条记录都同等敏感,但实际上:

  • 敏感信息可能稀疏分布
  • 不同用户和属性的敏感程度不同
  • 秘密可能在记录间重复
  • 统一保证导致过度保护和效用损失

核心贡献

  1. 提出SecPE框架: 一个强调秘密保护而非传统DP的私有合成数据生成框架,通过减少DP通常需要的噪声来提高效用
  2. 开发秘密保护聚类方法: 相比PE方法大幅降低运行时复杂度,从O(MNsyn)降至O(KNsyn),其中K≪M
  3. 理论保证: 证明SecPE满足(p,r)-秘密保护,这是高斯DP的松弛版本
  4. 实验验证: 在OpenReview、PubMed和Yelp数据集上,SecPE在相同重构保证下实现更高效率、更低FID和更好的下游准确率

方法详解

任务定义

给定包含敏感秘密的私有文本数据集,生成高质量合成文本数据,使其:

  1. 保持与原始数据相似的统计特性
  2. 保护特定秘密不被重构
  3. 在下游任务中保持良好性能

秘密保护定义

定义3.1 (秘密保护): 设D = {x₁,...,xₙ}为训练数据集,每个样本可能包含来自S = {s₁,...,sₘ}的秘密。对于秘密sⱼ∈S,设πⱼ为数据集{D¹ⱼ,...,Dᴷⱼ}上的先验分布,满足Pr(Dᵏⱼ) ≤ pⱼ,其中D和Dᵏⱼ仅在sⱼ的存在上不同。随机机制A满足(p,r)-秘密保护,如果对任何重构攻击B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

模型架构

SecPE框架包含两个核心组件:

1. 秘密聚类 (Secret Clustering)

  • 目标: 使用公开数据进行聚类,然后用噪声私有数据更新形成代表性中心
  • 算法流程:
    1. 对公开数据执行K-means聚类: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
    2. 将私有数据分配到最近的公开中心
    3. 添加校准噪声更新聚类统计

2. 保护进化 (Protected Evolution)

  • 目标: 基于噪声代表进行迭代选择,而非直接对私有数据投票
  • 优势: 将复杂度从O(MNsyn)降至O(KNsyn)

噪声校准

算法1 (SecretNoise): 通过线性规划为每个私有样本分配权重:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

其中ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ)作为容量约束。

技术创新点

  1. 从成员隐私到秘密保护: 不保护数据集成员关系,而是保护特定秘密内容
  2. 聚类加速: 用代表性投票替代逐点投票,大幅提升计算效率
  3. 松弛DP约束: (p,r)-秘密保护仅约束单点先验的对手成功率,而非整个权衡曲线

实验设置

数据集

  1. OpenReview: ICLR 2023论文评审,按研究领域和推荐评级标注
  2. PubMed: 医学论文摘要
  3. Yelp: 用户商业评论,按商业类别和评级标注

评价指标

  1. 计算效率: GPU小时数和直方图计算时间
  2. 下游性能: 在合成数据上微调RoBERTa/BERT的分类准确率
  3. 真实-合成相似性: 文本嵌入上的FID和文本长度分布比较

对比方法

  • Aug-PE: 基于μ-GDP的增强私有进化方法
  • 不同聚类数K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀等变体

实现细节

  • 生成模型: GPT-2, Qwen-2.5-1.5B (主实验), Llama-3.1-8B, GPT-4o-Mini (消融)
  • 嵌入模型: Sentence-Transformers
  • 隐私预算: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

实验结果

主要结果

运行时比较

表2显示SecPE在直方图构建上实现显著加速:

  • OpenReview: 126.9s → 1.5s (84×加速)
  • PubMed: 32.2s → 0.5s (64×加速)
  • Yelp: 30126.4s → 2.3s (约13,000×加速)

下游任务性能

在所有数据集上,SecPE consistently优于Aug-PE:

PubMed (表3):

  • GPT-2 + BERT-small: Aug-PE从29.70→24.93 (r/p: ∞→2), SecPE从29.19→29.18
  • 隐私要求越严格,SecPE优势越明显

Yelp (表5):

  • r/p=2时,SecPE₈₀₀在类别分类上达到72.74% vs Aug-PE的71.53%
  • 评级分类上SecPE₈₀₀达到62.46% vs Aug-PE的47.02%

真实-合成相似性

图2显示随着r/p减少,SecPE实现更低FID(更高相似性),而在非私有设置下FID略高但基本可比。

消融实验

LLM选择影响 (表6)

更强的LLM产生更好结果:

  • GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
  • Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

聚类数K的影响

实验显示性能对K的选择不敏感,方法具有鲁棒性。

PII任务结果

在真实PII检测任务上,SecPE相比Aug-PE的改进较为温和,但仍保持竞争力。

相关工作

差分隐私文本生成

  1. DP-Generator: 使用DP-SGD训练语言模型,计算密集且需大量高质量私有数据
  2. Private Evolution (PE): 通过API访问基础模型,迭代更新随机初始化样本
  3. 本文贡献: 从统一保护转向秘密感知保护

秘密保护vs差分隐私

  • 传统DP: 保护成员关系,对所有记录统一保护
  • 秘密保护: 针对特定秘密校准保证,允许公开数据无保护使用

结论与讨论

主要结论

  1. SecPE通过秘密感知保护实现更好的效用-隐私权衡
  2. 聚类方法显著提升计算效率
  3. 在多个数据集上consistently优于GDP基线方法
  4. 更强的LLM能产生更高质量的合成文本

局限性

  1. 聚类抽象损失: 聚类会抽象掉细粒度细节,在非私有情况下可能导致轻微效用损失
  2. 秘密定义挑战: 如何正式定义秘密及量化其敏感性仍是开放问题
  3. 适用范围: 方法假设敏感信息稀疏且重复,可能不适用于所有场景

未来方向

  1. 探索异构的、秘密特定的预算和自适应先验
  2. 扩展到图像域并调查秘密保护生成器
  3. 进一步标准化私有数据使用

深度评价

优点

  1. 理论创新: (p,r)-秘密保护概念新颖,为隐私保护提供新视角
  2. 实用价值: 显著的计算加速使方法更具实际应用价值
  3. 实验充分: 多数据集、多指标的全面评估
  4. 技术扎实: 严格的理论分析和证明

不足

  1. 秘密识别: 论文未充分讨论如何在实践中识别和定义"秘密"
  2. 基线限制: 主要与一个基线方法比较,缺乏与其他DP文本生成方法的对比
  3. 泛化性: 在PII任务上改进有限,方法的泛化能力需进一步验证

影响力

  1. 学术贡献: 为隐私保护合成数据生成提供新的理论框架
  2. 实用价值: 计算效率的显著提升使方法更适合大规模应用
  3. 可复现性: 提供详细的实现细节和超参数设置

适用场景

  1. 敏感信息稀疏且类型已知的文本数据
  2. 需要大规模隐私保护文本生成的应用
  3. 对计算效率有较高要求的场景
  4. 可以明确定义"秘密"的领域应用

参考文献

论文引用了隐私保护、差分隐私、文本生成等领域的重要工作,包括:

  • Abadi et al. (2016): DP-SGD基础工作
  • Dong et al. (2019): 高斯差分隐私理论
  • Xie et al. (2024): Private Evolution方法
  • Ganesh et al. (2025): 秘密保护理论基础