2025-11-14T06:52:14.468604

Lost in the Averages: A New Specific Setup to Evaluate Membership Inference Attacks Against Machine Learning Models

Krčo, Guépin, Meeus et al.
Synthetic data generators and machine learning models can memorize their training data, posing privacy concerns. Membership inference attacks (MIAs) are a standard method of estimating the privacy risk of these systems. The risk of individual records is typically computed by evaluating MIAs in a record-specific privacy game. We analyze the record-specific privacy game commonly used for evaluating attackers under realistic assumptions (the \textit{traditional} game) -- particularly for synthetic tabular data -- and show that it averages a record's privacy risk across datasets. We show this implicitly assumes the dataset a record is part of has no impact on the record's risk, providing a misleading risk estimate when a specific model or synthetic dataset is released. Instead, we propose a novel use of the leave-one-out game, used in existing work exclusively to audit differential privacy guarantees, and call this the \textit{model-seeded} game. We formalize it and show that it provides an accurate estimate of the privacy risk posed by a given adversary for a record in its specific dataset. We instantiate and evaluate the state-of-the-art MIA for synthetic data generators in the traditional and model-seeded privacy games, and show across multiple datasets and models that the two privacy games indeed result in different risk scores, with up to 94\% of high-risk records being overlooked by the traditional game. We further show that records in smaller datasets and models not protected by strong differential privacy guarantees tend to have a larger gap between risk estimates. Taken together, our results show that the model-seeded setup yields a risk estimate specific to a certain model or synthetic dataset released and in line with the standard notion of privacy leakage from prior work, meaningfully different from the dataset-averaged risk provided by the traditional privacy game.
academic

Lost in the Averages: Reassessing Record-Specific Privacy Risk Evaluation

基本信息

  • 论文ID: 2405.15423
  • 标题: Lost in the Averages: Reassessing Record-Specific Privacy Risk Evaluation
  • 作者: Nataša Krčo, Florent Guépin, Matthieu Meeus, Bogdan Kulynych, Yves-Alexandre de Montjoye
  • 机构: Imperial College London, Lausanne University Hospital (CHUV)
  • 分类: cs.LG, cs.CR
  • 发表时间/会议: Data Privacy Management (DPM) workshop at ESORICS 2025
  • 论文链接: https://arxiv.org/abs/2405.15423v2

摘要

本文研究了合成数据生成器和机器学习模型的隐私风险评估问题。合成数据生成器和ML模型可能记忆其训练数据,引发隐私担忧。成员推理攻击(MIAs)是评估这些系统隐私风险的标准方法。作者分析了用于评估现实攻击者假设下记录特定隐私游戏的传统方法,发现它平均了记录在不同数据集上的隐私风险。研究提出了一种新的模型种子隐私游戏,能够提供特定数据集中记录的准确隐私风险估计。实验表明,传统游戏可能忽略高达94%的高风险记录。

研究背景与动机

1. 问题定义

随着机器学习模型和合成数据生成器在医疗、法律、金融等敏感领域的广泛应用,这些模型可能记忆训练数据的问题日益突出。攻击者可能通过成员推理攻击来判断特定记录是否用于训练,甚至重构完整的训练样本。

2. 问题重要性

  • 隐私泄露风险: 模型记忆可能导致敏感个人信息泄露
  • 监管合规: 需要准确评估隐私风险以满足法规要求
  • 实际部署: 当特定模型或合成数据集发布时,需要准确的风险评估

3. 现有方法局限性

传统的记录特定隐私游戏通过数据集采样作为随机性来源,隐含假设记录的隐私风险与其所属数据集无关。这种假设在实际场景中并不成立,导致风险评估可能存在误导性。

4. 研究动机

作者发现传统隐私游戏平均了记录在不同数据集上的风险,而实际应用中需要评估记录在特定数据集中的风险。因此提出了模型种子游戏来解决这一问题。

核心贡献

  1. 理论分析: 形式化分析了传统记录特定隐私游戏,证明其计算的是跨数据集平均的隐私风险
  2. 新方法提出: 提出并形式化了模型种子隐私游戏,该方法收敛到记录的差分隐私区分器(DPD)风险
  3. 实验验证: 在多个数据集和模型上验证了两种隐私游戏的差异,发现传统游戏可能忽略高达94%的高风险记录
  4. 影响因素分析: 分析了数据集大小和差分隐私保证对风险估计差异的影响

方法详解

任务定义

给定目标记录x、训练算法A(·)和攻击ϕ(·),目标是准确估计记录x在特定数据集D中的隐私风险。隐私风险通过成员推理攻击的成功率来衡量。

传统隐私游戏 (Traditional Privacy Game)

定义2: 对于目标记录x、数据集大小n、训练算法A(·)和攻击ϕ(·):

  1. 挑战者从分布中采样数据集D̄ ∼ D^n
  2. 挑战者随机抽取秘密位b ∈ {0,1}
  3. 如果b=1,将目标记录x添加到D̄形成D = D̄ ∪ {x},否则D = D̄
  4. 挑战者在数据集D上训练目标模型θ ← A(D)
  5. 攻击者输出猜测b̂ = ϕ(θ)

模型种子隐私游戏 (Model-Seeded Privacy Game)

定义3: 对于目标记录x、部分数据集D̄、训练算法A(·)和攻击ϕ(·):

  1. 挑战者随机抽取秘密位b ∈ {0,1}
  2. 如果b=1,将目标记录x添加到D̄形成D = D̄ ∪ {x},否则D = D̄
  3. 挑战者在数据集D上用新随机种子训练目标模型θ ← A(D)
  4. 攻击者输出猜测b̂ = ϕ(θ)

技术创新点

  1. 固定数据集: 与传统游戏不同,模型种子游戏固定目标数据集,仅使用模型种子作为随机性来源
  2. 理论保证: 证明了模型种子游戏收敛到DPD风险,而传统游戏收敛到数据集平均风险
  3. 实用性: 提供了与差分隐私一致的隐私风险估计

理论分析

命题1 (模型种子游戏收敛到DPD风险): 对于任何固定目标记录x、部分数据集D̄、训练算法T(·)和攻击ϕ(·),在模型种子游戏中:

|α̂^MS_ϕ - α_ϕ| ≤ √(log(2/ρ)/(2N))

命题2 (传统游戏收敛到平均隐私风险): 传统隐私游戏的经验错误率收敛到跨i.i.d.数据集重采样的平均值:

|α̂^T_ϕ - E_{D̄∼D^n}α_{ϕ,D̄}| ≤ √(log(2/ρ)/(2N))

实验设置

数据集

  • Adult数据集: 人口普查数据,包含分类和连续人口统计特征
  • UK Census数据集: 英国人口普查数据
  • 数据集划分: D_aux用于MIA开发,D_eval用于评估,|D| = 1000

目标模型

  • Synthpop: 统计合成数据生成器
  • Baynet: 贝叶斯网络生成器
  • PrivBayes: Baynet的差分隐私版本

MIA方法

使用TAPAS攻击,这是针对合成数据生成器的最先进查询基攻击方法。TAPAS在黑盒模型访问下运行,具有辅助数据但无法访问目标模型的训练数据。

评价指标

  • Miss Rate (MR): 在模型种子设置中被分类为高风险但在传统设置中被分类为低风险的记录比例
  • Root Mean Squared Deviation (RMSD): 两种风险估计之间的均方根偏差
  • AUC ROC: 作为隐私风险的汇总指标

实验结果

主要结果

实验在Adult数据集和Synthpop生成器上显示:

  • 94%的高风险记录被传统游戏错误分类为低风险(阈值t=0.8)
  • RMSD范围从0.04到0.11,在使用AUC评估的风险中代表显著误差
  • Miss Rate范围从0.73到0.94,表明传统设置持续错误识别高风险记录

不同阈值的影响

对于所有高风险阈值,miss rate都很显著:

  • t=0.6时,所有设置的miss rate都超过20%
  • t=0.9时,miss rate高达80%
  • miss rate随着阈值t增大而增加

数据集大小的影响

  • 小数据集(n<10,000): 两种风险估计差异较大
  • 大数据集: 差异减小但仍然显著
  • 即使在|D|=10,000的大数据集中,RMSD仍然显著

差分隐私的影响

使用严格的ε值训练PrivBayes时:

  • MIA性能随ε减小而降低,收敛到随机猜测基线(AUC 0.5)
  • 随着估计集中在0.5附近,两种估计之间的差异也减小
  • 但在验证DP保证时,使用模型种子设置仍然重要

案例分析

对单个目标记录在15个随机选择数据集中的风险评估显示:

  • 模型种子风险R_MS从约0.5(随机猜测)到0.8(高风险)变化
  • 传统风险R_T = 0.62,在最坏情况下低估DPD风险达0.2

相关工作

成员推理攻击发展

  • Shokri等人(2017): 首次提出针对ML模型的MIA
  • 影子建模技术: 训练多个包含/不包含目标记录的模型来近似其影响
  • 表格合成数据: 专门针对合成数据生成器的攻击方法

威胁模型

  • 数据级别: 攻击者对真实数据的访问程度
  • 模型级别: 攻击者对训练模型的访问(黑盒vs白盒)
  • 现实假设: 攻击者具有辅助数据集访问权限

MIA评估

  • 模型特定游戏: 评估攻击者区分训练数据中包含/排除记录的能力
  • 记录特定游戏: 评估攻击者区分在目标记录上训练/未训练模型的能力

结论与讨论

主要结论

  1. 传统隐私游戏的局限性: 通过数据集采样平均风险,提供误导性的风险评估
  2. 模型种子游戏的优势: 提供特定数据集中记录的准确风险估计,与差分隐私一致
  3. 实际影响: 传统方法可能忽略大量高风险记录,影响隐私保护决策

局限性

  1. 数据集依赖性: 记录脆弱性对数据集的确切依赖性仍是开放问题
  2. 实验范围: 主要关注表格合成数据,其他类型数据的适用性需要进一步验证
  3. 计算成本: 模型种子游戏可能需要更多计算资源

未来方向

  1. 理论分析: 深入理解数据集对记录脆弱性的影响机制
  2. 扩展应用: 将方法扩展到其他类型的机器学习模型和数据
  3. 实用工具: 开发实用的隐私风险评估工具

深度评价

优点

  1. 理论贡献: 提供了严格的理论分析,证明了两种隐私游戏的收敛性质
  2. 实用价值: 解决了实际隐私风险评估中的重要问题
  3. 实验充分: 在多个数据集和模型上进行了全面的实验验证
  4. 写作清晰: 论文结构清晰,技术细节描述准确

不足

  1. 实验范围: 主要关注表格数据,对其他数据类型的适用性有限
  2. 计算复杂度: 没有详细分析两种方法的计算复杂度差异
  3. 实际部署: 缺乏在真实系统中部署的案例研究

影响力

  1. 学术贡献: 为隐私风险评估领域提供了重要的理论和实践贡献
  2. 实用价值: 对处理敏感数据的组织具有重要指导意义
  3. 可复现性: 提供了详细的实验设置和算法描述

适用场景

  1. 合成数据发布: 评估合成数据集的隐私风险
  2. 模型审计: 对机器学习模型进行隐私审计
  3. 监管合规: 满足隐私法规的风险评估要求
  4. 差分隐私验证: 验证差分隐私实现的有效性

参考文献

论文引用了隐私保护机器学习领域的重要文献,包括:

  • Shokri等人关于成员推理攻击的开创性工作
  • Dwork和Roth关于差分隐私的经典理论
  • 近期关于合成数据隐私的相关研究

总结: 本文通过理论分析和实验验证,揭示了传统隐私风险评估方法的缺陷,并提出了更准确的模型种子隐私游戏。研究对隐私保护机器学习领域具有重要的理论和实践价值,特别是在合成数据生成和隐私风险评估方面。