2025-11-10T03:06:11.822945

An information theorist's tour of differential privacy

Sarwate, Calmon, Kosut et al.
Since being proposed in 2006, differential privacy has become a standard method for quantifying certain risks in publishing or sharing analyses of sensitive data. At its heart, differential privacy measures risk in terms of the differences between probability distributions, which is a central topic in information theory. A differentially private algorithm is a channel between the underlying data and the output of the analysis. Seen in this way, the guarantees made by differential privacy can be understood in terms of properties of this channel. In this article we examine a few of the key connections between information theory and the formulation/application of differential privacy, giving an ``operational significance'' for relevant information measures.
academic

An information theorist's tour of differential privacy

基本信息

  • 论文ID: 2510.10316
  • 标题: An information theorist's tour of differential privacy
  • 作者: Anand D. Sarwate, Flavio P. Calmon, Oliver Kosut, Lalitha Sankar
  • 分类: cs.IT cs.CR math.IT math.ST stat.TH
  • 发表时间: 2024年10月11日 (arXiv提交)
  • 论文链接: https://arxiv.org/abs/2510.10316

摘要

自2006年提出以来,差分隐私已成为量化敏感数据发布或共享分析中某些风险的标准方法。差分隐私的核心是通过概率分布之间的差异来衡量风险,这是信息论的一个核心主题。差分隐私算法是底层数据与分析输出之间的一个信道。从这个角度来看,差分隐私提供的保证可以通过该信道的性质来理解。本文研究了信息论与差分隐私的制定/应用之间的几个关键联系,为相关信息度量提供了"操作意义"。

研究背景与动机

问题背景

  1. 隐私保护需求:随着大数据时代的到来,如何在保护个人隐私的同时发布有用的数据分析结果成为关键挑战
  2. 理论基础缺失:现有隐私保护方法缺乏严格的理论基础和可操作的风险量化方法
  3. 跨学科连接:差分隐私与信息论之间存在深层联系,但缺乏系统性的理论分析

研究动机

  1. 理论统一:从信息论角度统一理解差分隐私的各种概念和机制
  2. 操作意义:为差分隐私中的信息度量提供清晰的操作解释
  3. 实践指导:为差分隐私机制的设计和优化提供理论指导

核心贡献

  1. 建立理论框架:系统阐述了差分隐私与信息论之间的联系,将差分隐私算法视为信道
  2. 假设检验视角:从假设检验的角度重新解释差分隐私定义,提供了操作性理解
  3. 散度理论应用:深入分析了f-散度与差分隐私的关系,特别是hockey-stick散度
  4. 隐私会计方法:总结了基于隐私损失分布(PLD)的组合分析方法
  5. 机制优化理论:提供了差分隐私机制优化的信息论框架和具体算法

方法详解

任务定义

本文的核心任务是从信息论角度理解和分析差分隐私,具体包括:

  • 输入:敏感数据集D = (x₁, x₂, ..., xₙ)
  • 输出:满足差分隐私保证的随机化输出Y
  • 约束:对于任意相邻数据集对(D, D'),满足(ε, δ)-差分隐私

理论框架

1. 假设检验视角

差分隐私可以理解为二元假设检验问题:

  • H₀: Y ~ P_{Y|D}(y)
  • H₁: Y ~ P_{Y|D'}(y)

其中(ε, δ)-差分隐私等价于错误权衡曲线满足:

P_FA + e^ε P_MD ≥ 1 - δ
e^ε P_FA + P_MD ≥ 1 - δ

2. 隐私损失随机变量(PLRV)

定义隐私损失随机变量为:

L_{D,D'} = log(dP_{Y|D}/dP_{Y|D'}(Y))

PLRV的期望值为KL散度:

E[L] = D_KL(P_{Y|D} || P_{Y|D'})  (当Y ~ P_{Y|D}时)

3. f-散度连接

通过f-散度统一各种隐私度量:

D_f(P || Q) = ∫_Y f(dP/dQ) dQ = E_Q[f(e^L)]

特别地,hockey-stick散度E_γ直接给出δ参数:

δ(ε) = sup_{D~D'} E_{e^ε}(P_{Y|D} || P_{Y|D'})

技术创新点

1. 信道视角的统一

将差分隐私算法视为从数据到输出的信道,使得可以应用信息论工具进行分析

2. 散度理论的深度应用

系统性地使用f-散度理论,特别是hockey-stick散度,提供了差分隐私参数的直观解释

3. 组合分析的PLD方法

基于隐私损失分布的组合分析,包括:

  • FFT-based accounting
  • 尾界方法
  • 中心极限定理方法

实验设置

理论分析框架

本文主要是理论性工作,通过以下方式验证理论:

1. 噪声机制分析

  • 高斯噪声:分析不同方差σ下的错误权衡曲线
  • 拉普拉斯噪声:分析不同参数λ下的隐私保护效果
  • 阶梯机制:单次组合下的最优ε-差分隐私机制

2. 优化问题设定

对于敏感度为s的查询函数,考虑两类优化:

单次组合优化

minimize max_{|a|≤s} max_z log(p_Z(z)/p_Z(z-a))
subject to E[c(Z)] ≤ C

大组合regime优化

minimize max_{|a|≤s} D_KL(p(z) || p(z-a))
subject to E[c(Z)] ≤ C

评价指标

  • 隐私参数:(ε, δ)值的紧致性
  • 效用损失:期望成本Ec(Z)
  • 组合性能:多次查询下的隐私损失累积

实验结果

主要结果

1. 噪声机制比较

  • 高斯机制:在小敏感度regime下接近最优
  • 拉普拉斯机制:传统选择,但非最优
  • 阶梯机制:单次组合下的最优解,具有分段常数密度

2. 优化机制性能

  • Cactus机制:大组合regime下的最优机制,具有"尖刺"分布特性
  • Schrödinger机制:小敏感度下的最优机制,通过类似薛定谔方程求解

3. 隐私会计精度

  • FFT方法:数值精确但需要支配对
  • 鞍点方法:分析精确且处理自适应组合
  • CLT方法:渐近最优但可能过于保守

理论发现

1. 散度统一性

所有有意义的隐私度量都可以通过PLRV的函数表示,证明了PLRV的普遍性

2. 最优噪声的非高斯性

在大多数情况下,最优隐私机制不是高斯噪声,而是具有复杂结构的分布

3. 组合的复杂性

精确的组合分析在计算上是#P-complete的,需要近似方法

相关工作

差分隐私基础

  • Dwork等人(2006)的原始定义
  • 各种变种:Rényi DP, GDP, f-DP等
  • 应用:2020年美国人口普查、工业部署

信息论连接

  • Blackwell实验比较理论
  • f-散度理论(Csiszár, Ali-Silvey)
  • 假设检验与信息度量

隐私会计

  • 基本组合定理
  • 高级组合界
  • 数值方法和分析方法

结论与讨论

主要结论

  1. 理论统一:差分隐私可以完全通过信息论工具理解和分析
  2. 操作解释:假设检验视角为差分隐私提供了直观的操作意义
  3. 优化指导:信息论优化框架可以设计更好的隐私机制

局限性

  1. 计算复杂性:精确的隐私分析在计算上困难
  2. 参数选择:实践中如何选择合适的(ε, δ)仍然是挑战
  3. 实用性差距:理论最优机制与实际应用之间存在gap

未来方向

  1. 大模型隐私:处理大规模机器学习模型的隐私保护
  2. 微调隐私:预训练模型微调中的隐私保护
  3. 合成数据:隐私保护的合成数据生成
  4. 参数校准:基于攻击风险的参数选择

深度评价

优点

  1. 理论深度:提供了差分隐私的深刻信息论理解
  2. 系统性强:全面覆盖了差分隐私的各个理论方面
  3. 实用价值:为机制设计提供了具体的优化方法
  4. 表述清晰:复杂理论概念解释得通俗易懂

不足

  1. 实验验证有限:主要是理论工作,缺乏大规模实验验证
  2. 实践指导不足:理论结果到实际应用的转化需要更多工作
  3. 计算复杂性:一些理论最优方法计算复杂度过高

影响力

  1. 学术价值:为差分隐私研究提供了重要的理论基础
  2. 跨学科意义:促进了信息论与隐私保护的交叉研究
  3. 实用前景:为隐私保护系统设计提供了理论指导

适用场景

  1. 理论研究:差分隐私机制的理论分析和设计
  2. 系统优化:现有隐私保护系统的性能优化
  3. 教学应用:作为差分隐私理论教学的重要参考

参考文献

论文引用了77篇重要文献,涵盖:

  • 差分隐私基础理论(Dwork等)
  • 信息论经典结果(Csiszár, Rényi等)
  • 隐私会计方法(各种数值和分析方法)
  • 机器学习应用(DP-SGD等)
  • 最新进展(合成数据、参数选择等)

这篇论文为差分隐私提供了全面的信息论视角,是该领域的重要理论贡献。通过将差分隐私算法视为信道,作者成功地应用了信息论工具来分析和优化隐私机制,为理论研究和实际应用都提供了有价值的洞察。