2025-11-18T11:19:13.666890

Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness

Abdelghafar, Aliakbarpour, Jermaine

Disclosing private information via publication of a machine learning model is often a concern. Intuitively, publishing a learned model should be less risky than publishing a dataset. But how much risk is there? In this paper, we present a principled disclosure metric called \emph{gradient uniqueness} that is derived from an upper bound on the amount of information disclosure from publishing a learned model. Gradient uniqueness provides an intuitive way to perform privacy auditing. The mathematical derivation of gradient uniqueness is general, and does not make any assumption on the model architecture, dataset type, or the strategy of an attacker. We examine a simple defense based on monitoring gradient uniqueness, and find that it achieves privacy comparable to classical methods such as DP-SGD, while being substantially better in terms of (utility) testing accuracy.

academic

Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness

基本信息

论文ID: 2510.10902
标题: Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness
作者: Mahmoud Abdelghafar (Rice University), Maryam Aliakbarpour (Rice University), Chris Jermaine (Rice University)
分类: cs.LG stat.ML
发表时间: 2025年10月13日
论文链接: https://arxiv.org/abs/2510.10902v1

摘要

发布机器学习模型可能泄露私人信息，这是一个重要的隐私问题。直觉上，发布训练好的模型应该比直接发布数据集的风险更小，但具体风险有多大？本文提出了一个基于原理的披露度量方法——梯度唯一性(Gradient Uniqueness, GNQ)，该方法源于发布学习模型时信息披露量上界的数学推导。梯度唯一性为隐私审计提供了直观的方法，其数学推导具有通用性，不对模型架构、数据集类型或攻击者策略做任何假设。研究表明，基于GNQ监控的简单防御方法在隐私保护上可与DP-SGD等经典方法媲美，同时在测试准确率上表现更优。

研究背景与动机

核心问题

本研究要解决的核心问题是：如何量化机器学习模型发布过程中的隐私泄露风险。具体来说，当使用随机梯度下降(SGD)训练模型并发布最终模型参数时，攻击者能够从中推断出多少关于训练数据的信息？

问题重要性

实际需求迫切：现代AI系统(如大语言模型)的训练成本极高，组织不愿意为了隐私保护而大幅修改训练算法
现有方法局限：差分隐私(DP-SGD)虽然提供理论保证，但对模型性能损害严重
缺乏量化手段：现有方法主要基于攻击实验，缺乏理论支撑的隐私风险量化指标

现有方法局限性

差分隐私方法过于保守：DP-SGD需要在每个梯度上添加噪声和裁剪，导致模型性能严重下降
基于攻击的审计方法：依赖特定攻击策略，缺乏通用性和理论基础
最坏情况假设：现有理论分析往往基于最坏情况，在实际应用中过于悲观

研究动机

本文的核心思想是：既然SGD本身具有随机性，能否利用这种内在的隐私保护特性来量化风险，而不需要修改训练算法？ 这种思路更符合实际应用需求。

核心贡献

提出梯度唯一性(GNQ)指标：基于信息论推导的隐私风险度量方法，与信息泄露上界单调相关
理论通用性：数学推导不依赖于模型架构、数据集类型或攻击者策略，具有广泛适用性
实证验证：证明GNQ能够有效预测和解释各种攻击的成功率
简单有效的防御方法：基于GNQ排序移除高风险数据点，在保持模型效用的同时提供隐私保护

方法详解

任务定义

给定公开数据集 $D = \{d_j\}_{j=1}^N$ ，从中无放回均匀采样得到私有训练集 $D_t$ 。使用随机梯度下降训练参数化模型 $h_\theta$ ，攻击者观察最终模型参数 $\theta_{N_r}$ ，目标是推断某个数据点 $d_j$ 是否在训练集 $D_t$ 中。

梯度唯一性定义

定义1 (梯度唯一性)：对于训练批次 $i$ ，数据点 $d_j$ 相对于批次 $i$ 的梯度唯一性定义为：

$\text{GNQ}_{ij} = g_{ij}^T S^+ g_{ij}$

其中：

$S = \sum_{k=1, k \neq j}^N g_{ik} g_{ik}^T \in \mathbb{R}^{N_p \times N_p}$
$S^+$ 表示Moore-Penrose伪逆
$g_{ij} = \nabla_\theta[\ell[\theta_i, d_j]] \in \mathbb{R}^{N_p}$ 是损失函数在数据点 $d_j$ 处的梯度

核心理论结果

定理（非正式版本）：任何攻击者通过检查 $\theta_{N_r}$ 来确定 $d_j \in D_t$ 所能提取的信息量（以比特为单位）被一个与 $\sum_{i=1}^{N_r-1} \text{GNQ}_{ij}$ 单调递增的函数所上界。

几何直观理解

GNQ的计算可以几何化地表示为：

构建一个总结所有梯度的椭圆
$\text{GNQ}_{ij}$ 衡量数据点 $d_j$ 的梯度相对于该椭圆的异常程度
梯度越"独特"（偏离其他梯度的方向），GNQ值越高，隐私风险越大

技术创新点

信息论基础：基于互信息理论，建立了GNQ与信息泄露上界的数学联系
攻击无关性：不依赖特定攻击方法，提供通用的隐私风险评估
几何解释：通过梯度空间的几何分析，提供直观的风险理解
计算效率：提出对角化近似等技术，使方法适用于大规模模型

实验设置

数据集

MNIST: 手写数字识别
CIFAR-10/100: 自然图像分类
AT&T Database of Faces: 人脸识别
Tiny ImageNet: 大规模图像分类
IMDB: 情感分析

模型架构

MLP: 多层感知机
CNN: 卷积神经网络
ResNet: 残差网络（计算机视觉）
BERT: 基于Transformer的文本分类器

评价指标

隐私保护：成员推理攻击(MIA)的AUC ROC值
模型效用：测试集准确率
重构攻击：模型逆向攻击的重构质量

对比方法

Baseline: 无隐私保护的标准训练
DP-SGD: 差分隐私随机梯度下降（ $\epsilon \in \{2, 8, 512\}$ ）
GNQ-based: 基于梯度唯一性的防御方法

实验结果

主要结果

表1展示了GNQ过滤方法与DP-SGD的对比结果：

数据集	模型	设置	AUC ROC	测试准确率
CIFAR10	ResNet	Baseline	0.7294	80.80%
		Top-10% GNQ移除	0.5122	71.33%
		DP-SGD (ε=2)	0.5008	41.83%
CIFAR100	ResNet	Baseline	0.8752	49.58%
		Top-20% GNQ移除	0.5137	34.92%
		DP-SGD (ε=2)	0.5015	6.83%