2025-11-11T12:07:09.802097

Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach

Huang, Zhang, Mumtaz

Membership inference attacks (MIAs) test whether a data point was part of a model's training set, posing serious privacy risks. Existing methods often depend on shadow models or heavy query access, which limits their practicality. We propose GP-MIA, an efficient and interpretable approach based on Gaussian process (GP) meta-modeling. Using post-hoc metrics such as accuracy, entropy, dataset statistics, and optional sensitivity features (e.g. gradients, NTK measures) from a single trained model, GP-MIA trains a GP classifier to distinguish members from non-members while providing calibrated uncertainty estimates. Experiments on synthetic data, real-world fraud detection data, CIFAR-10, and WikiText-2 show that GP-MIA achieves high accuracy and generalizability, offering a practical alternative to existing MIAs.

academic

Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach

基本信息

论文ID: 2510.21846
标题: Training data membership inference via Gaussian process meta-modeling: a post-hoc analysis approach
作者: Yongchao Huang, Pengfei Zhang, Shahzad Mumtaz
分类: cs.LG cs.AI
发表时间: 2025年5月 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.21846

摘要

成员推理攻击(MIAs)测试数据点是否属于模型训练集的一部分，构成严重的隐私风险。现有方法通常依赖影子模型或大量查询访问，限制了其实用性。本文提出GP-MIA，一种基于高斯过程(GP)元建模的高效且可解释的方法。使用来自单个训练模型的事后指标(如准确率、熵、数据集统计和可选的敏感性特征如梯度、NTK测量)，GP-MIA训练GP分类器来区分成员和非成员，同时提供校准的不确定性估计。在合成数据、真实世界欺诈检测数据、CIFAR-10和WikiText-2上的实验表明，GP-MIA实现了高准确率和泛化能力，为现有MIAs提供了实用的替代方案。

影子模型方法：需要训练多个辅助模型来模拟目标行为，计算成本高
似然比攻击(LiRA)：需要多次查询模型和大量计算资源进行校准
实用性限制：现有方法通常需要大量计算资源、精心策划的辅助数据或对目标模型的多次查询

研究动机

本文提出一种仅需要单个训练模型的事后访问、避免重训练或内部访问的高效方法，同时提供校准的不确定性估计，增强效率和可解释性。

核心贡献

提出GP-MIA框架：基于高斯过程元建模的新型事后成员推理攻击方法
设计多层次特征体系：包括基础特征(性能指标、置信度)、梯度特征和NTK特征的统一表示
实现高效推理：仅需单次前向传播(可选反向传播)，避免影子模型训练
提供不确定性量化：GP分类器自然提供校准的概率预测和不确定性估计
验证跨域泛化能力：在合成数据、欺诈检测、图像分类和语言建模四个不同领域验证有效性

基础特征ϕcommon(x)：
- 性能指标：分类准确率或回归MSE
- 置信度测量：预测概率的平均熵
- 输入统计：特征均值和方差
- 扰动幅度：微调前后模型权重的ℓ2距离
梯度特征ϕgrad(x)：
```
ϕgrad(x) = [∥gθ(x)∥F, ∥Jx(x)∥F, ℓ(fθ*(x), y), ∥gℓ(x, y)∥2]
```
其中gθ(x) = ∇θfθ*(x)为参数雅可比矩阵，Jx(x) = ∂fθ*(x)/∂x为输入雅可比矩阵
NTK特征ϕntk(x)：
```
ϕntk(x) = [τλ(x), ∥hλ(x)∥2, maxi|hλ(x)i|, smax(x), s̄(x)]
```
基于神经切线核kθ*(x, x') = gθ(x)gθ(x')⊤的杠杆分数和投影统计

GP分类器

使用RBF + 白噪声核的高斯过程分类器：

k(x,x') = σ² exp(-1/(2ℓ²) ∥x-x'∥²)

对于二分类，GP与伯努利似然结合：

p(y* = 1 | x*,D) = ∫ σ(f(x*)) p(f(x*) | x*,D) df(x*)

技术创新点

事后分析范式：避免了影子模型训练和重复查询的开销
多模态特征融合：结合性能、统计和敏感性特征提供丰富的成员信号
不确定性量化：GP框架自然提供校准的概率预测
模型无关性：适用于各种监督学习模型

实验设置

数据集

合成分类数据：使用scikit-learn生成，包含2000个平衡样本的2聚类高斯混合
信用卡欺诈检测：OpenML公开数据集，284,807笔交易，仅492个正例
CIFAR-10：图像分类，使用CNN模型训练20个epoch
WikiText-2：语言建模，使用紧凑GPT-2风格模型(3层，4头，192维嵌入)

评价指标

AUROC：受试者工作特征曲线下面积
AUPR：精确率-召回率曲线下面积
TPR@1%FPR：1%假阳性率下的真阳性率
混淆矩阵：精确率和召回率

对比方法

主要与传统影子模型方法和LiRA方法进行概念对比，重点展示GP-MIA的效率优势。

实现细节

GP训练使用变分推理
RBF + 白噪声核
特征标准化
训练集占80%，测试集占20%

实验结果

主要结果

合成数据：GP能够适应不同的成员/非成员分布，对边界案例表现出适当的不确定性
欺诈检测：
- AUROC = 0.959
- AUPR = 0.961
- TPR@1%FPR = 0.60
- 成员概率均值≈0.81，非成员≈0.25
CIFAR-10：
- 训练成员数据集：概率0.93
- 新CIFAR-10数据集：概率0.84
- SVHN/增强数据集：概率≈0.04
- 插值数据集：概率0.37
WikiText-2：
- AUROC = 1.000
- AUPR = 1.000
- TPR@1%FPR = 1.000
- 零误分类，完美分离