2025-11-14T06:52:14.468604

Lost in the Averages: A New Specific Setup to Evaluate Membership Inference Attacks Against Machine Learning Models

Krčo, Guépin, Meeus et al.
Synthetic data generators and machine learning models can memorize their training data, posing privacy concerns. Membership inference attacks (MIAs) are a standard method of estimating the privacy risk of these systems. The risk of individual records is typically computed by evaluating MIAs in a record-specific privacy game. We analyze the record-specific privacy game commonly used for evaluating attackers under realistic assumptions (the \textit{traditional} game) -- particularly for synthetic tabular data -- and show that it averages a record's privacy risk across datasets. We show this implicitly assumes the dataset a record is part of has no impact on the record's risk, providing a misleading risk estimate when a specific model or synthetic dataset is released. Instead, we propose a novel use of the leave-one-out game, used in existing work exclusively to audit differential privacy guarantees, and call this the \textit{model-seeded} game. We formalize it and show that it provides an accurate estimate of the privacy risk posed by a given adversary for a record in its specific dataset. We instantiate and evaluate the state-of-the-art MIA for synthetic data generators in the traditional and model-seeded privacy games, and show across multiple datasets and models that the two privacy games indeed result in different risk scores, with up to 94\% of high-risk records being overlooked by the traditional game. We further show that records in smaller datasets and models not protected by strong differential privacy guarantees tend to have a larger gap between risk estimates. Taken together, our results show that the model-seeded setup yields a risk estimate specific to a certain model or synthetic dataset released and in line with the standard notion of privacy leakage from prior work, meaningfully different from the dataset-averaged risk provided by the traditional privacy game.
academic

平均値に埋もれて:記録特定プライバシーリスク評価の再評価

基本情報

  • 論文ID: 2405.15423
  • タイトル: Lost in the Averages: Reassessing Record-Specific Privacy Risk Evaluation
  • 著者: Nataša Krčo, Florent Guépin, Matthieu Meeus, Bogdan Kulynych, Yves-Alexandre de Montjoye
  • 機関: Imperial College London, Lausanne University Hospital (CHUV)
  • 分類: cs.LG, cs.CR
  • 発表時期/会議: Data Privacy Management (DPM) workshop at ESORICS 2025
  • 論文リンク: https://arxiv.org/abs/2405.15423v2

要約

本論文は、合成データ生成器および機械学習モデルのプライバシーリスク評価の問題を研究している。合成データ生成器とMLモデルは訓練データを記憶する可能性があり、プライバシーの懸念を引き起こす。メンバーシップ推論攻撃(MIAs)は、これらのシステムのプライバシーリスクを評価するための標準的な方法である。著者らは、現実的な攻撃者の仮定の下で記録特定プライバシーゲームを評価するための従来の方法を分析し、異なるデータセット間での記録のプライバシーリスクを平均化していることを発見した。本研究は、新しいモデルシード型プライバシーゲームを提案し、特定のデータセット内の記録の正確なプライバシーリスク推定を提供できる。実験により、従来のゲームは高リスク記録の最大94%を見落とす可能性があることが示された。

研究背景と動機

1. 問題定義

機械学習モデルと合成データ生成器が医療、法律、金融などの機密性の高い分野で広く応用されるにつれて、これらのモデルが訓練データを記憶する可能性の問題がますます顕著になっている。攻撃者は、メンバーシップ推論攻撃を通じて、特定の記録が訓練に使用されたかどうかを判定したり、完全な訓練サンプルを再構成したりする可能性がある。

2. 問題の重要性

  • プライバシー漏洩リスク: モデルの記憶により、機密個人情報が漏洩する可能性がある
  • 規制遵守: 規制要件を満たすためにプライバシーリスクを正確に評価する必要がある
  • 実際の展開: 特定のモデルまたは合成データセットがリリースされる場合、正確なリスク評価が必要である

3. 既存方法の限界

従来の記録特定プライバシーゲームは、データセットサンプリングをランダム性の源として使用し、記録のプライバシーリスクがそれが属するデータセットと無関係であることを暗黙的に仮定している。この仮定は実際のシナリオでは成立せず、リスク評価が誤解を招く可能性がある。

4. 研究の動機

著者らは、従来のプライバシーゲームが異なるデータセット間での記録のリスクを平均化しているのに対し、実際の応用では特定のデータセット内の記録のリスクを評価する必要があることを発見した。したがって、この問題を解決するためにモデルシード型ゲームを提案した。

核心的貢献

  1. 理論分析: 従来の記録特定プライバシーゲームを形式的に分析し、データセット間で平均化されたプライバシーリスクを計算していることを証明した
  2. 新手法の提案: モデルシード型プライバシーゲームを提案および形式化し、この手法が記録の差分プライバシー識別器(DPD)リスクに収束することを示した
  3. 実験検証: 複数のデータセットとモデルで2つのプライバシーゲームの差異を検証し、従来のゲームが高リスク記録の最大94%を見落とす可能性があることを発見した
  4. 影響要因分析: データセットサイズと差分プライバシー保証がリスク推定の差異に与える影響を分析した

方法の詳細

タスク定義

目標記録x、訓練アルゴリズムA(·)、および攻撃ϕ(·)が与えられた場合、目標は特定のデータセットDにおける記録xのプライバシーリスクを正確に推定することである。プライバシーリスクはメンバーシップ推論攻撃の成功率によって測定される。

従来のプライバシーゲーム (Traditional Privacy Game)

定義2: 目標記録x、データセットサイズn、訓練アルゴリズムA(·)、および攻撃ϕ(·)に対して:

  1. チャレンジャーが分布からデータセットD̄ ∼ D^nをサンプリングする
  2. チャレンジャーが秘密ビットb ∈ {0,1}をランダムに抽出する
  3. b=1の場合、目標記録xをD̄に追加してD = D̄ ∪ {x}を形成し、そうでなければD = D̄
  4. チャレンジャーがデータセットDで目標モデルθ ← A(D)を訓練する
  5. 攻撃者が推測b̂ = ϕ(θ)を出力する

モデルシード型プライバシーゲーム (Model-Seeded Privacy Game)

定義3: 目標記録x、部分データセットD̄、訓練アルゴリズムA(·)、および攻撃ϕ(·)に対して:

  1. チャレンジャーが秘密ビットb ∈ {0,1}をランダムに抽出する
  2. b=1の場合、目標記録xをD̄に追加してD = D̄ ∪ {x}を形成し、そうでなければD = D̄
  3. チャレンジャーが新しいランダムシードでデータセットDの目標モデルθ ← A(D)を訓練する
  4. 攻撃者が推測b̂ = ϕ(θ)を出力する

技術的革新点

  1. 固定データセット: 従来のゲームとは異なり、モデルシード型ゲームは目標データセットを固定し、モデルシードのみをランダム性の源として使用する
  2. 理論的保証: モデルシード型ゲームがDPDリスクに収束し、従来のゲームがデータセット平均リスクに収束することを証明した
  3. 実用性: 差分プライバシーと一致するプライバシーリスク推定を提供する

理論分析

命題1 (モデルシード型ゲームがDPDリスクに収束): 任意の固定目標記録x、部分データセットD̄、訓練アルゴリズムT(·)、および攻撃ϕ(·)に対して、モデルシード型ゲームでは:

|α̂^MS_ϕ - α_ϕ| ≤ √(log(2/ρ)/(2N))

命題2 (従来のゲームが平均プライバシーリスクに収束): 従来のプライバシーゲームの経験的誤り率は、i.i.d.データセット再サンプリング間の平均値に収束する:

|α̂^T_ϕ - E_{D̄∼D^n}α_{ϕ,D̄}| ≤ √(log(2/ρ)/(2N))

実験設定

データセット

  • Adultデータセット: 国勢調査データ、分類および連続人口統計特性を含む
  • UK Censusデータセット: 英国国勢調査データ
  • データセット分割: D_auxはMIA開発用、D_evalは評価用、|D| = 1000

目標モデル

  • Synthpop: 統計的合成データ生成器
  • Baynet: ベイズネットワーク生成器
  • PrivBayes: Baynetの差分プライバシー版

MIA手法

TAPAS攻撃を使用。これは合成データ生成器に対する最先端のクエリベース攻撃方法である。TAPASはブラックボックスモデルアクセスの下で実行され、補助データへのアクセスはあるが、目標モデルの訓練データへのアクセスはない。

評価指標

  • Miss Rate (MR): モデルシード設定で高リスクに分類されるが、従来の設定で低リスクに分類される記録の割合
  • Root Mean Squared Deviation (RMSD): 2つのリスク推定間の二乗平均平方根偏差
  • AUC ROC: プライバシーリスクの要約指標として

実験結果

主要な結果

Adultデータセットとsynthpop生成器での実験により以下が示された:

  • 94%の高リスク記録が従来のゲームで低リスクに誤分類される(閾値t=0.8)
  • RMSD範囲は0.04から0.11で、AUCで評価されるリスク内で有意な誤差を表す
  • Miss Rate範囲は0.73から0.94で、従来の設定が高リスク記録を継続的に誤識別していることを示す

異なる閾値の影響

すべての高リスク閾値に対して、miss rateは有意である:

  • t=0.6の場合、すべての設定でmiss rateが20%を超える
  • t=0.9の場合、miss rateは80%に達する
  • miss rateは閾値tの増加に伴い増加する

データセットサイズの影響

  • 小規模データセット(n<10,000): 2つのリスク推定間の差異が大きい
  • 大規模データセット: 差異は減少するが依然として有意である
  • |D|=10,000の大規模データセットでも、RMSDは依然として有意である

差分プライバシーの影響

厳密なε値でPrivBayesを訓練する場合:

  • MIA性能はεの減少に伴い低下し、ランダム推測ベースライン(AUC 0.5)に収束する
  • 推定が0.5付近に集中するにつれて、2つの推定間の差異も減少する
  • しかし、DP保証を検証する場合、モデルシード設定の使用は依然として重要である

ケーススタディ

15個のランダムに選択されたデータセット間での単一目標記録のリスク評価は以下を示す:

  • モデルシード型リスクR_MSは約0.5(ランダム推測)から0.8(高リスク)に変動する
  • 従来のリスクR_T = 0.62で、最悪の場合DPDリスクを0.2低く見積もる

関連研究

メンバーシップ推論攻撃の発展

  • Shokri等(2017): ML モデルに対するMIAを初めて提案
  • シャドウモデリング技術: 目標記録を含む/含まない複数のモデルを訓練してその影響を近似
  • 表形式合成データ: 合成データ生成器に特化した攻撃方法

脅威モデル

  • データレベル: 攻撃者が実データにアクセスできる程度
  • モデルレベル: 攻撃者が訓練モデルにアクセスできる程度(ブラックボックス対ホワイトボックス)
  • 現実的な仮定: 攻撃者は補助データセットへのアクセス権を持つ

MIA評価

  • モデル特定ゲーム: 攻撃者が訓練データに含まれる/含まれない記録を区別する能力を評価
  • 記録特定ゲーム: 攻撃者が目標記録で訓練された/されていないモデルを区別する能力を評価

結論と考察

主要な結論

  1. 従来のプライバシーゲームの限界: データセットサンプリングによってリスクを平均化し、誤解を招くリスク評価を提供する
  2. モデルシード型ゲームの利点: 特定のデータセット内の記録の正確なリスク推定を提供し、差分プライバシーと一致する
  3. 実際の影響: 従来の方法は多数の高リスク記録を見落とす可能性があり、プライバシー保護の決定に影響を与える

限界

  1. データセット依存性: 記録の脆弱性がデータセットに与える正確な影響は未解決の問題である
  2. 実験範囲: 主に表形式合成データに焦点を当てており、他のタイプのデータへの適用可能性はさらなる検証が必要である
  3. 計算コスト: モデルシード型ゲームはより多くの計算リソースを必要とする可能性がある

今後の方向性

  1. 理論分析: データセットが記録の脆弱性に与える影響メカニズムをより深く理解する
  2. 応用の拡張: 他のタイプの機械学習モデルとデータへの方法の拡張
  3. 実用ツール: 実用的なプライバシーリスク評価ツールの開発

深度評価

利点

  1. 理論的貢献: 2つのプライバシーゲームの収束特性を証明する厳密な理論分析を提供する
  2. 実用的価値: 実際のプライバシーリスク評価における重要な問題を解決する
  3. 十分な実験: 複数のデータセットとモデルで包括的な実験検証を実施している
  4. 明確な記述: 論文の構造が明確で、技術的詳細が正確に説明されている

不足点

  1. 実験範囲: 主に表形式データに焦点を当てており、他のデータタイプへの適用可能性が限定的である
  2. 計算複雑性: 2つの方法の計算複雑性の差異について詳細な分析がない
  3. 実際の展開: 実際のシステムでの展開に関するケーススタディが不足している

影響力

  1. 学術的貢献: プライバシーリスク評価分野に重要な理論的および実践的貢献を提供する
  2. 実用的価値: 機密データを扱う組織に対して重要な指針を提供する
  3. 再現性: 詳細な実験設定とアルゴリズム説明を提供している

適用シナリオ

  1. 合成データ公開: 合成データセットのプライバシーリスク評価
  2. モデル監査: 機械学習モデルのプライバシー監査
  3. 規制遵守: プライバシー法規の要件を満たすためのリスク評価
  4. 差分プライバシー検証: 差分プライバシー実装の有効性検証

参考文献

本論文は、プライバシー保護機械学習分野の重要な文献を引用している。これには以下が含まれる:

  • メンバーシップ推論攻撃に関するShokri等の先駆的研究
  • 差分プライバシーに関するDworkとRothの古典的理論
  • 合成データプライバシーに関する最近の関連研究

要約: 本論文は理論分析と実験検証を通じて、従来のプライバシーリスク評価方法の欠陥を明らかにし、より正確なモデルシード型プライバシーゲームを提案している。本研究は、特に合成データ生成とプライバシーリスク評価の分野において、プライバシー保護機械学習分野に重要な理論的および実践的価値を持つ。