Synthetic data generators and machine learning models can memorize their training data, posing privacy concerns. Membership inference attacks (MIAs) are a standard method of estimating the privacy risk of these systems. The risk of individual records is typically computed by evaluating MIAs in a record-specific privacy game. We analyze the record-specific privacy game commonly used for evaluating attackers under realistic assumptions (the \textit{traditional} game) -- particularly for synthetic tabular data -- and show that it averages a record's privacy risk across datasets. We show this implicitly assumes the dataset a record is part of has no impact on the record's risk, providing a misleading risk estimate when a specific model or synthetic dataset is released. Instead, we propose a novel use of the leave-one-out game, used in existing work exclusively to audit differential privacy guarantees, and call this the \textit{model-seeded} game. We formalize it and show that it provides an accurate estimate of the privacy risk posed by a given adversary for a record in its specific dataset. We instantiate and evaluate the state-of-the-art MIA for synthetic data generators in the traditional and model-seeded privacy games, and show across multiple datasets and models that the two privacy games indeed result in different risk scores, with up to 94\% of high-risk records being overlooked by the traditional game. We further show that records in smaller datasets and models not protected by strong differential privacy guarantees tend to have a larger gap between risk estimates. Taken together, our results show that the model-seeded setup yields a risk estimate specific to a certain model or synthetic dataset released and in line with the standard notion of privacy leakage from prior work, meaningfully different from the dataset-averaged risk provided by the traditional privacy game.
- 논문 ID: 2405.15423
- 제목: Lost in the Averages: Reassessing Record-Specific Privacy Risk Evaluation
- 저자: Nataša Krčo, Florent Guépin, Matthieu Meeus, Bogdan Kulynych, Yves-Alexandre de Montjoye
- 기관: Imperial College London, Lausanne University Hospital (CHUV)
- 분류: cs.LG, cs.CR
- 발표 시간/학회: Data Privacy Management (DPM) workshop at ESORICS 2025
- 논문 링크: https://arxiv.org/abs/2405.15423v2
본 논문은 합성 데이터 생성기 및 기계학습 모델의 개인정보보호 위험 평가 문제를 연구한다. 합성 데이터 생성기와 ML 모델은 훈련 데이터를 기억할 수 있으며, 이는 개인정보보호 우려를 야기한다. 멤버십 추론 공격(MIAs)은 이러한 시스템의 개인정보보호 위험을 평가하는 표준 방법이다. 저자들은 현실적인 공격자 가정 하에서 기록별 개인정보보호 게임을 평가하기 위한 전통적인 방법을 분석하여, 이 방법이 서로 다른 데이터셋에 걸쳐 기록의 개인정보보호 위험을 평균화함을 발견했다. 본 연구는 특정 데이터셋 내 기록의 정확한 개인정보보호 위험 추정을 제공할 수 있는 새로운 모델 시드 개인정보보호 게임을 제안한다. 실험 결과는 전통적인 게임이 고위험 기록의 최대 94%를 간과할 수 있음을 보여준다.
의료, 법률, 금융 등 민감한 분야에서 기계학습 모델과 합성 데이터 생성기의 광범위한 적용으로 인해, 이러한 모델이 훈련 데이터를 기억할 수 있다는 문제가 점점 더 두드러지고 있다. 공격자는 멤버십 추론 공격을 통해 특정 기록이 훈련에 사용되었는지 판단할 수 있으며, 심지어 완전한 훈련 샘플을 재구성할 수도 있다.
- 개인정보 유출 위험: 모델 기억으로 인한 민감한 개인정보 유출 가능성
- 규제 준수: 규정 요구사항을 충족하기 위한 정확한 개인정보보호 위험 평가 필요
- 실제 배포: 특정 모델 또는 합성 데이터셋 공개 시 정확한 위험 평가 필요
전통적인 기록별 개인정보보호 게임은 데이터셋 샘플링을 무작위성의 원천으로 사용하며, 기록의 개인정보보호 위험이 소속 데이터셋과 무관하다는 암묵적 가정을 한다. 이러한 가정은 실제 시나리오에서 성립하지 않으며, 위험 평가가 오도될 수 있다.
저자들은 전통적인 개인정보보호 게임이 서로 다른 데이터셋에 걸쳐 기록의 위험을 평균화하는 반면, 실제 응용에서는 특정 데이터셋 내 기록의 위험을 평가해야 함을 발견했다. 따라서 이 문제를 해결하기 위해 모델 시드 게임을 제안했다.
- 이론적 분석: 전통적인 기록별 개인정보보호 게임을 형식적으로 분석하여, 데이터셋 간 평균화된 개인정보보호 위험을 계산함을 증명
- 새로운 방법 제안: 모델 시드 개인정보보호 게임을 제안 및 형식화하며, 이 방법이 기록의 차분 개인정보보호 구분자(DPD) 위험으로 수렴함을 보임
- 실험 검증: 여러 데이터셋과 모델에서 두 가지 개인정보보호 게임의 차이를 검증하여, 전통적인 게임이 고위험 기록의 최대 94%를 간과할 수 있음을 발견
- 영향 요인 분석: 데이터셋 크기 및 차분 개인정보보호 보장이 위험 추정 차이에 미치는 영향을 분석
목표 기록 x, 훈련 알고리즘 A(·) 및 공격 ϕ(·)이 주어질 때, 목표는 특정 데이터셋 D 내 기록 x의 개인정보보호 위험을 정확히 추정하는 것이다. 개인정보보호 위험은 멤버십 추론 공격의 성공률로 측정된다.
정의 2: 목표 기록 x, 데이터셋 크기 n, 훈련 알고리즘 A(·) 및 공격 ϕ(·)에 대해:
- 도전자가 분포에서 데이터셋 D̄ ∼ D^n을 샘플링
- 도전자가 무작위로 비밀 비트 b ∈ {0,1}을 선택
- b=1이면 목표 기록 x를 D̄에 추가하여 D = D̄ ∪ {x}를 형성하고, 그렇지 않으면 D = D̄
- 도전자가 데이터셋 D에서 목표 모델 θ ← A(D)를 훈련
- 공격자가 추측 b̂ = ϕ(θ)를 출력
정의 3: 목표 기록 x, 부분 데이터셋 D̄, 훈련 알고리즘 A(·) 및 공격 ϕ(·)에 대해:
- 도전자가 무작위로 비밀 비트 b ∈ {0,1}을 선택
- b=1이면 목표 기록 x를 D̄에 추가하여 D = D̄ ∪ {x}를 형성하고, 그렇지 않으면 D = D̄
- 도전자가 새로운 무작위 시드로 데이터셋 D에서 목표 모델 θ ← A(D)를 훈련
- 공격자가 추측 b̂ = ϕ(θ)를 출력
- 고정 데이터셋: 전통적인 게임과 달리, 모델 시드 게임은 목표 데이터셋을 고정하고 모델 시드만을 무작위성의 원천으로 사용
- 이론적 보장: 모델 시드 게임이 DPD 위험으로 수렴하는 반면, 전통적인 게임은 데이터셋 평균 위험으로 수렴함을 증명
- 실용성: 차분 개인정보보호와 일치하는 개인정보보호 위험 추정 제공
명제 1 (모델 시드 게임이 DPD 위험으로 수렴): 임의의 고정 목표 기록 x, 부분 데이터셋 D̄, 훈련 알고리즘 T(·) 및 공격 ϕ(·)에 대해, 모델 시드 게임에서:
|α̂^MS_ϕ - α_ϕ| ≤ √(log(2/ρ)/(2N))
명제 2 (전통적 게임이 평균 개인정보보호 위험으로 수렴): 전통적 개인정보보호 게임의 경험적 오류율은 i.i.d. 데이터셋 재샘플링에 걸친 평균값으로 수렴:
|α̂^T_ϕ - E_{D̄∼D^n}α_{ϕ,D̄}| ≤ √(log(2/ρ)/(2N))
- Adult 데이터셋: 인구조사 데이터로 분류형 및 연속형 인구통계 특성 포함
- UK Census 데이터셋: 영국 인구조사 데이터
- 데이터셋 분할: D_aux는 MIA 개발용, D_eval은 평가용, |D| = 1000
- Synthpop: 통계적 합성 데이터 생성기
- Baynet: 베이지안 네트워크 생성기
- PrivBayes: Baynet의 차분 개인정보보호 버전
TAPAS 공격을 사용하며, 이는 합성 데이터 생성기에 대한 최첨단 쿼리 기반 공격 방법이다. TAPAS는 블랙박스 모델 접근 하에서 작동하며, 보조 데이터에 접근 가능하지만 목표 모델의 훈련 데이터에는 접근할 수 없다.
- Miss Rate (MR): 모델 시드 설정에서는 고위험으로 분류되지만 전통적 설정에서는 저위험으로 분류되는 기록의 비율
- Root Mean Squared Deviation (RMSD): 두 위험 추정 간의 제곱근 평균 제곱 편차
- AUC ROC: 개인정보보호 위험의 요약 지표로 사용
Adult 데이터셋과 Synthpop 생성기에서의 실험 결과:
- 94%의 고위험 기록이 전통적 게임에 의해 저위험으로 잘못 분류됨(임계값 t=0.8)
- RMSD 범위는 0.04에서 0.11 사이로, AUC로 평가된 위험에서 상당한 오류를 나타냄
- Miss Rate 범위는 0.73에서 0.94 사이로, 전통적 설정이 고위험 기록을 지속적으로 잘못 식별함을 나타냄
모든 고위험 임계값에 대해 miss rate가 상당함:
- t=0.6일 때, 모든 설정의 miss rate가 20%를 초과
- t=0.9일 때, miss rate가 80%에 달함
- miss rate는 임계값 t가 증가함에 따라 증가
- 소규모 데이터셋(n<10,000): 두 위험 추정 간 차이가 더 큼
- 대규모 데이터셋: 차이가 감소하지만 여전히 상당함
- |D|=10,000인 대규모 데이터셋에서도 RMSD가 여전히 상당함
엄격한 ε 값으로 PrivBayes를 훈련할 때:
- MIA 성능은 ε가 감소함에 따라 저하되어 무작위 추측 기준선(AUC 0.5)으로 수렴
- 추정이 0.5 근처에 집중됨에 따라 두 추정 간 차이도 감소
- 그러나 DP 보장을 검증할 때, 모델 시드 설정 사용이 여전히 중요함
15개의 무작위 선택 데이터셋에서 단일 목표 기록의 위험 평가:
- 모델 시드 위험 R_MS는 약 0.5(무작위 추측)에서 0.8(고위험)까지 변함
- 전통적 위험 R_T = 0.62로, 최악의 경우 DPD 위험을 0.2만큼 저평가
- Shokri 등(2017): ML 모델에 대한 MIA 최초 제안
- 섀도우 모델링 기법: 목표 기록을 포함/제외한 여러 모델을 훈련하여 그 영향을 근사
- 표 형식 합성 데이터: 합성 데이터 생성기에 특화된 공격 방법
- 데이터 수준: 공격자의 실제 데이터 접근 정도
- 모델 수준: 공격자의 훈련 모델 접근(블랙박스 vs 화이트박스)
- 현실적 가정: 공격자가 보조 데이터셋 접근 권한을 보유
- 모델 특정 게임: 공격자가 훈련 데이터 포함/제외 기록을 구분하는 능력 평가
- 기록 특정 게임: 공격자가 목표 기록에서 훈련/미훈련 모델을 구분하는 능력 평가
- 전통적 개인정보보호 게임의 한계: 데이터셋 샘플링을 통해 위험을 평균화하여 오도적인 위험 평가 제공
- 모델 시드 게임의 장점: 특정 데이터셋 내 기록의 정확한 위험 추정 제공, 차분 개인정보보호와 일치
- 실제 영향: 전통적 방법이 많은 고위험 기록을 간과할 수 있어 개인정보보호 결정에 영향
- 데이터셋 의존성: 기록 취약성이 데이터셋에 미치는 정확한 영향은 여전히 미해결 문제
- 실험 범위: 주로 표 형식 합성 데이터에 초점으로, 다른 유형 데이터의 적용 가능성 추가 검증 필요
- 계산 비용: 모델 시드 게임이 더 많은 계산 자원을 필요로 할 수 있음
- 이론적 분석: 데이터셋이 기록 취약성에 미치는 영향 메커니즘 심화 이해
- 적용 확대: 다른 유형의 기계학습 모델 및 데이터로 방법 확장
- 실용 도구: 실용적인 개인정보보호 위험 평가 도구 개발
- 이론적 기여: 두 개인정보보호 게임의 수렴 특성을 증명하는 엄격한 이론적 분석 제공
- 실용적 가치: 실제 개인정보보호 위험 평가의 중요한 문제 해결
- 충분한 실험: 여러 데이터셋과 모델에서 포괄적인 실험 검증
- 명확한 작성: 논문 구조가 명확하고 기술 세부사항 정확하게 기술
- 실험 범위: 주로 표 형식 데이터에 초점으로, 다른 데이터 유형의 적용 가능성 제한
- 계산 복잡도: 두 방법의 계산 복잡도 차이에 대한 상세 분석 부재
- 실제 배포: 실제 시스템에서의 배포 사례 연구 부족
- 학술적 기여: 개인정보보호 위험 평가 분야에 중요한 이론 및 실무 기여
- 실용적 가치: 민감한 데이터를 다루는 조직에 중요한 지침 제공
- 재현성: 상세한 실험 설정 및 알고리즘 설명 제공
- 합성 데이터 공개: 합성 데이터셋의 개인정보보호 위험 평가
- 모델 감시: 기계학습 모델의 개인정보보호 감시
- 규제 준수: 개인정보보호 법규 요구사항 충족을 위한 위험 평가
- 차분 개인정보보호 검증: 차분 개인정보보호 구현의 유효성 검증
논문은 개인정보보호 기계학습 분야의 중요 문헌을 인용하며, 다음을 포함:
- Shokri 등의 멤버십 추론 공격에 관한 획기적 연구
- Dwork와 Roth의 차분 개인정보보호 관련 고전 이론
- 합성 데이터 개인정보보호에 관한 최근 관련 연구
요약: 본 논문은 이론적 분석 및 실험 검증을 통해 전통적 개인정보보호 위험 평가 방법의 결함을 드러내고, 더욱 정확한 모델 시드 개인정보보호 게임을 제안한다. 본 연구는 개인정보보호 기계학습 분야, 특히 합성 데이터 생성 및 개인정보보호 위험 평가 측면에서 중요한 이론적 및 실무적 가치를 가진다.