Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- 논문 ID: 2510.09717
- 제목: High-Power Training Data Identification with Provable Statistical Guarantees
- 저자: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
- 분류: cs.LG cs.AI
- 발표 시간/학회: 사전인쇄본 (2025년 10월)
- 논문 링크: https://arxiv.org/abs/2510.09717
대규모 모델에서 훈련 데이터를 식별하는 것은 저작권 소송, 개인정보 보호 감시 및 공정한 평가 보장에 필수적입니다. 기존 방법은 이를 단순한 이진 분류 작업으로 취급하여 통계적 보증이 부족합니다. 최근 방법들은 거짓 발견율(FDR)을 제어하는 메커니즘을 설계했지만, 그 보증은 쉽게 위반될 수 있는 강한 가정에 의존합니다. 본 논문은 거짓 발견율을 엄격하게 제어하는 증명 가능한 훈련 데이터 식별(PTDI) 방법을 제안합니다. 이 방법은 알려진 미확인 데이터 세트를 사용하여 각 데이터 포인트의 p값을 계산한 후, 테스트 세트 데이터 사용 비율의 보수적 추정기를 구성하여 이러한 p값을 조정합니다. 마지막으로 조정된 p값이 데이터 의존적 임계값 이하인 모든 포인트를 식별하여 최종 훈련 데이터 세트를 선택합니다. 전체 프로세스는 증명 가능한 엄격한 FDR 제어를 달성하며 통계적 검정력을 크게 향상시킵니다.
기계학습 모델의 광범위한 배포로 훈련 데이터 식별이 중요해졌으며, 주요 측면은 다음과 같습니다:
- 저작권 분쟁: Strike 3 대 Meta 사건에서 2,396개의 저작권 영화가 포함되어 있으며, 잠재적 법정 배상금이 3억 5천만 달러를 초과합니다
- 데이터 개인정보 보호: GDPR, CCPA 등 개인정보 보호 규정 준수 요구
- 데이터 오염: 평가 벤치마크의 공정성 보장, 훈련 데이터 유출 방지
- 기존 방법: 훈련 데이터 검출을 단순한 이진 분류 작업으로 취급하여 이론적 보증 부족
- 최근 방법: Hu 등(2025)이 제안한 knockoff 통계 방법은 FDR을 제어하지만 다음과 같은 문제가 있습니다:
- 모델 그래디언트에 대한 접근이 필요하여 블랙박스 설정에서 사용 불가
- 효과적인 knockoff 구성의 어려움, 대칭 분포 가정 위반 용이
- 무효한 FDR 제어 초래 가능
본 논문은 화이트박스 및 블랙박스 설정 모두에서 엄격한 FDR 제어를 제공하면서 더 높은 통계적 검정력을 갖춘 분포 무관 방법을 설계하는 것을 목표로 합니다.
- PTDI 방법 제안: 분포 무관의 유한 표본 FDR 제어를 달성하는 새로운 범용 방법으로, 기존 검출 방법과 결합 가능
- 이론적 보증: 엄격한 이론적 증명(정리 1)을 제공하여 PTDI가 거짓 발견율을 엄격하게 제어함을 보장
- 광범위한 실험 검증: 다양한 모델(LLM 및 VLM), 작업(사전훈련 및 미세조정) 및 데이터 세트에서 방법의 효과성 검증
- 실용성: 모델 무관 방법으로 블랙박스 및 화이트박스 설정에 적용 가능하며, 미확인 데이터만 보정 세트로 필요
목표 모델 θ, 보정 세트 Dcal(크기 n) 및 테스트 세트 Dtest = {Xn+j}^m_이 주어졌을 때, 목표는 인덱스 부분집합 S ⊆ {1,...,m}을 선택하여 거짓 발견율을 사용자 지정 수준 α ∈ (0,1)로 제어하는 것입니다:
FDR=E[max(∣S∣,1)∑j=1m1{Mn+j=0,j∈S}]≤α
각 테스트 포인트에 대해 p값 계산:
pj=n+11+∑i=1n1{Ti≤Tn+j}
여기서 T(X;θ)는 검출 점수(예: 혼란도)이며, 낮은 점수는 훈련 멤버일 가능성이 더 높음을 나타냅니다.
감산 추정기 π̂sub를 사용하여 테스트 세트의 훈련 데이터 비율 πtest 추정:
π^sub=1−n1∑i=1n1{T(Xi)∈R}m+11(1+∑j=1m1{T(Xn+j)∈R})
여기서 R = (τ,+∞)는 분위수 임계값 η를 통해 구성된 희소 멤버 영역입니다.
조정된 p값 계산:
p~j=(1−π^test)pj
BH 절차를 적용하여 최종 세트 선택:
S={j∣p~j≤mk∗α}
여기서 k∗=max{k∣p~(k)≤mkα}
- 보수적 추정기 설계: 감산 추정기는 E(1-πtest)/(1-π̂sub) ≤ 1을 보장하여 FDR 제어 유지
- p값 조정 기술: p값 조정을 통해 표준 BH 절차의 보수성을 극복하여 통계적 검정력 크게 향상
- 분포 무관 보증: 특정 분포 가정에 의존하지 않으며 광범위한 적용 가능성 보유
- LLM 사전훈련: WikiMIA, ArxivTection
- LLM 미세조정: XSum, BBC Real Time
- 시각 언어 모델: VL-MIA/Flickr, VL-MIA/DALL-E
- LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia(1.4B 및 6.9B)
- VLM: LLaVA-1.5, MiniGPT-4
- LLM: 혼란도(Perplexity), Zlib 압축률, MIN-K%, 수정된 엔트로피(M-Entropy)
- VLM: MaxRényi-K%
- FDR: 거짓 발견율의 경험적 추정
- Power: 통계적 검정력, 실제 멤버를 올바르게 식별하는 비율
모든 실험 설정에서 PTDI 방법은 FDR을 목표 수준 이하로 엄격하게 제어합니다:
- WikiMIA의 Pythia-1.4B, 목표 FDR=5%: PTDI는 4.94% 달성 vs KTD의 13.11%
- 모든 모델 및 데이터 세트 조합이 실제 FDR이 목표 수준 이하임을 보여줍니다
p값 조정은 통계적 검정력을 크게 향상시킵니다:
- WikiMIA의 GPT-NeoX-20B, 목표 FDR=0.5, MIN-K% 점수: 검정력이 0.44에서 0.75로 향상
- 다양한 목표 FDR 수준에서 조정 방법은 항상 vanilla 방법보다 우수합니다
- 보정 세트 크기 증가(ρ = n/m에서 0.1에서 1.0): FDP 및 검정력의 분산 감소
- 모든 ρ 값이 효과적으로 FDR을 제어합니다
- η ∈ {0.01, 0.05, 0.1, 0.5} 범위에서 방법이 견고하게 FDR을 제어합니다
- 기본 설정 η = 0.05
- 다양한 데이터 사용 비율(πtest = 0.3, 0.5, 0.7)에서 FDR 제어 유지
- PTDI는 모든 테스트 설정에서 FDR을 엄격하게 제어합니다
- KTD는 WikiMIA 및 XSum의 일부 α 값에서 제어 불가
- FDR 제어가 효과적인 경우, PTDI는 GPT-2에서 더 우수한 검정력을 보입니다
확인된 멤버 데이터를 사용할 수 있을 때 편향 보정된 모멘트 추정기 π̂mom을 제안하여 FDR 제어를 유지하면서 검정력을 추가로 향상시킵니다.
- 데이터 오염 연구: 벤치마크 데이터가 훈련 세트로 유출되는 것 방지
- 휴리스틱 검출 점수: 혼란도, MIN-k% 등의 방법은 이론적 보증 부족
- 통계적 엄격 방법: Dekoninck 등과 Oren 등의 방법은 데이터 세트 수준 가정에만 적용
- 개인정보 보호 관점: MIA는 특정 데이터 포인트가 훈련에 사용되었는지 여부 결정
- 이진 분류 방법: 평균 분류 정확도에 중점
- 가설 검정 프레임워크: Attack-P 등의 방법은 낮은 FPR에서 TPR 우선
- Benjamini-Hochberg 절차: 표준 FDR 제어 도구
- Conformal p값: Jin & Candès의 방법은 강한 i.i.d 가정 필요
- Knockoff 통계: Hu 등의 방법은 고품질 knockoff 생성 필요
- PTDI 방법은 분포 무관의 유한 표본 보증으로 엄격한 FDR 제어를 달성합니다
- p값 조정 기술은 이론적 엄격성을 유지하면서 통계적 검정력을 크게 향상시킵니다
- 방법은 광범위한 적용 가능성을 가지며 기존 검출 방법과 결합 가능합니다
- 보정 세트 요구: 테스트 세트와 분포가 유사한 미확인 데이터 보정 세트 필요
- 이질적 데이터 도전: 고도로 이질적인 테스트 데이터의 경우 대표적 보정 세트 구성 어려움
- 분포 불일치: 보정 데이터와 테스트 데이터의 현저한 분포 불일치는 FDR 보증을 무효화할 수 있음
- 더 견고한 데이터 사용 비율 추정 방법 개발
- 분포 불일치 상황에서의 FDR 제어 연구
- 더 복잡한 검출 시나리오로 확장
- 이론적 엄격성: 완전한 수학적 증명 및 유한 표본 보증 제공
- 실용성: 방법이 간단하고 구현하기 쉬우며 기존 도구와 결합 가능
- 충분한 실험: 다양한 모델, 작업 및 데이터 세트에 대한 광범위한 평가
- 혁신성: p값 조정 기술이 BH 절차의 보수성 문제를 교묘하게 해결
- 가정 제한: 적절한 보정 세트를 획득할 수 있다는 가정에 의존
- 계산 오버헤드: 많은 후보 데이터 포인트에 대해 검출 점수 계산 필요
- 매개변수 선택: η에 대해 견고하지만 최적 선택은 여전히 경험적 지도 필요
- 학술적 기여: 훈련 데이터 식별을 위한 첫 번째 엄격한 통계 프레임워크 제공
- 실용적 가치: 저작권 소송 및 개인정보 보호 감시에 직접 적용 가치
- 재현성: 알고리즘 설명이 명확하여 재현 및 확장 용이
- 저작권 보호: 모델 훈련에 사용된 저작권 보호 콘텐츠 식별
- 개인정보 보호 감시: 개인 데이터가 모델 훈련에 사용되었는지 여부 검증
- 벤치마크 평가: 평가 데이터 세트의 오염 샘플 검출 및 제거
- 모델 감시: 규제 환경에서 모델 준수 검증
논문은 다음을 포함한 여러 중요한 연구를 인용합니다:
- Benjamini & Hochberg (1995): FDR 제어의 고전적 BH 절차
- Shi et al. (2024): WikiMIA 데이터 세트 및 MIN-K% 검출 방법
- Hu et al. (2025): Knockoff 통계 기반 훈련 데이터 검출
- Jin & Candès (2023): 선택 문제에서의 Conformal p값
요약: 이는 훈련 데이터 식별 분야에서 중요한 이론적 및 실제적 가치를 갖춘 논문입니다. PTDI 방법은 엄격한 통계적 보증을 제공할 뿐만 아니라 실제 응용에서 우수한 성능을 보여줍니다. 이 연구는 현재 AI 모델의 투명성 및 책임성 문제 해결을 위한 중요한 도구를 제공합니다.