2025-11-20T03:28:13.599904

Provable Watermarking for Data Poisoning Attacks

Zhu, Yu, Gao

In recent years, data poisoning attacks have been increasingly designed to appear harmless and even beneficial, often with the intention of verifying dataset ownership or safeguarding private data from unauthorized use. However, these developments have the potential to cause misunderstandings and conflicts, as data poisoning has traditionally been regarded as a security threat to machine learning systems. To address this issue, it is imperative for harmless poisoning generators to claim ownership of their generated datasets, enabling users to identify potential poisoning to prevent misuse. In this paper, we propose the deployment of watermarking schemes as a solution to this challenge. We introduce two provable and practical watermarking approaches for data poisoning: {\em post-poisoning watermarking} and {\em poisoning-concurrent watermarking}. Our analyses demonstrate that when the watermarking length is $Î(\sqrt{d}/Îµ_w)$ for post-poisoning watermarking, and falls within the range of $Î(1/Îµ_w^2)$ to $O(\sqrt{d}/Îµ_p)$ for poisoning-concurrent watermarking, the watermarked poisoning dataset provably ensures both watermarking detectability and poisoning utility, certifying the practicality of watermarking under data poisoning attacks. We validate our theoretical findings through experiments on several attacks, models, and datasets.

academic

데이터 중독 공격에 대한 증명 가능한 워터마킹

기본 정보

논문 ID: 2510.09210
제목: Provable Watermarking for Data Poisoning Attacks
저자: Yifan Zhu, Lijia Yu, Xiao-Shan Gao
분류: cs.CR (암호화 및 보안), cs.LG (머신러닝)
발표 학회: NeurIPS 2025 (제39회 신경정보처리시스템 학회)
논문 링크: https://arxiv.org/abs/2510.09210

초록

최근 데이터 중독 공격은 무해하거나 심지어 유익한 형태로 설계되고 있으며, 데이터셋 소유권 검증이나 개인 데이터를 무단 사용으로부터 보호하는 데 자주 사용됩니다. 그러나 이러한 발전은 데이터 중독이 전통적으로 머신러닝 시스템에 대한 보안 위협으로 간주되어 왔기 때문에 오해와 갈등을 초래할 수 있습니다. 이 문제를 해결하기 위해 무해한 중독 생성기는 생성된 데이터셋의 소유권을 선언하여 사용자가 잠재적 중독을 식별하고 오용을 방지할 수 있어야 합니다. 본 논문은 이 과제를 해결하기 위한 방안으로 워터마킹 방식을 배포할 것을 제안하며, 사후 중독 워터마킹과 중독 동시 워터마킹이라는 두 가지 증명 가능하고 실용적인 데이터 중독 워터마킹 방법을 소개합니다. 분석 결과, 워터마크 길이가 Θ(√d/ε_w)(사후 중독 워터마킹)와 Θ(1/ε_w²)에서 O(√d/ε_p) 범위(중독 동시 워터마킹) 내일 때, 워터마크된 중독 데이터셋은 워터마크 검출 가능성과 중독 효용을 증명 가능하게 보장합니다.

연구 배경 및 동기

문제 정의

전통적 개념의 변화: 데이터 중독 공격이 전통적인 악의적 위협에서 데이터셋 소유권 검증, 무단 사용 방지 등의 "선의" 응용으로 변화하고 있음
투명성 문제: 중독이 보호 목적으로 사용될 때, 승인된 사용자가 의도치 않게 중독된 데이터를 사용하여 오해와 갈등 초래
책임성 부재: 기존 검출 방법이 통일된 프레임워크와 증명 가능한 선언 메커니즘 부족

중요성

대규모 모델 훈련이 웹 크롤링 또는 합성 데이터에 점점 더 의존함에 따라 데이터 중독의 영향이 증가
예술가와 데이터 제작자는 생성형 AI의 무단 사용으로부터 지적재산권 보호 필요
데이터 보호와 투명성 간의 균형 필요

기존 방법의 한계

검출 방법이 공격 유형에 따라 다르며 통일이 어려움
휴리스틱 훈련 알고리즘 기반으로 증명 가능한 메커니즘 부족
중독된 데이터셋에 대한 명확하고 검증 가능한 선언 제공 불가

핵심 기여

데이터 중독 워터마킹 프레임워크 최초 제안: 워터마킹 기술을 데이터 중독 시나리오에 적용하여 투명성과 책임성 제공
두 가지 워터마킹 방식:
- 사후 중독 워터마킹: 제3자 실체가 이미 중독된 데이터셋에 워터마크 생성
- 중독 동시 워터마킹: 중독 생성기가 동시에 워터마크와 중독 생성
이론적 보장: 워터마크 검출 가능성과 중독 효용에 대한 엄격한 이론적 분석 제공
실용성 검증: 다양한 공격, 모델 및 데이터셋에서 이론적 발견 검증

방법 상세 설명

작업 정의

입력: 원본 데이터셋 D, 중독 예산 ε_p, 워터마크 예산 ε_w
출력: 워터마크된 중독 데이터셋, 검출 키 ζ
제약: 중독 효용 유지 동시에 워터마크 검출 가능성 보장

모델 아키텍처

1. 사후 중독 워터마킹 (Post-Poisoning Watermarking)

원본 데이터 x → 중독 δ_p → 중독 데이터 x' → 워터마크 δ_w → 최종 데이터 x' + δ_w

제3자 실체가 이미 중독된 데이터에 워터마크 추가
총 교란 예산: ε_p + ε_w
워터마크 길이 요구사항: Θ(√d/ε_w)

2. 중독 동시 워터마킹 (Poisoning-Concurrent Watermarking)

원본 데이터 x → 중독 및 워터마크 동시 적용 → 최종 데이터 x + δ_p + δ_w

중독 생성기가 중독과 워터마크를 동시에 제어
차원 분리: 워터마크 차원 W, 중독 차원 P = d\W
총 교란 예산: max{ε_p, ε_w}
워터마크 길이 요구사항: Θ(1/ε_w²)에서 O(√d/ε_p)

3. 검출 메커니즘

키: d차원 벡터 ζ
검출: 내적 ζᵀx 계산, 임계값과 비교
판정: ζᵀ(중독 데이터) > 임계값 > ζᵀ(정상 데이터)

기술 혁신 포인트

1. 이론적 프레임워크 혁신

샘플 수준 분석: 각 데이터 포인트에 대한 독립적 워터마크 및 키
범용 버전: 모든 샘플에 적용 가능한 단일 키
분포 일반화: 유한 샘플에서 전체 분포로 확장

2. 수학적 보장

McDiarmid 부등식 및 VC 차원 이론 활용:

검출 가능성: 높은 확률로 중독 및 정상 데이터 구분
효용 유지: 워터마크의 중독 효과 영향 제어 가능
일반화 성능: 유한 샘플 결과를 분포로 확장

3. 차원 분리 전략

중독 동시 워터마킹이 차원 분리를 통해 간섭 회피:

워터마크는 차원 W = {d₁, d₂, ..., d_q} 사용
중독은 차원 P = d\W 사용
상호 영향 감소, 성능 향상

실험 설정

데이터셋

CIFAR-10/CIFAR-100: 고전적 이미지 분류 데이터셋
Tiny-ImageNet: 소규모 ImageNet
SST-2: 텍스트 감정 분석 데이터셋

공격 방법

백도어 공격

Narcissus: 청정 레이블 백도어 공격
AdvSc: 적대적 백도어 공격

가용성 공격

UE (Unlearnable Examples): 학습 불가능 샘플
AP (Adversarial Poisoning): 적대적 중독

모델 아키텍처

ResNet-18/50, VGG-19, DenseNet121
WRN34-10, MobileNet v2, ViT-B
BERT-base (텍스트 작업)

평가 지표

정확도 (Acc): 테스트 셋에서의 모델 성능
공격 성공률 (ASR): 백도어 공격의 효과성
AUROC: 워터마크 검출 성능
계산 오버헤드: 시간 비용 분석

구현 세부사항

워터마크/중독 예산: 4/255에서 32/255
워터마크 길이: 100에서 3000
훈련: 200 에포크, 코사인 학습률 스케줄
최적화기: SGD, 모멘텀 0.9, 가중치 감소 10⁻⁴

실험 결과

주요 결과

1. 워터마크 검출 성능

워터마크 길이	Narcissus (사후)	Narcissus (동시)	AdvSc (사후)	AdvSc (동시)
500	0.9509	0.9968	0.9218	0.9986
1000	0.9974	0.9992	0.9809	0.9995
2000	1.0000	1.0000	0.9994	1.0000

2. 중독 효용 유지

사후 중독 워터마킹: 모든 워터마크 길이에서 양호한 공격 성능 유지
중독 동시 워터마킹: 워터마크 길이가 과도할 때 공격 효과 현저히 감소

3. 이론 검증

실험 결과가 이론적 예측 검증:

중독 동시 워터마킹이 동일한 검출 성능 달성에 더 짧은 워터마크 길이 필요
사후 중독 워터마킹이 중독 효용에 미치는 영향 더 작음
워터마크 길이와 검출 성능 간 양의 상관관계

소거 실험

1. 워터마크 예산 영향

ε_w 증가에 따라:

검출 성능(AUROC) 향상
중독 효과 감소
이론의 권형 관계 검증

2. 워터마크 위치 분석

다양한 이미지 영역(좌상, 좌하, 우상, 우하) 테스트:

위치가 성능에 미치는 영향 미미
이론의 위치 무관성 검증

3. 모델 이전성

다양한 아키텍처 간 양호한 이전성 시연:

높은 AUROC 점수(>0.95)
아키텍처 간 검출 안정성

견고성 분석

1. 데이터 증강 저항성

Random Flip, Cutout, Color Jitter 등 테스트:

AUROC 1.0000 유지
강한 견고성 시연

2. 방어 방법

차분 프라이버시: 심각한 노이즈로 훈련 실패 초래
확산 정제: 워터마크와 중독 동시 파괴
적대적 노이즈 제거: 중독 효용 영향

결론 및 논의

주요 결론

이론적 기여: 데이터 중독 워터마킹의 이론적 프레임워크 구축
실용적 방안: 배포 가능한 두 가지 워터마킹 방법 제공
성능 검증: 실험이 이론적 예측의 정확성 입증
응용 가치: "선의" 중독에 투명성과 책임성 제공

한계

필요 조건 미지: 충분 조건만 제공, 필요 조건은 추후 연구 필요
방어 취약성: 강력한 방어 방법에 대한 성능 저하
계산 오버헤드: 중독 동시 워터마킹에 추가 계산 시간 필요
적용 범위: 주로 인지 불가능 중독 공격에 초점

향후 방향

더 강한 견고성: 방어 저항 워터마킹 방식 설계
필요 조건: 워터마크 검출 가능성의 필요 조건 탐색
효율성 최적화: 계산 및 저장 오버헤드 감소
응용 확장: 더 많은 중독 유형 및 영역으로 확장

심층 평가

장점

문제의 중요성: 데이터 중독 투명성의 실제 수요 해결
이론적 엄밀성: 완전한 수학적 분석 및 증명 제공
방법 혁신성: 워터마킹과 중독 기술을 처음으로 체계적으로 결합
실험 충분성: 다중 데이터셋, 다중 모델, 다중 공격의 포괄적 검증
실용적 가치: 배포 가능한 솔루션 제공

부족한 점

방어 고려 부족: 강력한 방어 방법에 대한 견고성 제한
이론적 완전성: 필요 조건 분석 부재
적용 범위 제한: 주로 인지 불가능 공격에 적용
계산 효율성: 일부 시나리오에서 오버헤드 높음

영향력

학술적 기여: 두 개의 중요한 보안 영역을 개척적으로 결합
실용적 가치: AI 보안 및 데이터 보호에 새로운 도구 제공
이론적 의의: 새로운 이론적 분석 프레임워크 구축

적용 시나리오

예술 작품 보호: 생성형 AI의 무단 사용 방지
기업 데이터 공유: 내부 데이터 사용 추적
학술 연구: 연구 데이터의 출처 검증

기술 구현 세부사항

알고리즘 흐름

사후 중독 워터마킹 알고리즘

def post_poisoning_watermark(poisoned_data, key, watermark_dims, budget):
    watermark = budget * sign(key[watermark_dims])
    watermarked_data = poisoned_data + watermark
    return watermarked_data

검출 알고리즘

def detect_watermark(suspect_data, key, threshold):
    detection_value = key.T @ suspect_data
    return 1 if detection_value > threshold else 0

이론적 보장

McDiarmid 부등식 기반, 사후 중독 워터마킹의 경우:

q > (2/ε_w)√(2d log(1/ω))일 때
P(ζᵀ(x₁ + δ₁) > ζᵀx₂) > 1 - 2ω

실제 배포 고려사항

키 관리: 키 로테이션 및 HMAC 인증 지원
무결성 검증: SHA256 해시로 데이터 무결성 보장
접근 제어: HTTPS 기반 보안 키 배포
확장성: 대규모 데이터셋 처리 지원

요약: 본 논문은 데이터 중독과 워터마킹 기술의 교차 영역에서 개척적 기여를 수행했으며, 엄격한 이론적 분석뿐만 아니라 실용적 솔루션을 제공합니다. 방어 견고성과 이론적 완전성 측면에서 개선의 여지가 있지만, 해결하는 문제는 중요한 현실적 의미를 가지며 AI 보안 및 데이터 보호 영역에 새로운 연구 방향과 도구를 제공합니다.