2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic

DITTO: 지식 증류를 통한 워터마크된 LLM에 대한 스푸핑 공격 프레임워크

기본 정보

  • 논문 ID: 2510.10987
  • 제목: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
  • 저자: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (연세대학교)
  • 분류: cs.CR (암호화 및 보안), cs.AI (인공지능)
  • 발표 시간: 2025년 10월 13일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.10987
  • 코드 링크: https://github.com/hsannn/ditto.git

초록

대규모 언어 모델(LLM) 워터마킹 기술은 특정 워터마크가 특정 모델의 저자 신원을 증명할 수 있다는 핵심 가정에 기반합니다. 본 논문은 이 가정에 위험한 결함이 존재함을 입증합니다. 저자들은 악의적인 모델이 신뢰할 수 있는 피해 모델의 진정한 워터마크를 포함하는 텍스트를 생성할 수 있도록 하는 정교한 공격 방식인 워터마크 스푸핑 공격 위협을 제시합니다. 이를 통해 허위 정보와 같은 해로운 콘텐츠가 신뢰할 수 있는 출처로 무결하게 잘못 귀속될 수 있습니다. 공격의 핵심은 워터마크 방사능(미세 조정 과정에서 데이터 패턴의 의도하지 않은 상속)을 발견 가능한 특성에서 공격 벡터로 변환하는 것입니다. 워터마크된 교사 모델에서 지식을 추출함으로써, 이 프레임워크는 공격자가 피해자 모델의 워터마크 신호를 도용하고 복제할 수 있게 합니다.

연구 배경 및 동기

문제 배경

대규모 언어 모델이 산업 응용, 교육 및 일상생활에 광범위하게 적용됨에 따라, LLM 생성 텍스트의 탐지 및 검증이 매우 중요해졌습니다. 미국과 유럽연합의 규제 기관은 모두 LLM 생성 콘텐츠가 더 명확한 출처 추적 가능성을 갖출 것을 요구합니다. Meta, OpenAI, Google DeepMind와 같은 주요 산업 참여자들은 모두 워터마킹 기술을 출처 검증의 실용적 도구로 채택하고 있습니다.

핵심 문제

기존 LLM 워터마킹 기술은 특정 워터마크의 탐지가 특정 모델의 저자 신원을 증명할 수 있다는 근본적인 가정에 기반합니다. 그러나 이 가정에는 심각한 허점이 있으며, 허위 정보 전파를 위해 악의적으로 악용될 수 있고 이를 신뢰할 수 있는 출처에 귀속시킬 수 있습니다.

연구 동기

  1. 보안 위협 식별: 기존 연구는 주로 워터마크 제거 공격에 초점을 맞추고 있으며, 워터마크 위조 공격에 대한 관심은 상대적으로 적습니다.
  2. 실제 해로움: 워터마크 스푸핑은 제거보다 더 위험합니다. 왜냐하면 오도적인 확실성을 생성하기 때문입니다.
  3. 기술적 결함 노출: 현재 워터마크 검증 패러다임의 근본적인 보안 결함을 드러냅니다.

핵심 기여

  1. 워터마크 방사능의 최초 무기화: 원래 탐지용으로 사용되던 현상을 강력한 잘못된 귀속 도구로 변환
  2. 고도로 적응 가능한 공격 프레임워크: n-그램 및 샘플링 기반 워터마킹 방식에 대한 공격의 유효성 입증
  3. 강도-품질 트레이드오프 극복: 텍스트 품질의 현저한 저하 없이 스푸핑 강도를 크게 증가시킬 수 있음을 발견
  4. 체계적 보안 평가: LLM 워터마크의 스푸핑 공격 위협을 최초로 체계적으로 평가

방법론 상세 설명

작업 정의

워터마크된 모델 M_T를 목표로 하여, 공격자는 M_T의 워터마크 신호를 포함하는 텍스트를 생성할 수 있는 다른 모델 M을 훈련하기를 원합니다. 이를 통해 워터마크 탐지기를 속일 수 있습니다. 공격은 블랙박스 설정에서 수행되며, 공격자는 목표 모델의 로짓이나 워터마킹 방식의 구체적인 정보에 접근할 수 없습니다.

DITTO 프레임워크 아키텍처

DITTO 프레임워크는 세 가지 주요 단계로 구성됩니다:

1. 워터마크 상속 (Watermark Inheritance)

지식 증류를 통해 목표 모델의 워터마크 패턴을 오픈소스 학생 모델로 전이:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

여기서 D_T는 워터마크된 교사 모델 M_T에 의해 생성된 데이터셋이고, θ_S와 θ_O는 각각 학생 모델과 원본 모델의 매개변수입니다.

2. 워터마크 추출 (Watermark Extraction)

훈련 전후 모델 로짓의 차이를 분석하여 워터마크 신호 추출:

전역 편차:

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

지역 편차:

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

최종 추출 신호:

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. 스푸핑 공격 (Spoofing Attack)

추론 시간에 추출된 워터마크 신호를 공격자 모델에 주입:

l'MO(c) = lMO(c) + α · EWS(c)

여기서 α는 주입 강도를 제어하는 스케일링 매개변수입니다.

기술 혁신 포인트

  1. 워터마크 방사능 활용: 워터마크 방사능을 탐지 도구에서 공격 벡터로 혁신적으로 변환
  2. 방식 무관성: 특정 워터마킹 방식의 구현 세부사항에 의존하지 않음
  3. 실시간 주입 메커니즘: 추론 단계에서 동적으로 워터마크 신호 주입
  4. 블랙박스 공격 설정: 실제 제약 조건 하에서의 공격

실험 설정

데이터셋

  1. Dolly-15k: 명령어 미세 조정을 위한 15,000개의 인공 생성 프롬프트/응답 쌍 포함
  2. MarkMyWords (MMW) Bookreport: 워터마킹 기술 시스템 평가를 위한 전문 벤치마크

모델 구성

  • 교사-학생 모델 쌍:
    • Llama3.1-8B → Llama3.2-3B
    • Llama3.2-3B → Llama3.2-1B

평가 지표

  1. TPR@FPR: 고정된 거짓 양성율(10%, 1%, 0.1%)에서의 참 양성율
  2. p-value: 워터마크 탐지의 통계적 유의성(중앙값)
  3. Perplexity: 텍스트 품질 평가 지표

비교 방법

  • JSV (Jovanović et al., 2024)
  • De-Mark (Chen et al., 2025) - 그레이박스 및 블랙박스 설정
  • 원본 워터마크 모델 - 상한 기준선

구현 세부사항

  • 워터마크 매개변수: δ=3, γ=0.5, z-threshold=4.0
  • 훈련: 3 에포크의 LoRA 미세 조정
  • 공격 강도: α ∈ 2.5, 3, 3.5, 4, 4.5, 5

실험 결과

주요 결과

MMW Bookreport 데이터셋에서 DITTO가 Llama3.1-8B를 공격한 결과:

  • TPR@FPR=10%: 0.81
  • TPR@FPR=1%: 0.70
  • TPR@FPR=0.1%: 0.51
  • 중앙값 p-value: 7.97E-04
  • Perplexity: 4.18

Llama3.2-3B에서 더 나은 성능:

  • TPR@FPR=10%: 0.99
  • TPR@FPR=1%: 0.99
  • TPR@FPR=0.1%: 0.97
  • 중앙값 p-value: 5.48E-17
  • Perplexity: 2.44

주요 발견

1. 공격 강도와 텍스트 품질의 비전통적 관계

실험에서 스케일링 매개변수 α가 증가함에 따라 perplexity가 단조 증가하지 않고 변동 패턴을 보입니다. 이는 "더 강한 공격이 필연적으로 품질 저하를 초래한다"는 전통적 가정을 깨뜨립니다.

2. 방식 간 범용성

DITTO는 SynthID(샘플링 기반 워터마킹)에도 동등하게 효과적입니다:

  • Llama3.1-8B: TPR@10%=0.88, p-value=7.10E-10
  • Llama3.2-3B: TPR@10%=0.90, p-value=8.12E-12

3. 모델 규모의 영향

더 작은 모델이 공격 벡터로 사용될 때 더 나은 성능을 보입니다. 이는 워터마크 패턴을 더 쉽게 학습하고 복제할 수 있기 때문일 수 있습니다.

제거 실험

α 매개변수(2.5-5.0)를 변화시킨 실험을 통해:

  • p-value는 α 증가에 따라 지속적으로 감소
  • Perplexity 변화는 불규칙하며 명확한 품질 저하 추세 없음

관련 연구

LLM 워터마킹 기술

  1. 어휘 분할 기반 방법: KGW 방식 및 개선 버전
  2. 샘플링 기반 방법: SynthID, Tournament sampling 등
  3. 다중 비트 방식: 사용자 추적 가능 식별자 지원

워터마크 공격 연구

  1. 제거 공격: 패러프레이징, 최적화 등을 통한 워터마크 제거
  2. 도용 공격: 워터마킹 메커니즘의 역공학
  3. 스푸핑 공격: 본 논문의 초점, 상대적으로 연구 부족

워터마크 방사능

  • 탐지 용도: Sander 등의 출처 감시에 사용
  • 방어 연구: Pan 등의 중화 방법
  • 공격 전환: 본 논문이 최초로 무기화

결론 및 논의

주요 결론

  1. 근본적 보안 결함: 현재 워터마킹 기술의 핵심 가정에 심각한 허점 존재
  2. 실용적 공격 위협: DITTO는 블랙박스 설정에서도 효과적으로 공격 가능
  3. 패러다임 전환 필요: 존재 탐지에서 진정성 검증으로의 전환 필요

제한사항

  1. 워터마크 상속 효과에 의존: 공격 성공이 학생 모델의 충실한 워터마크 상속에 의존
  2. 방어 메커니즘 연구 부족: 논문은 공격에 초점을 맞추고 있으며 대응 방어 미탐색
  3. 제한된 방식 커버리지: 두 가지 주요 워터마킹 유형만 테스트

향후 방향

  1. 견고한 워터마킹 설계: 스푸핑 방지 워터마킹 기술 개발
  2. 진정성 검증: 진정한 워터마크와 모방 워터마크를 구별하는 방법
  3. 암호학적 방법: 워터마크를 모델 신원과 결합하는 메커니즘

심층 평가

장점

  1. 중요한 보안 발견: 워터마킹 기술의 근본적인 보안 문제 노출
  2. 방법론 혁신성: 워터마크 방사능을 공격에 활용한 최초의 체계적 접근
  3. 실험의 충분성: 여러 모델, 데이터셋 및 워터마킹 방식에 걸친 포괄적 평가
  4. 실제 위협 가치: 현실적 제약 하에서의 블랙박스 공격 설정

부족한 점

  1. 윤리적 위험: 악의적으로 악용될 수 있는 공격 방법 제공
  2. 방어 부재: 상응하는 방어 또는 완화 전략 미제공
  3. 이론적 분석 부족: 공격 성공 조건에 대한 이론적 분석 미흡
  4. 제한된 방식 커버리지: 제한된 워터마킹 방식만 테스트

영향력

  1. 학술적 기여: 워터마킹 보안 연구에 새로운 방향 개척
  2. 실용적 가치: 현재 워터마킹 기술의 보안 위험 경고
  3. 정책적 영향: 관련 규제 정책 수립에 영향 가능

적용 시나리오

  1. 보안 평가: 기존 워터마킹 시스템의 보안성 평가
  2. 레드팀 테스트: AI 보안 팀의 공격성 테스트 도구
  3. 연구 기준선: 후속 방어 연구의 공격 기준선

참고문헌

본 논문은 워터마킹 기술, 공격 방법 및 AI 보안 분야의 중요한 연구를 인용하고 있습니다:

  • Kirchenbauer et al. (2023) - KGW 워터마킹 방식
  • Dathathri et al. (2024) - SynthID 샘플링 기반 워터마킹
  • Sander et al. (2024) - 워터마크 방사능 개념
  • 그리고 워터마크 공격 및 방어에 관한 다수의 관련 연구

종합 평가: 이것은 현재 LLM 워터마킹 기술의 근본적인 허점을 드러내는 중요한 보안 의의를 가진 논문입니다. 윤리적 논쟁이 있지만, 그 학술적 가치와 분야 발전에 대한 추진력은 부인할 수 없습니다. 논문은 향후 더욱 안전한 워터마킹 기술 개발의 방향을 제시합니다.