DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
대규모 언어 모델(LLM) 워터마킹 기술은 특정 워터마크가 특정 모델의 저자 신원을 증명할 수 있다는 핵심 가정에 기반합니다. 본 논문은 이 가정에 위험한 결함이 존재함을 입증합니다. 저자들은 악의적인 모델이 신뢰할 수 있는 피해 모델의 진정한 워터마크를 포함하는 텍스트를 생성할 수 있도록 하는 정교한 공격 방식인 워터마크 스푸핑 공격 위협을 제시합니다. 이를 통해 허위 정보와 같은 해로운 콘텐츠가 신뢰할 수 있는 출처로 무결하게 잘못 귀속될 수 있습니다. 공격의 핵심은 워터마크 방사능(미세 조정 과정에서 데이터 패턴의 의도하지 않은 상속)을 발견 가능한 특성에서 공격 벡터로 변환하는 것입니다. 워터마크된 교사 모델에서 지식을 추출함으로써, 이 프레임워크는 공격자가 피해자 모델의 워터마크 신호를 도용하고 복제할 수 있게 합니다.
대규모 언어 모델이 산업 응용, 교육 및 일상생활에 광범위하게 적용됨에 따라, LLM 생성 텍스트의 탐지 및 검증이 매우 중요해졌습니다. 미국과 유럽연합의 규제 기관은 모두 LLM 생성 콘텐츠가 더 명확한 출처 추적 가능성을 갖출 것을 요구합니다. Meta, OpenAI, Google DeepMind와 같은 주요 산업 참여자들은 모두 워터마킹 기술을 출처 검증의 실용적 도구로 채택하고 있습니다.
워터마크된 모델 M_T를 목표로 하여, 공격자는 M_T의 워터마크 신호를 포함하는 텍스트를 생성할 수 있는 다른 모델 M을 훈련하기를 원합니다. 이를 통해 워터마크 탐지기를 속일 수 있습니다. 공격은 블랙박스 설정에서 수행되며, 공격자는 목표 모델의 로짓이나 워터마킹 방식의 구체적인 정보에 접근할 수 없습니다.