2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han

The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.

academic

DITTO: जलचिह्नित LLM पर ज्ञान आसवन के माध्यम से स्पूफिंग हमला ढांचा

मूल जानकारी

पेपर ID: 2510.10987
शीर्षक: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
लेखक: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (Yonsei University)
वर्गीकरण: cs.CR (क्रिप्टोग्राफी और सुरक्षा), cs.AI (कृत्रिम बुद्धिमत्ता)
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.10987
कोड लिंक: https://github.com/hsannn/ditto.git

सारांश

बड़े भाषा मॉडल (LLM) जलचिह्न तकनीक एक मूल मान्यता पर आधारित है: विशिष्ट जलचिह्न विशिष्ट मॉडल के लेखकत्व को प्रमाणित कर सकते हैं। यह पेपर इस मान्यता में खतरनाक खामियों को प्रदर्शित करता है। लेखकों ने जलचिह्न धोखाधड़ी हमले का खतरा प्रस्तुत किया है, जो एक परिष्कृत हमला तरीका है जो दुर्भावनापूर्ण मॉडल को विश्वसनीय पीड़ित मॉडल के वास्तविक जलचिह्न युक्त पाठ उत्पन्न करने की अनुमति देता है। यह हानिकारक सामग्री (जैसे गलत सूचना) को विश्वसनीय स्रोतों के लिए निर्बाध रूप से गलत तरीके से जिम्मेदार ठहराने में सक्षम बनाता है। हमले की कुंजी जलचिह्न विकिरण (सूक्ष्म-ट्यूनिंग प्रक्रिया के दौरान डेटा पैटर्न की अनजाने विरासत) को खोजे जाने योग्य विशेषताओं से हमले के वाहक में परिवर्तित करना है। जलचिह्नित शिक्षक मॉडल से ज्ञान निकालकर, यह ढांचा हमलावरों को पीड़ित मॉडल के जलचिह्न संकेत को चोरी करने और प्रतिलिपि बनाने की अनुमति देता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या पृष्ठभूमि

औद्योगिक अनुप्रयोगों, शिक्षा और दैनंदिन जीवन में बड़े भाषा मॉडल के व्यापक अनुप्रयोग के साथ, LLM-उत्पन्न पाठ का पता लगाना और सत्यापन करना महत्वपूर्ण हो गया है। संयुक्त राज्य अमेरिका और यूरोपीय संघ के नियामक एजेंसियां LLM-उत्पन्न सामग्री के लिए स्पष्ट स्रोत ट्रेसेबिलिटी की मांग करते हैं। प्रमुख औद्योगिक प्रतिभागी (जैसे Meta, OpenAI, Google DeepMind) स्रोत सत्यापन के लिए व्यावहारिक उपकरण के रूप में जलचिह्न तकनीक को अपना रहे हैं।

मूल समस्या

मौजूदा LLM जलचिह्न तकनीक एक मौलिक मान्यता पर आधारित है: विशिष्ट जलचिह्न का पता लगाना विशिष्ट मॉडल के लेखकत्व को प्रमाणित करता है। हालांकि, इस मान्यता में गंभीर खामियां हैं जिन्हें गलत सूचना फैलाने और इसे विश्वसनीय स्रोतों के लिए जिम्मेदार ठहराने के लिए दुर्भावनापूर्वक उपयोग किया जा सकता है।

अनुसंधान प्रेरणा

सुरक्षा खतरे की पहचान: मौजूदा अनुसंधान मुख्य रूप से जलचिह्न मिटाने के हमलों पर केंद्रित है, जलचिह्न जालसाजी के हमलों पर कम ध्यान दिया जाता है
व्यावहारिक हानि: जलचिह्न धोखाधड़ी मिटाने से अधिक खतरनाक है क्योंकि यह भ्रामक निश्चितता पैदा करती है
तकनीकी खामियों का खुलासा: वर्तमान जलचिह्न सत्यापन प्रतिमान की मौलिक सुरक्षा खामियों को उजागर करना

मुख्य योगदान

जलचिह्न विकिरण को पहली बार हथियार बनाना: मूल रूप से पता लगाने के लिए उपयोग की जाने वाली घटना को शक्तिशाली गलत जिम्मेदारी उपकरण में परिवर्तित करना
अत्यधिक अनुकूलनीय हमला ढांचा: n-ग्राम और नमूना-आधारित जलचिह्न योजनाओं के लिए हमले की प्रभावशीलता को प्रदर्शित करना
शक्ति-गुणवत्ता व्यापार को तोड़ना: पाठ की गुणवत्ता में महत्वपूर्ण गिरावट के बिना धोखाधड़ी की शक्ति को महत्वपूर्ण रूप से बढ़ाना संभव है
व्यवस्थित सुरक्षा मूल्यांकन: LLM जलचिह्न के धोखाधड़ी हमले के खतरे का पहली बार व्यवस्थित रूप से मूल्यांकन करना

विधि विवरण

कार्य परिभाषा

एक जलचिह्नित मॉडल MT को लक्ष्य के रूप में दिया गया है, हमलावर एक अन्य मॉडल M को प्रशिक्षित करना चाहता है जो MT के जलचिह्न संकेत युक्त पाठ उत्पन्न कर सके, जिससे जलचिह्न डिटेक्टर को धोखा दिया जा सके। हमला ब्लैक-बॉक्स सेटिंग में किया जाता है, जहां हमलावर को लक्ष्य मॉडल के लॉजिट्स या जलचिह्न योजना की विशिष्ट जानकारी तक पहुंच नहीं है।

DITTO ढांचा आर्किटेक्चर

DITTO ढांचा तीन मुख्य चरणों से मिलकर बना है:

1. जलचिह्न विरासत (Watermark Inheritance)

ज्ञान आसवन के माध्यम से लक्ष्य मॉडल के जलचिह्न पैटर्न को ओपन-सोर्स छात्र मॉडल में स्थानांतरित करना:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

जहां DT जलचिह्नित शिक्षक मॉडल MT द्वारा उत्पन्न डेटासेट है, θS और θO क्रमशः छात्र मॉडल और मूल मॉडल के पैरामीटर हैं।

2. जलचिह्न निष्कर्षण (Watermark Extraction)

प्रशिक्षण से पहले और बाद में मॉडल लॉजिट्स के अंतर का विश्लेषण करके जलचिह्न संकेत निकालना:

वैश्विक विचलन:

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

स्थानीय विचलन:

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

अंतिम निष्कर्षण संकेत:

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. धोखाधड़ी हमला (Spoofing Attack)

अनुमान समय पर निकाले गए जलचिह्न संकेत को हमलावर मॉडल में इंजेक्ट करना:

l'MO(c) = lMO(c) + α · EWS(c)

जहां α इंजेक्शन की शक्ति को नियंत्रित करने वाला स्केलिंग पैरामीटर है।

तकनीकी नवाचार बिंदु

जलचिह्न विकिरण का उपयोग: जलचिह्न विकिरण को पता लगाने के उपकरण से हमले के वाहक में परिवर्तित करने का नवीन तरीका
योजना-अज्ञेयवाद: विशिष्ट जलचिह्न योजना के कार्यान्वयन विवरण पर निर्भर नहीं
वास्तविक समय इंजेक्शन तंत्र: अनुमान चरण में गतिशील रूप से जलचिह्न संकेत इंजेक्ट करना
ब्लैक-बॉक्स हमला सेटिंग: व्यावहारिक बाधाओं के तहत हमला

प्रायोगिक सेटअप

डेटासेट

Dolly-15k: 15,000 मानव-उत्पन्न प्रॉम्प्ट/प्रतिक्रिया जोड़े युक्त, निर्देश सूक्ष्म-ट्यूनिंग के लिए
MarkMyWords (MMW) Bookreport: जलचिह्न तकनीकों के व्यवस्थित मूल्यांकन के लिए विशेष बेंचमार्क

मॉडल कॉन्फ़िगरेशन

शिक्षक-छात्र मॉडल जोड़े:
- Llama3.1-8B → Llama3.2-3B
- Llama3.2-3B → Llama3.2-1B

मूल्यांकन मेट्रिक्स

TPR@FPR: निश्चित झूठी सकारात्मक दर (10%, 1%, 0.1%) पर सही सकारात्मक दर
p-value: जलचिह्न पता लगाने की सांख्यिकीय महत्ता (माध्यिका)
Perplexity: पाठ गुणवत्ता मूल्यांकन मेट्रिक

तुलना विधियां

JSV (Jovanović et al., 2024)
De-Mark (Chen et al., 2025) - ग्रे-बॉक्स और ब्लैक-बॉक्स सेटिंग
मूल जलचिह्नित मॉडल ऊपरी सीमा बेंचमार्क के रूप में

कार्यान्वयन विवरण

जलचिह्न पैरामीटर: δ=3, γ=0.5, z-threshold=4.0
प्रशिक्षण: 3 epoch की LoRA सूक्ष्म-ट्यूनिंग
हमले की शक्ति: α ∈ 2.5, 3, 3.5, 4, 4.5, 5

प्रायोगिक परिणाम

मुख्य परिणाम

MMW Bookreport डेटासेट पर, DITTO Llama3.1-8B पर हमला करने के परिणाम:

TPR@FPR=10%: 0.81
TPR@FPR=1%: 0.70
TPR@FPR=0.1%: 0.51
माध्यिका p-value: 7.97E-04
Perplexity: 4.18

Llama3.2-3B पर बेहतर प्रदर्शन:

TPR@FPR=10%: 0.99
TPR@FPR=1%: 0.99
TPR@FPR=0.1%: 0.97
माध्यिका p-value: 5.48E-17
Perplexity: 2.44

मुख्य निष्कर्ष

1. हमले की शक्ति और पाठ गुणवत्ता का गैर-पारंपरिक संबंध

प्रयोग से पता चलता है कि स्केलिंग पैरामीटर α के बढ़ने के साथ, perplexity एकरूप रूप से नहीं बढ़ता, बल्कि एक लहरदार पैटर्न प्रदर्शित करता है। यह "मजबूत हमला आवश्यक रूप से गुणवत्ता में गिरावट की ओर ले जाता है" की पारंपरिक मान्यता को तोड़ता है।

2. क्रॉस-स्कीम सामान्यता

DITTO SynthID (नमूना-आधारित जलचिह्न) के लिए समान रूप से प्रभावी है:

Llama3.1-8B: TPR@10%=0.88, p-value=7.10E-10
Llama3.2-3B: TPR@10%=0.90, p-value=8.12E-12

3. मॉडल आकार प्रभाव

हमले के वाहन के रूप में छोटे मॉडल बेहतर प्रदर्शन करते हैं, संभवतः जलचिह्न पैटर्न को सीखना और प्रतिलिपि बनाना आसान है।

विलोपन प्रयोग

α पैरामीटर (2.5-5.0) को बदलने के प्रयोग से पता चलता है:

p-value α के साथ लगातार घटता है
Perplexity परिवर्तन अनियमित है, कोई स्पष्ट गुणवत्ता गिरावट प्रवृत्ति नहीं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मौलिक सुरक्षा खामी: वर्तमान जलचिह्न तकनीक की मूल मान्यता में गंभीर खामियां हैं
व्यावहारिक हमले का खतरा: DITTO ब्लैक-बॉक्स सेटिंग में प्रभावी ढंग से हमला कर सकता है
प्रतिमान परिवर्तन की आवश्यकता: पता लगाने से वास्तविकता सत्यापन की ओर स्थानांतरण की आवश्यकता है

सीमाएं

जलचिह्न विरासत पर निर्भरता: हमले की सफलता छात्र मॉडल द्वारा जलचिह्न की वफादारी से विरासत पर निर्भर है
रक्षा तंत्र अनुसंधान की कमी: पेपर हमले पर केंद्रित है, संबंधित रक्षा की खोज नहीं करता
सीमित योजना कवरेज: केवल दो मुख्य जलचिह्न प्रकारों का परीक्षण किया गया

भविष्य की दिशाएं

मजबूत जलचिह्न डिजाइन: धोखाधड़ी-प्रतिरोधी जलचिह्न तकनीक विकसित करना
वास्तविकता सत्यापन: वास्तविक और नकली जलचिह्न को अलग करने की विधि
क्रिप्टोग्राफिक विधियां: जलचिह्न को मॉडल पहचान से बांधने का तंत्र

गहन मूल्यांकन

शक्तियां

महत्वपूर्ण सुरक्षा खोज: जलचिह्न तकनीक की मौलिक सुरक्षा समस्या का खुलासा
विधि नवाचार: जलचिह्न विकिरण का उपयोग करके पहली बार व्यवस्थित हमला
प्रयोग पूर्णता: कई मॉडल, डेटासेट और जलचिह्न योजनाओं में व्यापक मूल्यांकन
व्यावहारिक खतरे का मूल्य: वास्तविक बाधाओं के तहत ब्लैक-बॉक्स हमले की सेटिंग

कमजोरियां

नैतिक जोखिम: संभावित दुर्भावनापूर्ण उपयोग के लिए हमले की विधि प्रदान करता है
रक्षा की कमी: संबंधित रक्षा या शमन रणनीति प्रदान नहीं करता
सैद्धांतिक विश्लेषण की कमी: हमले की सफलता की शर्तों का सैद्धांतिक विश्लेषण नहीं
योजना कवरेज सीमित: केवल सीमित जलचिह्न योजनाओं का परीक्षण

प्रभाव

शैक्षणिक योगदान: जलचिह्न सुरक्षा अनुसंधान के लिए नई दिशा खोलता है
व्यावहारिक मूल्य: वर्तमान जलचिह्न तकनीक के सुरक्षा जोखिमों की चेतावनी
नीति प्रभाव: संबंधित नियामक नीति निर्माण को प्रभावित कर सकता है

लागू परिदृश्य

सुरक्षा मूल्यांकन: मौजूदा जलचिह्न प्रणाली की सुरक्षा का मूल्यांकन
रेड टीम परीक्षण: AI सुरक्षा टीमों के लिए आक्रामक परीक्षण उपकरण
अनुसंधान बेंचमार्क: बाद के रक्षा अनुसंधान के लिए हमले की बेसलाइन

संदर्भ

यह पेपर जलचिह्न तकनीक, हमले की विधि और AI सुरक्षा के क्षेत्र में महत्वपूर्ण अनुसंधान का हवाला देता है, जिसमें शामिल हैं:

Kirchenbauer et al. (2023) - KGW जलचिह्न योजना
Dathathri et al. (2024) - SynthID नमूना-आधारित जलचिह्न
Sander et al. (2024) - जलचिह्न विकिरण अवधारणा
और जलचिह्न हमले और रक्षा के कई संबंधित कार्य

समग्र मूल्यांकन: यह महत्वपूर्ण सुरक्षा महत्व का एक पेपर है जो वर्तमान LLM जलचिह्न तकनीक की मौलिक खामियों को उजागर करता है। हालांकि नैतिक विवाद मौजूद हैं, लेकिन इसका शैक्षणिक मूल्य और क्षेत्र के विकास में योगदान अनदेखा नहीं किया जा सकता। पेपर भविष्य में अधिक सुरक्षित जलचिह्न तकनीक के विकास के लिए दिशा निर्दिष्ट करता है।