DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
Ahn, Park, Han
The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.
academic
DITTO: إطار عمل هجوم التزييف على نماذج اللغة الكبيرة المائية عبر تقطير المعرفة
تستند تقنيات وضع العلامات المائية لنماذج اللغة الكبيرة (LLM) على افتراض أساسي: أن علامة مائية معينة يمكنها إثبات ملكية نموذج معين. تثبت هذه الورقة وجود عيوب خطيرة في هذا الافتراض. يقترح المؤلفون تهديد هجوم التزييف على العلامات المائية، وهي طريقة هجوم متطورة تسمح لنموذج خبيث بإنشاء نصوص تحتوي على العلامات المائية الحقيقية لنموذج الضحية الموثوق. هذا يسمح بنسب محتوى ضار (مثل المعلومات المضللة) بسلاسة إلى مصادر موثوقة. المفتاح في الهجوم هو تحويل الإشعاع المائي (الوراثة غير المقصودة لأنماط البيانات أثناء الضبط الدقيق) من ميزة قابلة للاكتشاف إلى ناقل هجوم. من خلال استخراج المعرفة من نموذج المعلم المائي، يسمح الإطار للمهاجمين بسرقة ونسخ إشارات العلامة المائية لنموذج الضحية.
مع الاستخدام الواسع لنماذج اللغة الكبيرة في التطبيقات الصناعية والتعليم والحياة اليومية، أصبح الكشف والتحقق من النصوص المولدة بواسطة LLM أمراً حاسماً. تطلب الجهات التنظيمية في الولايات المتحدة والاتحاد الأوروبي تتبعاً أوضح لمصدر محتوى LLM. يعتبر جميع اللاعبين الصناعيين الرئيسيين (مثل Meta و OpenAI و Google DeepMind) تقنيات العلامات المائية أداة عملية للتحقق من المصدر.
تستند تقنيات العلامات المائية الحالية لـ LLM على افتراض أساسي: الكشف عن علامة مائية معينة يثبت ملكية نموذج معين. ومع ذلك، يوجد عيب خطير في هذا الافتراض قد يتم استغلاله بشكل خبيث لنشر المعلومات المضللة ونسبتها إلى مصادر موثوقة.
بالنظر إلى نموذج مائي MT كهدف، يرغب المهاجم في تدريب نموذج آخر M بحيث يمكنه إنشاء نصوص تحتوي على إشارات العلامة المائية لـ MT، وبالتالي خداع كاشف العلامات المائية. يتم الهجوم في إعداد الصندوق الأسود، حيث لا يمكن للمهاجم الوصول إلى logits النموذج الهدف أو المعلومات المحددة لمخطط العلامات المائية.
أظهرت التجارب أنه مع زيادة معامل التحجيم α، لا يرتفع perplexity بشكل رتيب، بل يظهر نمط متذبذب. هذا يكسر الافتراض التقليدي "الهجوم الأقوى يؤدي حتماً إلى انخفاض الجودة".
تستشهد هذه الورقة بأبحاث مهمة في مجالات تقنيات العلامات المائية وطرق الهجوم وأمان الذكاء الاصطناعي، بما في ذلك:
Kirchenbauer et al. (2023) - مخطط العلامات المائية KGW
Dathathri et al. (2024) - العلامات المائية من نوع العينات SynthID
Sander et al. (2024) - مفهوم الإشعاع المائي
وأعمال متعددة ذات صلة بهجمات ودفاعات العلامات المائية
التقييم الإجمالي: هذه ورقة ذات أهمية أمنية كبيرة، تكشف عن عيوب أساسية في تكنولوجيا العلامات المائية الحالية لـ LLM. على الرغم من وجود جدل أخلاقي، فإن قيمتها الأكاديمية وتأثيرها على تطور المجال لا يمكن إنكاره. توفر الورقة اتجاهاً واضحاً لتطوير تقنيات علامات مائية أكثر أماناً في المستقبل.