2025-11-10T02:43:43.995345

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Ahn, Park, Han

The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.

academic

DITTO: إطار عمل هجوم التزييف على نماذج اللغة الكبيرة المائية عبر تقطير المعرفة

المعلومات الأساسية

معرّف الورقة: 2510.10987
العنوان: DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation
المؤلفون: Hyeseon Ahn, Shinwoo Park, Yo-Sub Han (جامعة Yonsei)
التصنيف: cs.CR (التشفير والأمان)، cs.AI (الذكاء الاصطناعي)
تاريخ النشر: 13 أكتوبر 2025 (نسخة أولية من arXiv)
رابط الورقة: https://arxiv.org/abs/2510.10987
رابط الكود: https://github.com/hsannn/ditto.git

الملخص

تستند تقنيات وضع العلامات المائية لنماذج اللغة الكبيرة (LLM) على افتراض أساسي: أن علامة مائية معينة يمكنها إثبات ملكية نموذج معين. تثبت هذه الورقة وجود عيوب خطيرة في هذا الافتراض. يقترح المؤلفون تهديد هجوم التزييف على العلامات المائية، وهي طريقة هجوم متطورة تسمح لنموذج خبيث بإنشاء نصوص تحتوي على العلامات المائية الحقيقية لنموذج الضحية الموثوق. هذا يسمح بنسب محتوى ضار (مثل المعلومات المضللة) بسلاسة إلى مصادر موثوقة. المفتاح في الهجوم هو تحويل الإشعاع المائي (الوراثة غير المقصودة لأنماط البيانات أثناء الضبط الدقيق) من ميزة قابلة للاكتشاف إلى ناقل هجوم. من خلال استخراج المعرفة من نموذج المعلم المائي، يسمح الإطار للمهاجمين بسرقة ونسخ إشارات العلامة المائية لنموذج الضحية.

الخلفية البحثية والدافع

خلفية المشكلة

مع الاستخدام الواسع لنماذج اللغة الكبيرة في التطبيقات الصناعية والتعليم والحياة اليومية، أصبح الكشف والتحقق من النصوص المولدة بواسطة LLM أمراً حاسماً. تطلب الجهات التنظيمية في الولايات المتحدة والاتحاد الأوروبي تتبعاً أوضح لمصدر محتوى LLM. يعتبر جميع اللاعبين الصناعيين الرئيسيين (مثل Meta و OpenAI و Google DeepMind) تقنيات العلامات المائية أداة عملية للتحقق من المصدر.

المشكلة الأساسية

تستند تقنيات العلامات المائية الحالية لـ LLM على افتراض أساسي: الكشف عن علامة مائية معينة يثبت ملكية نموذج معين. ومع ذلك، يوجد عيب خطير في هذا الافتراض قد يتم استغلاله بشكل خبيث لنشر المعلومات المضللة ونسبتها إلى مصادر موثوقة.

دافع البحث

تحديد التهديدات الأمنية: يركز البحث الحالي بشكل أساسي على هجمات محو العلامات المائية، مع إيلاء اهتمام أقل لهجمات تزييف العلامات المائية
الضرر العملي: التزييف أخطر من المحو لأنه ينتج عنه إحساس مضلل بالتأكد
كشف العيوب التقنية: الكشف عن العيوب الأساسية في نموذج التحقق من العلامات المائية الحالي

المساهمات الأساسية

تسليح الإشعاع المائي للمرة الأولى: تحويل الظاهرة المستخدمة في الكشف إلى أداة قوية للنسب الخاطئ
إطار عمل هجوم عالي التكيف: إثبات فعالية الهجوم على مخططات العلامات المائية من نوع n-gram والعينات
كسر المقايضة بين القوة والجودة: اكتشاف إمكانية زيادة قوة التزييف بشكل كبير دون تدهور ملحوظ في جودة النص
تقييم أمني منهجي: أول تقييم منهجي لتهديدات هجمات التزييف على العلامات المائية لـ LLM

شرح الطريقة

تعريف المهمة

بالنظر إلى نموذج مائي MT كهدف، يرغب المهاجم في تدريب نموذج آخر M بحيث يمكنه إنشاء نصوص تحتوي على إشارات العلامة المائية لـ MT، وبالتالي خداع كاشف العلامات المائية. يتم الهجوم في إعداد الصندوق الأسود، حيث لا يمكن للمهاجم الوصول إلى logits النموذج الهدف أو المعلومات المحددة لمخطط العلامات المائية.

معمارية إطار عمل DITTO

يتضمن إطار عمل DITTO ثلاث مراحل رئيسية:

1. وراثة العلامة المائية (Watermark Inheritance)

نقل أنماط العلامات المائية للنموذج الهدف إلى نموذج الطالب مفتوح المصدر من خلال تقطير المعرفة:

θS = arg max Σ Σ log P(xi|x1:i-1; θO)
     θO    x∈DT i=1

حيث DT هي مجموعة البيانات المولدة بواسطة نموذج المعلم المائي MT، و θS و θO هما معاملات نموذج الطالب والنموذج الأصلي على التوالي.

2. استخراج العلامة المائية (Watermark Extraction)

استخراج إشارة العلامة المائية من خلال تحليل الفروقات في logits النموذج قبل وبعد التدريب:

الانحراف العام:

δglobal = Ec∈DT[lMS(c)] - Ec∈DT[lMO(c)]

الانحراف المحلي:

δp = Ec∈DT|c ends with p[lMS(c)] - Ec∈DT|c ends with p[lMO(c)]

إشارة الاستخراج النهائية:

EWS(c) = δglobal + Σ w(p) · δp
                   p∈prefixes(c)

3. هجوم التزييف (Spoofing Attack)

حقن إشارة العلامة المائية المستخرجة في نموذج المهاجم أثناء الاستدلال:

l'MO(c) = lMO(c) + α · EWS(c)

حيث α هو معامل التحجيم الذي يتحكم في قوة الحقن.

نقاط الابتكار التقني

الاستفادة من الإشعاع المائي: تحويل مبتكر للإشعاع المائي من أداة كشف إلى ناقل هجوم
عدم الاعتماد على المخطط: لا يعتمد على تفاصيل تنفيذ مخطط العلامات المائية المحدد
آلية الحقن في الوقت الفعلي: حقن ديناميكي لإشارة العلامة المائية في مرحلة الاستدلال
إعداد هجوم الصندوق الأسود: هجوم في ظروف القيود العملية

إعداد التجارب

مجموعات البيانات

Dolly-15k: تحتوي على 15,000 زوج من الطلبات والردود المولدة يدويًا، المستخدمة في الضبط الدقيق للتعليمات
MarkMyWords (MMW) Bookreport: معيار متخصص لتقييم نظم العلامات المائية

تكوين النموذج

أزواج المعلم والطالب:
- Llama3.1-8B → Llama3.2-3B
- Llama3.2-3B → Llama3.2-1B

مقاييس التقييم

TPR@FPR: معدل الإيجابيات الحقيقية عند معدل إيجابيات خاطئة ثابت (10%، 1%، 0.1%)
p-value: الأهمية الإحصائية لكشف العلامات المائية (الوسيط)
Perplexity: مقياس تقييم جودة النص

طرق المقارنة

JSV (Jovanović et al., 2024)
De-Mark (Chen et al., 2025) - إعدادات الصندوق الرمادي والأسود
نموذج العلامة المائية الأصلي كمعيار أعلى

تفاصيل التنفيذ

معاملات العلامات المائية: δ=3, γ=0.5, z-threshold=4.0
التدريب: ضبط دقيق لـ LoRA لمدة 3 حقب
قوة الهجوم: α ∈ 2.5, 3, 3.5, 4, 4.5, 5

نتائج التجارب

النتائج الرئيسية

على مجموعة بيانات MMW Bookreport، نتائج هجوم DITTO على Llama3.1-8B:

TPR@FPR=10%: 0.81
TPR@FPR=1%: 0.70
TPR@FPR=0.1%: 0.51
p-value الوسيط: 7.97E-04
Perplexity: 4.18

الأداء أفضل على Llama3.2-3B:

TPR@FPR=10%: 0.99
TPR@FPR=1%: 0.99
TPR@FPR=0.1%: 0.97
p-value الوسيط: 5.48E-17
Perplexity: 2.44

الاكتشافات الرئيسية

1. العلاقة غير التقليدية بين قوة الهجوم وجودة النص

أظهرت التجارب أنه مع زيادة معامل التحجيم α، لا يرتفع perplexity بشكل رتيب، بل يظهر نمط متذبذب. هذا يكسر الافتراض التقليدي "الهجوم الأقوى يؤدي حتماً إلى انخفاض الجودة".

2. الشمولية عبر المخططات

DITTO فعال بنفس القدر على SynthID (العلامات المائية من نوع العينات):

Llama3.1-8B: TPR@10%=0.88, p-value=7.10E-10
Llama3.2-3B: TPR@10%=0.90, p-value=8.12E-12

3. تأثير حجم النموذج

تظهر النماذج الأصغر كناقل هجوم أداءً أفضل، ربما لأنه من الأسهل تعلم ونسخ أنماط العلامات المائية.

تجارب الاستئصال

من خلال تجارب تغيير معامل α (2.5-5.0):

ينخفض p-value بشكل مستمر مع زيادة α
يتغير Perplexity بشكل غير منتظم، دون اتجاه واضح نحو تدهور الجودة

الأعمال ذات الصلة

تقنيات العلامات المائية لـ LLM

الطرق القائمة على تقسيم المفردات: مخطط KGW والإصدارات المحسنة منه
الطرق القائمة على العينات: SynthID و Tournament sampling وغيرها
المخططات متعددة البتات: تدعم معرّفات قابلة للتتبع من قبل المستخدم

أبحاث هجمات العلامات المائية

هجمات المحو: إزالة العلامات المائية من خلال إعادة الصياغة والتحسين
هجمات السرقة: الهندسة العكسية لآلية العلامات المائية
هجمات التزييف: محور هذه الورقة، مع بحث نسبي أقل

الإشعاع المائي

الاستخدام في الكشف: استخدمه Sander وآخرون لتدقيق المصدر
أبحاث الدفاع: طرق التحييد من قبل Pan وآخرين
تحويل الهجوم: تسليح الورقة الحالية للمرة الأولى

الخلاصة والمناقشة

الاستنتاجات الرئيسية

عيب أمني أساسي: الافتراض الأساسي للتكنولوجيا الحالية للعلامات المائية يحتوي على عيوب خطيرة
تهديد هجوم عملي: DITTO يمكنه الهجوم بفعالية حتى في إعداد الصندوق الأسود
الحاجة إلى تحول النموذج: الانتقال من الكشف عن الوجود إلى التحقق من الأصالة

القيود

الاعتماد على فعالية وراثة العلامات المائية: يعتمد نجاح الهجوم على الوراثة الأمينة للعلامات المائية من قبل نموذج الطالب
غياب آليات الدفاع: تركز الورقة على الهجوم، دون استكشاف الدفاع المقابل
تغطية محدودة للمخططات: اختبار عدد محدود فقط من أنواع العلامات المائية الرئيسية

الاتجاهات المستقبلية

تصميم علامات مائية قوية: تطوير تقنيات علامات مائية مقاومة للتزييف
التحقق من الأصالة: طرق للتمييز بين العلامات المائية الحقيقية والمقلدة
الطرق التشفيرية: آليات ربط العلامات المائية بهوية النموذج

التقييم المتعمق

المزايا

اكتشاف أمني مهم: كشف المشاكل الأساسية في تكنولوجيا العلامات المائية
ابتكار الطريقة: أول استخدام منهجي للإشعاع المائي في الهجوم
كفاية التجارب: تقييم شامل عبر نماذج متعددة ومجموعات بيانات ومخططات علامات مائية
قيمة التهديد العملي: هجوم الصندوق الأسود في ظروف القيود الواقعية

أوجه القصور

المخاطر الأخلاقية: توفير طريقة هجوم قد تُستخدم بشكل خبيث
غياب الدفاع: عدم توفير استراتيجيات دفاع أو تخفيف مقابلة
نقص التحليل النظري: افتقار إلى تحليل نظري لشروط نجاح الهجوم
تغطية محدودة للمخططات: اختبار عدد محدود من مخططات العلامات المائية

التأثير

المساهمة الأكاديمية: فتح اتجاه جديد في أبحاث أمان العلامات المائية
القيمة العملية: تحذير من المخاطر الأمنية للتكنولوجيا الحالية للعلامات المائية
التأثير على السياسة: قد يؤثر على صياغة السياسات التنظيمية ذات الصلة

السيناريوهات المعمول بها

التقييم الأمني: تقييم أمان أنظمة العلامات المائية الحالية
اختبار الفريق الأحمر: أداة اختبار هجومية لفرق أمان الذكاء الاصطناعي
معيار البحث: خط أساس هجومي لأبحاث الدفاع اللاحقة

المراجع

تستشهد هذه الورقة بأبحاث مهمة في مجالات تقنيات العلامات المائية وطرق الهجوم وأمان الذكاء الاصطناعي، بما في ذلك:

Kirchenbauer et al. (2023) - مخطط العلامات المائية KGW
Dathathri et al. (2024) - العلامات المائية من نوع العينات SynthID
Sander et al. (2024) - مفهوم الإشعاع المائي
وأعمال متعددة ذات صلة بهجمات ودفاعات العلامات المائية

التقييم الإجمالي: هذه ورقة ذات أهمية أمنية كبيرة، تكشف عن عيوب أساسية في تكنولوجيا العلامات المائية الحالية لـ LLM. على الرغم من وجود جدل أخلاقي، فإن قيمتها الأكاديمية وتأثيرها على تطور المجال لا يمكن إنكاره. توفر الورقة اتجاهاً واضحاً لتطوير تقنيات علامات مائية أكثر أماناً في المستقبل.