2025-11-18T11:58:13.432393

CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment

Li, Luo, Zhang et al.
Proprietary large language models (LLMs) exhibit strong generalization capabilities across diverse tasks and are increasingly deployed on edge devices for efficiency and privacy reasons. However, deploying proprietary LLMs at the edge without adequate protection introduces critical security threats. Attackers can extract model weights and architectures, enabling unauthorized copying and misuse. Even when protective measures prevent full extraction of model weights, attackers may still perform advanced attacks, such as fine-tuning, to further exploit the model. Existing defenses against these threats typically incur significant computational and communication overhead, making them impractical for edge deployment. To safeguard the edge-deployed LLMs, we introduce CoreGuard, a computation- and communication-efficient protection method. CoreGuard employs an efficient protection protocol to reduce computational overhead and minimize communication overhead via a propagation protocol. Extensive experiments show that CoreGuard achieves upper-bound security protection with negligible overhead.
academic

CoreGuard: حماية القدرات الأساسية لنماذج اللغة الكبيرة ضد سرقة النماذج في النشر على الأجهزة الطرفية

المعلومات الأساسية

  • معرّف الورقة: 2410.13903
  • العنوان: CoreGuard: حماية القدرات الأساسية لنماذج اللغة الكبيرة ضد سرقة النماذج في النشر على الأجهزة الطرفية
  • المؤلفون: Qinfeng Li, Tianyue Luo, Xuhong Zhang, Yangfan Xie, Zhiqiang Shen, Lijun Zhang, Yier Jin, Hao Peng, Xinkui Zhao, Xianwei Zhu, Jianwei Yin
  • التصنيف: cs.CR (التشفير والأمان)، cs.AI (الذكاء الاصطناعي)، cs.DC (الحوسبة الموزعة)
  • وقت النشر/المؤتمر: المؤتمر الـ 39 لأنظمة معالجة المعلومات العصبية (NeurIPS 2025)
  • رابط الورقة: https://arxiv.org/abs/2410.13903

الملخص

تُظهر نماذج اللغة الكبيرة (LLMs) الملكية قدرات تعميم قوية في مهام متعددة، وتُنشر بشكل متزايد على الأجهزة الطرفية لأسباب تتعلق بالكفاءة والخصوصية. ومع ذلك، فإن نشر نماذج اللغة الكبيرة الملكية على الأجهزة الطرفية بدون حماية كافية يشكل تهديدات أمنية خطيرة. يمكن للمهاجمين استخراج أوزان النموذج والبنية المعمارية، مما يحقق النسخ غير المصرح به والإساءة. حتى إذا كانت تدابير الحماية تمنع استخراج أوزان النموذج الكاملة، قد يقوم المهاجمون بتنفيذ هجمات متقدمة (مثل الضبط الدقيق) للاستفادة الإضافية من النموذج. عادة ما تنتج حلول الدفاع الحالية عن تكاليف حسابية واتصالية كبيرة، مما يجعلها غير عملية في النشر على الأجهزة الطرفية. لحماية نماذج اللغة الكبيرة المنشورة على الأجهزة الطرفية، نقترح CoreGuard، وهي طريقة حماية فعالة من حيث الحساب والاتصال. يستخدم CoreGuard بروتوكول حماية فعال لتقليل التكاليف الحسابية، وتقليل التكاليف الاتصالية من خلال بروتوكول الانتشار. تُظهر التجارب الموسعة أن CoreGuard يحقق حماية أمنية محدودة بتكاليف مهملة.

الخلفية البحثية والدافع

تعريف المشكلة

  1. المشكلة الأساسية: تواجه نماذج اللغة الكبيرة الملكية المنشورة على الأجهزة الطرفية تهديدات سرقة النماذج، حيث يمكن للمهاجمين استخراج البنية المعمارية والأوزان من خلال تقنيات التحليل البرمجي، مما يؤدي إلى النسخ غير المصرح به والإساءة.
  2. أهمية المشكلة:
    • نماذج اللغة الكبيرة الملكية (مثل ChatGPT و Claude) تتمتع بقدرات تعميم قوية وتكاليف تطوير ضخمة
    • اتجاه واضح نحو النشر على الأجهزة الطرفية (مثل دمج Apple Intelligence لنموذج بـ 3 مليارات معامل في أجهزة iOS)
    • نماذج اللغة الكبيرة المتخصصة الملكية (مثل BloombergGPT في المجال المالي و Med-PaLM 2 في المجال الطبي) تفتقر إلى بدائل مفتوحة المصدر
  3. قيود الطرق الموجودة:
    • الحماية السلبية (مثل العلامات المائية): توفر فقط إثبات الملكية، لا تمنع الإساءة في بيئات الأجهزة الطرفية غير المراقبة
    • تشفير النموذج: لا يزال عرضة للهجوم أثناء التشغيل
    • حماية بيئة التنفيذ الموثوقة المباشرة (TEE): وضع النموذج بالكامل في بيئة التنفيذ الموثوقة يؤدي إلى انخفاض الكفاءة بحوالي 50 مرة
    • تنفيذ TEE للمعاملات الجزئية (PPTE): تحمي عدداً محدوداً من الأوزان، وتكون عرضة لإعادة البناء
    • حماية خلط المعاملات (PSP): مثل ShadowNet يعاني من تكاليف نقل بيانات كبيرة جداً
  4. الدافع البحثي: الحاجة إلى حل يضمن أماناً كافياً مع الحفاظ على تكاليف حسابية واتصالية مقبولة.

المساهمات الأساسية

  1. الحماية الأولى للقدرات الأساسية لنماذج اللغة الكبيرة المنشورة على الأجهزة الطرفية: توصيف منهجي للتحديات الأمنية في هذا السيناريو وتحديد متطلبات حماية نماذج اللغة الكبيرة المنشورة على الأجهزة الطرفية.
  2. اقتراح حل CoreGuard الجاهز للاستخدام الفوري: استخدام آليات ترخيص خفيفة الوزن لحماية نماذج اللغة الكبيرة المنشورة على الأجهزة الطرفية، مع استخدام بروتوكول الانتشار لتقليل تكاليف النقل بشكل كبير، مع الحفاظ على تكاليف حسابية منخفضة.
  3. التحقق التجريبي الشامل: يوفر CoreGuard ضمانات أمنية أعلى وتكاليف أقل وبدون فقدان الدقة مقارنة بالحلول الموجودة.

شرح الطريقة

تعريف المهمة

الإدخال: نموذج لغة كبيرة مدرب الإخراج: نموذج مقفل، يعمل بشكل صحيح فقط من خلال الترخيص المناسب عبر الأجهزة الموثوقة داخل الجهاز (TEE) القيود: تقليل التكاليف الحسابية والاتصالية، الحفاظ على دقة النموذج دون تغيير

البنية المعمارية

يعمل CoreGuard على مرحلتين:

1. مرحلة قفل النموذج (قبل النشر)

بروتوكول الحماية (Protection Protocol):

  • إجراء تبديل الصفوف على مصفوفات أوزان الطبقات الخطية: Wq=πTWq,Wk=πTWk,Wv=πTWv,Wm=πTWmW'_q = \pi^T W_q, W'_k = \pi^T W_k, W'_v = \pi^T W_v, W'_m = \pi^T W_m
  • تعمل تبديلات الصفوف هذه كـ "أقفال"، مما يجعل الطبقات الخطية غير فعالة، ولا يمكن إجراء الحسابات بشكل صحيح إلا من خلال إدخال تبديل الأعمدة المقابل (الترخيص)
  • مصفوفة التبديل π{0,1}d×d\pi \in \{0,1\}^{d \times d} تحقق ππT=I\pi\pi^T = I

بروتوكول الانتشار (Propagation Protocol):

  • إجراء تبديل الأعمدة على طبقات معالجة الإخراج: Wo=Woπ,Wn=WnπW'_o = W_o\pi, W'_n = W_n\pi
  • تحقيق تبديل أعمدة الميزات من خلال عمليات الشبكة نفسها، مما يحقق تأثير الترخيص التلقائي
  • يحتاج TEE فقط إلى إدارة الترخيص الأولي، ويمكن نشر الترخيص إلى جميع الطبقات اللاحقة

2. مرحلة الترخيص الاستدلالي (بعد النشر)

عملية التشفير: m=mπ+pπm' = m\pi + p\pi حيث pp هو ضوضاء دفتر الرموز لمرة واحدة (OTP)، و mm' هي الميزة المشفرة بعد التبديل.

معالجة طبقة الإخراج الخطية: n=mWn=(mπ+pπ)πTWn+bn=n+pWnn' = m'W'_n = (m\pi + p\pi)\pi^T W_n + b_n = n + pW_n

فك التشفير والترخيص: n=npWn=nn'' = n' - pW_n = nz=(γ2n+yμy+nσy+n+β2)π=zπz' = (\gamma_2 \odot \frac{n + y - \mu_{y+n}}{\sigma_{y+n}} + \beta_2)\pi = z\pi

نقاط الابتكار التقني

  1. آلية انتشار الترخيص الفردي: من خلال تصميم التبديل الماهر، تحقيق انتشار الترخيص التلقائي عبر الشبكة، تجنب الحاجة إلى ترخيص TEE لكل طبقة.
  2. دمج تشفير OTP مع الخلط: استخدام تشفير دفتر الرموز لمرة واحدة مع التبديل، إخفاء عمليات التشفير وفك التشفير.
  3. التعقيد الاتصالي الأمثل: يتطلب كل استدلال فقط 5 جولات نقل TEE-GPU، مما يحقق الأمثلية النظرية.
  4. الضمان الأمني الرياضي: توفير إثبات الأمان بناءً على افتراض صعوبة NP لمشكلة التعلم مع الأخطاء (LWE).

إعداد التجارب

مجموعات البيانات

  • GSM8k: مهام الاستدلال الرياضي
  • Spider: مهام توليد الأكواد
  • PubMedQA: مهام الأسئلة والأجوبة الطبية
  • SQuAD: مهام فهم القراءة

النماذج

  • نماذج النشر على الأجهزة الطرفية: Qwen2-0.5B-Instruct, Gemma2-2B-it
  • النماذج الكبيرة: ChatGLM3-6B-32k, LLaMA3-8B-Instruct

مؤشرات التقييم

  • الأمان: دقة هجمات سرقة النماذج (كلما انخفضت كان أفضل)
  • الكفاءة: عدد العمليات الحسابية بالفاصلة العائمة (FLOPs)، تكاليف نقل TEE-GPU
  • الدقة: دقة المهام المحددة

طرق المقارنة

  1. TPTE: NPLO
  2. PPTE: DarkneTZ, SOTER, Serdab, DTE
  3. PSP: ShadowNet, TransLinkGuard (TLG)
  4. الحدود: No-shield (الحد الأدنى)، Black-box (الحد الأقصى)

تفاصيل التنفيذ

  • استخدام مكتبة Hugging Face للتنفيذ
  • محسّن AdamW، جدولة معدل التعلم الخطي
  • إجراء التجارب على وحدة معالجة الرسومات NVIDIA A800
  • افتراض أن المهاجم يمتلك 100% من مجموعة بيانات التدريب (أكثر صرامة من 1% في الأعمال السابقة)

نتائج التجارب

النتائج الرئيسية

تقييم الأمان:

  • دقة الاستدلال غير المصرح به: 0% في جميع الحالات
  • هجمات سرقة النماذج: دقة CoreGuard النسبية 1.17× (قريبة من Black-box بـ 1.00×)
  • أفضل بشكل ملحوظ من طريقة TPTE NPLO (9.59×) وطريقة PPTE DarkneTZ (8.43×)
  • أداء مماثلة لطرق PSP الأخرى (TLG: 1.07×, ShadowNet: 1.09×)

مقارنة الكفاءة:

  • تكاليف تنفيذ TEE: CoreGuard < 1.17e-03%، طرق PPTE 2.91%-21.52%
  • تكاليف نقل TEE-GPU: يتطلب CoreGuard فقط 5 جولات نقل، بينما يتطلب ShadowNet 448 جولة (LLaMA3-8B)
  • كمية البيانات المنقولة: CoreGuard حوالي 20 كيلوبايت، ShadowNet حوالي 1.3 جيجابايت

التجارب الاستئصالية

الأمان تحت إعدادات هجوم مختلفة:

  • هجمات ضبط LoRA الدقيقة: يحافظ CoreGuard على أمان قريب من الحد الأقصى
  • نسب بيانات مختلفة (1%-100%): قريب من حماية Black-box في جميع الإعدادات
  • محاذاة المهام: يحافظ على الأمان بغض النظر عما إذا كانت مهمة الهجوم متوافقة مع مهمة النموذج المنشور

تأثير موضع الترخيص:

  • يوفر الترخيص في الموضع الأوسط أفضل أمان
  • الترخيص في المواضع الأولى والأخيرة يوفر أماناً أقل، لأن المهاجم يحتاج فقط إلى استرجاع عدد قليل من المعاملات

الحفاظ على الدقة

  • في معظم الحالات، دقة النموذج المحمي مطابقة تماماً للنموذج الأصلي
  • في حالات فردية، توجد تذبذبات صغيرة ±0.5%، تُعزى إلى قيود دقة الفاصلة العائمة

الأعمال ذات الصلة

الاتجاهات البحثية الرئيسية

  1. طرق حماية النماذج:
    • تقنيات العلامات المائية: حماية سلبية، توفر فقط إثبات الملكية
    • تشفير النموذج: عرضة للهجوم أثناء التشغيل
    • حماية TEE: التكاليف الحسابية للحماية المباشرة كبيرة جداً
  2. حماية خلط المعاملات:
    • ShadowNet: حماية خلط قنوات الطبقات الالتفافية
    • TransLinkGuard: حماية نماذج Transformer
  3. تطبيقات بيئة التنفيذ الموثوقة:
    • TEE المستند إلى وحدة المعالجة المركزية: ARM TrustZone, Intel SGX
    • GPU TEE: لا تزال في المراحل الأولى، موجهة بشكل أساسي لمراكز البيانات

مزايا هذا العمل

مقارنة بالأعمال الموجودة، يحقق CoreGuard تحسناً بمقدار عدة مرات في الكفاءة مع الحفاظ على نفس مستوى الأمان، خاصة في تكاليف الاتصال.

الخلاصة والنقاش

الاستنتاجات الرئيسية

  1. يحل CoreGuard بنجاح مشكلة الحماية الأمنية لنماذج اللغة الكبيرة المنشورة على الأجهزة الطرفية
  2. يحقق التعقيد الاتصالي الأمثل من خلال بروتوكول الانتشار
  3. يحقق تكاليف حسابية واتصالية مهملة مع ضمان أمان محدود بالحد الأقصى
  4. يحافظ على دقة النموذج الأصلية

القيود

  1. هجمات القنوات الجانبية: تعتمد على TEE كجذر الأمان، قد تكون عرضة لتهديدات هجمات القنوات الجانبية
  2. قيود GPU TEE: تعتمد بشكل أساسي على TEE المستند إلى وحدة المعالجة المركزية، GPU TEE لا تزال غير ناضجة
  3. النشر العملي: تركز الورقة على الإطار الأساسي، لم تتعمق في تفاصيل التنفيذ الخاصة بالأجهزة
  4. توافق البنية: مصممة بشكل أساسي لبنية Transformer السائدة

الاتجاهات المستقبلية

  1. دمج تدابير الحماية من هجمات القنوات الجانبية
  2. التكيف مع تطور تكنولوجيا GPU TEE
  3. التوسع إلى معماريات نماذج أخرى
  4. تحسين النشر على الأجهزة الفعلية

التقييم المتعمق

المزايا

  1. ابتكار قوي: أول حل منهجي لمشكلة حماية القدرات الأساسية لنماذج اللغة الكبيرة المنشورة على الأجهزة الطرفية
  2. تقنية ماهرة: تصميم بروتوكول الانتشار ماهر، يحقق تغطية الترخيص الفردي للشبكة بأكملها
  3. نظرية متينة: توفير ضمانات أمنية رياضية بناءً على مشكلة LWE
  4. تجارب شاملة: تقييم شامل عبر نماذج متعددة وعدة مهام وسيناريوهات هجوم متعددة
  5. قيمة عملية عالية: تحسن كبير في الكفاءة يجعلها قابلة للتطبيق في النشر الفعلي

أوجه القصور

  1. الافتراضات الأمنية: تعتمد على أمان TEE، قد تكون ضعيفة أمام هجمات القنوات الجانبية
  2. نطاق التطبيق: موجهة بشكل أساسي لبنية Transformer، قابلية التطبيق على معماريات أخرى محدودة
  3. تعقيد النشر: يتطلب النشر الفعلي النظر في عوامل أكثر على مستوى الأجهزة والنظام
  4. الأمان طويل الأجل: مع تطور تقنيات الهجوم، قد تحتاج تدابير الحماية الحالية إلى التحقق من الفعالية المستمرة

التأثير

  1. المساهمة الأكاديمية: توفير اتجاه بحثي جديد وأفكار حل لمجال أمان الذكاء الاصطناعي على الأجهزة الطرفية
  2. القيمة العملية: ذات أهمية إرشادية كبيرة لنشر نماذج اللغة الكبيرة الملكية على الأجهزة الطرفية
  3. دفع التكنولوجيا: قد تدفع التطور الإضافي لتكنولوجيا TEE في مجال حماية الذكاء الاصطناعي

السيناريوهات المطبقة

  1. نشر نماذج اللغة الكبيرة الملكية على أجهزة طرفية
  2. تطبيقات الذكاء الاصطناعي الحساسة للتأخير والخصوصية
  3. خدمات الذكاء الاصطناعي التجارية التي تحتاج إلى حماية الملكية الفكرية
  4. حماية النماذج في بيئات الموارد المحدودة

المراجع

تستشهد الورقة بـ 52 مرجعاً ذا صلة، تغطي مجالات متعددة مثل حماية النماذج وبيئات التنفيذ الموثوقة ونماذج اللغة الكبيرة، مما توفر أساساً نظرياً متيناً ودعماً تقنياً للبحث.


التقييم الإجمالي: CoreGuard عمل بحثي عالي الجودة، يُظهر أداءً ممتازاً من حيث الابتكار التقني والتحقق التجريبي والقيمة العملية. لا يحل هذا العمل مشكلة عملية مهمة فحسب، بل يوفر أيضاً أفكاراً وطرقاً قيمة للبحث اللاحق في المجالات ذات الصلة.