2025-11-13T23:49:14.865072

PrivTuner with Homomorphic Encryption and LoRA: A P3EFT Scheme for Privacy-Preserving Parameter-Efficient Fine-Tuning of AI Foundation Models

Li, Yu, Zhao
AI foundation models have recently demonstrated impressive capabilities across a wide range of tasks. Fine-tuning (FT) is a method of customizing a pre-trained AI foundation model by further training it on a smaller, targeted dataset. In this paper, we initiate the study of the Privacy-Preserving Parameter-Efficient FT (P3EFT) framework, which can be viewed as the intersection of Parameter-Efficient FT (PEFT) and Privacy-Preserving FT (PPFT). PEFT modifies only a small subset of the model's parameters to achieve FT (i.e., adapting a pre-trained model to a specific dataset), while PPFT uses privacy-preserving technologies to protect the confidentiality of the model during the FT process. There have been many studies on PEFT or PPFT but very few on their fusion, which motivates our work on P3EFT to achieve both parameter efficiency and model privacy. To exemplify our P3EFT, we present the PrivTuner scheme, which incorporates Fully Homomorphic Encryption (FHE) enabled privacy protection into LoRA (short for ``Low-Rank Adapter''). Intuitively speaking, PrivTuner allows the model owner and the external data owners to collaboratively implement PEFT with encrypted data. After describing PrivTuner in detail, we further investigate its energy consumption and privacy protection. Then, we consider a PrivTuner system over wireless communications and formulate a joint optimization problem to adaptively minimize energy while maximizing privacy protection, with the optimization variables including FDMA bandwidth allocation, wireless transmission power, computational resource allocation, and privacy protection. A resource allocation algorithm is devised to solve the problem. Experiments demonstrate that our algorithm can significantly reduce energy consumption while adapting to different privacy requirements.
academic

PrivTuner مع التشفير الكامل المتماثل و LoRA: مخطط P3EFT لضبط دقيق فعال في المعاملات مع الحفاظ على الخصوصية لنماذج أساس الذكاء الاصطناعي

المعلومات الأساسية

  • معرّف الورقة: 2410.00433
  • العنوان: PrivTuner with Homomorphic Encryption and LoRA: A P3EFT Scheme for Privacy-Preserving Parameter-Efficient Fine-Tuning of AI Foundation Models
  • المؤلفون: Yang Li, Wenhan Yu, Jun Zhao (جامعة نانيانج التكنولوجية)
  • التصنيف: cs.CR (التشفير والأمان)
  • تاريخ النشر: أكتوبر 2024 (طبعة arXiv)
  • رابط الورقة: https://arxiv.org/abs/2410.00433

الملخص

تقترح هذه الورقة إطار عمل الضبط الدقيق الفعال في المعاملات مع الحفاظ على الخصوصية (P3EFT)، الذي يجمع بين الضبط الدقيق الفعال في المعاملات (PEFT) والضبط الدقيق الفعال مع الحفاظ على الخصوصية (PPFT). صمم المؤلفون مخطط PrivTuner، الذي يدمج التشفير الكامل المتماثل (FHE) في LoRA، مما يحقق ضبطاً دقيقاً تعاونياً مع الحفاظ على الخصوصية بين مالك النموذج ومالكي البيانات الخارجيين. تأخذ الورقة في الاعتبار أيضاً نظام PrivTuner في بيئة الاتصالات اللاسلكية، وتؤسس مشكلة تحسين مشتركة لتقليل استهلاك الطاقة مع تعظيم الحفاظ على الخصوصية، وتقترح خوارزمية تخصيص الموارد المقابلة.

خلفية البحث والدافع

المشاكل الأساسية

  1. متطلبات الحفاظ على الخصوصية: توجد مشاكل خصوصية البيانات وخصوصية النموذج في عملية ضبط نماذج أساس الذكاء الاصطناعي. الشركات غير راغبة في مشاركة البيانات الخاصة، وفي الوقت نفسه، مالكو النماذج غير راغبين في الكشف عن معاملات النموذج.
  2. تحديات الكفاءة الحسابية: يتطلب الضبط الدقيق الكامل للمعاملات تكاليف حسابية ضخمة، خاصة بالنسبة للنماذج الأساسية الكبيرة، حيث يشكل الضبط الدقيق المحلي عبئاً كبيراً على الأجهزة ذات الموارد المحدودة.
  3. قيود الطرق الموجودة:
    • تقلل طرق PEFT من العبء الحسابي، لكنها تتجاهل مشاكل الحفاظ على الخصوصية
    • يمكن لطرق PPFT حماية الخصوصية، لكنها عادة ما تقدم تكاليف اتصال وحسابية إضافية

دافع البحث

يركز البحث الموجود بشكل أساسي على التطبيق المنفصل لـ PEFT أو PPFT، مع نقص الدراسات المنهجية لدمج الاثنين معاً. تهدف هذه الورقة إلى ملء هذه الفجوة، وتقترح إطار عمل P3EFT لتحقيق الأهداف المزدوجة للحفاظ على الخصوصية والكفاءة في المعاملات ضمن ميزانية حسابية محدودة.

المساهمات الأساسية

  1. اقتراح إطار عمل P3EFT: يجمع بشكل منهجي لأول مرة بين PEFT و PPFT، مما يسد الفجوة بين مجالي البحث.
  2. تصميم مخطط PrivTuner: يدمج مخطط CKKS للتشفير الكامل المتماثل مع تقنية LoRA، مما يحقق ضبطاً دقيقاً تعاونياً آمناً وفعالاً، مع حماية خصوصية البيانات والنموذج وتقليل العبء الحسابي.
  3. إنشاء نماذج الاستهلاك والحفاظ على الخصوصية: يحلل نماذج الوقت واستهلاك الطاقة من منظور الخادم والجهاز، مما يوفر مؤشرات كمية لمستويات الحفاظ على الخصوصية.
  4. تصميم خوارزمية تحسين مشتركة: يقترح خوارزمية تخصيص موارد تجمع بين تقنيات الفرع والحد (B&B) والبرمجة الكسرية، مما يحل بشكل فعال مشكلة التحسين المشترك للقدرة الحسابية وموارد الاتصالات اللاسلكية وإعدادات FHE.

شرح الطريقة

تعريف المهمة

تُعرّف مهمة P3EFT على النحو التالي: بالنظر إلى نموذج أساس مدرب مسبقاً W₀ ومجموعة بيانات خاصة، تحديث عدد قليل من المعاملات فقط لتحقيق ضبط دقيق للنموذج مع حماية خصوصية البيانات وخصوصية النموذج.

معمارية PrivTuner

نموذج النظام

  • الأطراف المشاركة: خادم مالك النموذج و N جهاز محمول خارجي
  • نموذج الأمان: نموذج صادق لكن فضولي (honest but curious)
  • الفكرة الأساسية: تنقل الأجهزة بيانات مشفرة بـ FHE بدلاً من البيانات الأصلية، ويقوم الخادم بتنفيذ الحسابات على البيانات المشفرة

الخطوات الرئيسية

الخطوة 1: تشفير البيانات

pkₙ, skₙ = KeyGen(λₙ, qₙ), ∀n ∈ N
X̃ᶠᵗₙ = Enc(pkₙ, Xᶠᵗₙ), ∀n ∈ N

الخطوة 2: توليد المحول استخدام تقنية LoRA لتوليد محولات منخفضة الرتبة:

Aₙ = {A¹ₙ, A²ₙ} = LoRAₙ(W₀), ∀n ∈ N

الخطوة 3: التنبؤ المشفر تنفيذ التنبؤ على البيانات المشفرة:

Ỹᵖₙ = Eval(pkₙ, (W₀, Aₙ), X̃ᶠᵗₙ, fᵖ), ∀n ∈ N

حيث تكون دالة التنبؤ:

fᵖ(W₀, Aₙ, X̃ᶠᵗₙ) = W₀X̃ᶠᵗₙ + A¹ₙA²ₙX̃ᶠᵗₙ

الخطوة 4: فك التشفير وحساب الخسارة

Yᵖₙ = Dec(skₙ, Ỹᵖₙ)
Lₙ = Lₙ(Yᵖₙ, Yᶠᵗₙ)

الخطوة 5: تحديث المحول تحديث معاملات المحول بناءً على دالة الخسارة.

نموذج BERT-Tiny الملائم للتشفير المتماثل

استخدام مخطط CKKS للتعامل مع الدوال غير الخطية في نموذج BERT-Tiny:

  • Softmax: استخدام تقريب سلسلة Maclaurin لدالة الأس
  • GeLU: استخدام تقريب كثير حدود Chebyshev
  • LayerNorm: حساب المتوسط والانحراف المعياري مسبقاً لتبسيط الحساب
  • عمليات القسمة: استخدام تقريب كثير حدود Chebyshev

نقاط الابتكار التقني

  1. الدمج العضوي لـ FHE و LoRA: يجمع لأول مرة بين التشفير الكامل المتماثل CKKS وتقنية LoRA، مما يحقق ضبطاً دقيقاً فعالاً في المعاملات في المجال المشفر.
  2. معالجة الدوال غير الخطية: يحل بشكل منهجي مشكلة حساب الدوال غير الخطية في نماذج Transformer في بيئة FHE.
  3. إطار عمل تحسين الموارد: يأخذ في الاعتبار القيود العملية في بيئة الاتصالات اللاسلكية، ويؤسس نموذج تحسين توازن بين استهلاك الطاقة والحفاظ على الخصوصية.

إعداد التجارب

مجموعات البيانات

استخدام ثلاث مجموعات بيانات من معيار GLUE:

  • SST-2: مهمة تحليل المشاعر
  • MRPC: حكم تشابه الجملة
  • RTE: التعرف على الاستلزام النصي

بيئة التجارب

  • الأجهزة: معالج Intel Xeon Gold 5218R CPU@2.10GHz
  • مكتبة FHE: OpenFHE مع تسريع HEXL
  • معاملات FHE: درجة متعددة الحدود λ=2¹⁵، معامل النموذج q=1767 بت

مؤشرات التقييم

  • الدقة: أداء تصنيف النموذج
  • استهلاك الطاقة: إجمالي استهلاك الطاقة (جول)
  • مستوى الحفاظ على الخصوصية: مستوى الأمان (بت) بناءً على LWE-estimator
  • وقت التشغيل: تكاليف الوقت لكل عملية

طرق المقارنة

  • تخصيص متوسط: تخصيص الموارد بالتساوي
  • تحسين f,g فقط: تحسين تردد الحساب فقط
  • تحسين p,B فقط: تحسين قوة الإرسال والنطاق الترددي فقط

نتائج التجارب

النتائج الرئيسية

أداء النموذج

مجموعة البياناتBERT-TinyFHE-BERT-Tinyانخفاض الأداء
SST-20.8230.7900.033
MRPC0.7030.6750.028
RTE0.6010.5640.037

تحليل وقت التشغيل

العمليةاستهلاك الوقت (ثانية)
التشفير (العميل)0.7106
التنبؤ (الخادم)163.3211
فك التشفير (العميل)0.0119
الإجمالي164.0436

توازن الأداء تحت قيم λ مختلفة

λوقت التشغيلمستوى الأمان (بت)
2¹⁵164.04s66.1
2¹⁶330.13s128.4
2¹⁷719.64s277.0

نتائج تحسين استهلاك الطاقة

تحت تكوينات موارد مختلفة، تحافظ خوارزمية التحسين المشترك المقترحة على الأداء الأمثل مقارنة بطرق الأساس:

  • تغيير النطاق الترددي: عند زيادة إجمالي النطاق الترددي من 5 ميجاهرتز إلى 25 ميجاهرتز، تحافظ الخوارزمية على الأداء الأمثل بشكل مستمر
  • قوة الإرسال: في نطاق 10-30 ديسيبل ميلي، يظهر الخوارزمية الموحدة أداءً مستقراً
  • ميزانية الوقت: مع زيادة ميزانية الوقت للجهاز، ينخفض استهلاك الطاقة بشكل كبير

تحليل توازن الحفاظ على الخصوصية

من خلال تعديل معامل الوزن ω (1-10):

  • توازن الطاقة والخصوصية: مع زيادة ω، يرتفع مستوى الحفاظ على الخصوصية لكن استهلاك الطاقة يزداد
  • استراتيجية اختيار الجهاز: الأجهزة ذات الاهتمام العالي بالخصوصية تميل إلى اختيار قيم λ أكبر

التجارب الاستئصالية

التحقق من فعالية كل مكون تحسين:

  • يحقق التحسين المشترك تحسناً كبيراً مقارنة بتحسين f,g أو p,B بشكل منفصل
  • تحل خوارزمية الفرع والحد بشكل فعال مشكلة التحسين المنفصل
  • تتعامل تقنية البرمجة الكسرية بنجاح مع تحدي التحسين غير المحدب

الأعمال ذات الصلة

البحث المتعلق بـ PEFT

  • LoRA: تقنية المحول منخفض الرتبة
  • Prefix-tuning, Prompt tuning, BitFit: طرق أخرى فعالة في المعاملات

البحث المتعلق بـ PPFT

  • التعلم الموحد: التدريب الموزع مع الحفاظ على الخصوصية
  • الخصوصية التفاضلية: إضافة الضوضاء لحماية الخصوصية
  • الحساب الآمن متعدد الأطراف: حساب تعاوني متعدد الأطراف
  • التشفير المتماثل: الحساب في المجال المشفر

تطبيقات FHE في التعلم العميق

  • تطبيقات CNN: CryptoNets, CareNets وغيرها
  • تطبيقات RNN: الحفاظ على الخصوصية في معالجة البيانات المتسلسلة
  • تطبيقات Transformer: Iron, BOLT, BlindTune وغيرها

الاستنتاج والنقاش

الاستنتاجات الرئيسية

  1. جدوى إطار عمل P3EFT: يثبت PrivTuner بنجاح إمكانية تحقيق الكفاءة في المعاملات والحفاظ على الخصوصية في نفس الوقت
  2. التحقق من الجدوى العملية: حقق نتائج مقبولة على مجموعة بيانات GLUE، مع تكلفة نسبية صغيرة للحفاظ على الخصوصية
  3. فعالية خوارزمية التحسين: تظهر خوارزمية تخصيص الموارد المشترك أداءً ممتازاً في توازن الطاقة والخصوصية

القيود

  1. خصوصية المحول: في المخطط الحالي، يتم تخزين المحول بصيغة نصية واضحة، مما قد يسرب بعض المعلومات
  2. العبء الحسابي: لا تزال عمليات FHE تتطلب عبئاً حسابياً كبيراً، مما يحد من التطبيقات في الوقت الفعلي
  3. قيود نموذج الأمان: يأخذ في الاعتبار فقط نموذج صادق لكن فضولي، دون التعامل مع سيناريوهات الخصم الخبيث
  4. مشاكل قابلية التوسع: مع زيادة حجم النموذج، قد يصبح عبء FHE نقطة اختناق

الاتجاهات المستقبلية

  1. الأمان الخبيث: التوسع إلى نموذج الخصم الخبيث
  2. تسريع الأجهزة: الاستفادة من أجهزة متخصصة مثل GPU لتسريع حسابات FHE
  3. حماية خصوصية أقوى: استكشاف تقنيات مثل MPC لحماية خصوصية المحول
  4. التكيف مع النماذج الكبيرة: البحث عن التطبيقات على نماذج أكبر حجماً

التقييم المتعمق

المزايا

  1. ابتكار قوي: يجمع بشكل منهجي لأول مرة بين PEFT و PPFT، مما يسد فجوة بحثية مهمة
  2. اكتمال نظري: يوفر إطار عمل تحليل نظري شامل، بما في ذلك تحليل الأمان والتعقيد والتقارب
  3. تجارب شاملة: يتحقق من فعالية الطريقة من أبعاد متعددة، بما في ذلك الدقة واستهلاك الطاقة والحفاظ على الخصوصية وغيرها
  4. الاعتبارات العملية: يأخذ في الاعتبار القيود العملية في بيئة الاتصالات اللاسلكية، مع آفاق تطبيقية جيدة

أوجه القصور

  1. انخفاض الأداء: يؤدي العبء الحسابي الذي يقدمه FHE إلى انخفاض أداء ملحوظ (خسارة دقة حوالي 3-4%)
  2. قيود قابلية التوسع: تُجرى التجارب الحالية فقط على BERT-Tiny، وتبقى قابلية التطبيق على النماذج الكبيرة قيد الاختبار
  3. الافتراضات الأمنية: قد يكون نموذج صادق لكن فضولي مثالياً جداً في التطبيقات العملية
  4. ضبط المعاملات: يتطلب اختيار معاملات FHE المتعددة معرفة متخصصة، مما يزيد من عتبة الاستخدام

التأثير

  1. المساهمة الأكاديمية: توفر اتجاهاً بحثياً جديداً لمجال التعلم الآلي مع الحفاظ على الخصوصية
  2. القيمة العملية: توفر مسار تقني قابل للتطبيق لخدمات الذكاء الاصطناعي التي تتطلب الحفاظ على الخصوصية
  3. قابلية إعادة الإنتاج: توفر تفاصيل تنفيذ شاملة وإعدادات معاملات، مما يسهل إعادة الإنتاج

السيناريوهات المطبقة

  1. الذكاء الاصطناعي الطبي: البيانات الطبية حساسة، تتطلب ضبطاً دقيقاً للنموذج مع الحفاظ على الخصوصية
  2. الخدمات المالية: التدريب التعاوني للنموذج بين المؤسسات المالية
  3. الحوسبة الطرفية: خدمات الذكاء الاصطناعي مع الحفاظ على الخصوصية في بيئات الموارد المحدودة
  4. التعلم الموحد: كتقنية محسّنة للتعلم الموحد

المراجع

تستشهد الورقة بأعمال مهمة متعددة، بما في ذلك:

  • ورقة LoRA الأصلية Hu et al., ICLR 2021
  • مخطط CKKS للتشفير المتماثل Cheon et al., 2017
  • نموذج BERT Devlin et al., 2018
  • أعمال ذات صلة في التعلم العميق مع الحفاظ على الخصوصية

التقييم الشامل: هذه ورقة بحثية عالية الجودة، تتميز بأداء ممتازة من حيث الابتكار التقني والتحليل النظري والتحقق التجريبي. على الرغم من وجود بعض القيود، فإنها تفتح اتجاهاً بحثياً مهماً في مجال الذكاء الاصطناعي مع الحفاظ على الخصوصية، وتتمتع بقيمة أكاديمية وآفاق تطبيقية مهمة.