أصبحت بيانات النصوص ذات قيمة استثنائية في نماذج اللغات الكبيرة (LLMs)، وقد تدفع حتى نحو الذكاء الاصطناعي العام (AGI). ومع ذلك، فإن العديد من بيانات النصوص عالية الجودة في العالم الحقيقي خاصة، ولا يمكن استخدامها بحرية بسبب مخاوف الخصوصية. لذلك، تم اقتراح توليد النصوص الاصطناعية بالخصوصية التفاضلية (DP)، بهدف توليد بيانات اصطناعية عالية الفائدة مع حماية المعلومات الحساسة. ومع ذلك، فإن الطرق الحالية لتوليد النصوص الاصطناعية بـ DP توفر ضمانات موحدة، مما يؤدي غالباً إلى الإفراط في حماية المحتوى غير الحساس، مما يسبب فقداناً كبيراً في الفائدة وتكاليف حسابية عالية. تقترح هذه الورقة إطار عمل جديد يسمى Secret-Protected Evolution (SecPE)، الذي يوسع التطور الخاص من خلال الحماية الواعية للأسرار. يثبت الإطار نظرياً أن SecPE يحقق الحماية السرية (p,r)، والتي تشكل استرخاءً لـ DP الغاوسي، مما يحقق توازناً أفضل بين الفائدة والخصوصية، مع تقليل التعقيد الحسابي بشكل كبير مقارنة بطرق الأساس.
مع التطور السريع لنماذج اللغات الكبيرة، أصبحت قيمة بيانات النصوص متزايدة الأهمية. ومع ذلك، فإن تدريب وتكييف هذه النماذج يعتمد عادة على كميات كبيرة من بيانات النصوص الخاصة بالمستخدمين، مما يشكل مخاطر خصوصية جسيمة، بما في ذلك حفظ وتسرب المحتوى الحساس.
تضارب قيمة البيانات والخصوصية: بيانات النصوص عالية الجودة ضرورية لـ LLMs، لكن استخدام البيانات الخاصة يواجه قيوداً تنظيمية للخصوصية
قيود الطرق الحالية: تقدم طرق الخصوصية التفاضلية التقليدية حماية موحدة لجميع السجلات، حتى لو كانت المعلومات الحساسة قد تكون نادرة وتختلف بين المستخدمين والسمات
مشاكل الكفاءة الحسابية: تتطلب طرق التطور الخاص (PE) الحالية حسابات تشابه زوجية كبيرة، مما يسبب نفقات حسابية ضخمة
اقتراح إطار SecPE: إطار عمل لتوليد البيانات الاصطناعية الخاصة يركز على حماية الأسرار بدلاً من DP التقليدي، مما يحسن الفائدة من خلال تقليل الضوضاء التي يتطلبها DP عادة
تطوير طريقة التجميع المحمي بالأسرار: يقلل بشكل كبير من التعقيد الزمني للتشغيل مقارنة بطريقة PE، من O(MNsyn) إلى O(KNsyn)، حيث K≪M
الضمانات النظرية: إثبات أن SecPE يحقق الحماية السرية (p,r)، وهي نسخة مرتخية من DP الغاوسي
التحقق التجريبي: على مجموعات بيانات OpenReview و PubMed و Yelp، يحقق SecPE كفاءة أعلى وFID أقل ودقة أفضل في المهام اللاحقة تحت نفس الضمانات المعاد بناؤها
التعريف 3.1 (الحماية السرية): دع D = {x₁,...,xₙ} تكون مجموعة بيانات التدريب، حيث قد تحتوي كل عينة على أسرار من S = {s₁,...,sₘ}. بالنسبة للسر sⱼ∈S، دع πⱼ تكون توزيع الاحتمالات السابقة على مجموعة البيانات {D¹ⱼ,...,Dᴷⱼ}، مع تحقيق Pr(Dᵏⱼ) ≤ pⱼ، حيث تختلف D و Dᵏⱼ فقط في وجود sⱼ. آلية عشوائية A تحقق الحماية السرية (p,r)، إذا كان لأي هجوم إعادة بناء B: