2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.
Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower Fréchet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.
academic

الحماية السرية للتطور التفاضلي الخاص لتوليد النصوص الاصطناعية

المعلومات الأساسية

  • معرّف الورقة: 2510.10990
  • العنوان: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
  • المؤلفون: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²جامعة Rutgers)
  • التصنيف: cs.CR (التشفير والأمان)، cs.CL (الحوسبة واللغة)، cs.NE (الحوسبة العصبية والتطورية)
  • تاريخ النشر: 13 أكتوبر 2025 (نسخة arXiv المسبقة)
  • رابط الورقة: https://arxiv.org/abs/2510.10990

الملخص

أصبحت بيانات النصوص ذات قيمة استثنائية في نماذج اللغات الكبيرة (LLMs)، وقد تدفع حتى نحو الذكاء الاصطناعي العام (AGI). ومع ذلك، فإن العديد من بيانات النصوص عالية الجودة في العالم الحقيقي خاصة، ولا يمكن استخدامها بحرية بسبب مخاوف الخصوصية. لذلك، تم اقتراح توليد النصوص الاصطناعية بالخصوصية التفاضلية (DP)، بهدف توليد بيانات اصطناعية عالية الفائدة مع حماية المعلومات الحساسة. ومع ذلك، فإن الطرق الحالية لتوليد النصوص الاصطناعية بـ DP توفر ضمانات موحدة، مما يؤدي غالباً إلى الإفراط في حماية المحتوى غير الحساس، مما يسبب فقداناً كبيراً في الفائدة وتكاليف حسابية عالية. تقترح هذه الورقة إطار عمل جديد يسمى Secret-Protected Evolution (SecPE)، الذي يوسع التطور الخاص من خلال الحماية الواعية للأسرار. يثبت الإطار نظرياً أن SecPE يحقق الحماية السرية (p,r)، والتي تشكل استرخاءً لـ DP الغاوسي، مما يحقق توازناً أفضل بين الفائدة والخصوصية، مع تقليل التعقيد الحسابي بشكل كبير مقارنة بطرق الأساس.

الخلفية البحثية والدافع

تعريف المشكلة

مع التطور السريع لنماذج اللغات الكبيرة، أصبحت قيمة بيانات النصوص متزايدة الأهمية. ومع ذلك، فإن تدريب وتكييف هذه النماذج يعتمد عادة على كميات كبيرة من بيانات النصوص الخاصة بالمستخدمين، مما يشكل مخاطر خصوصية جسيمة، بما في ذلك حفظ وتسرب المحتوى الحساس.

أهمية المشكلة

  1. تضارب قيمة البيانات والخصوصية: بيانات النصوص عالية الجودة ضرورية لـ LLMs، لكن استخدام البيانات الخاصة يواجه قيوداً تنظيمية للخصوصية
  2. قيود الطرق الحالية: تقدم طرق الخصوصية التفاضلية التقليدية حماية موحدة لجميع السجلات، حتى لو كانت المعلومات الحساسة قد تكون نادرة وتختلف بين المستخدمين والسمات
  3. مشاكل الكفاءة الحسابية: تتطلب طرق التطور الخاص (PE) الحالية حسابات تشابه زوجية كبيرة، مما يسبب نفقات حسابية ضخمة

الدافع البحثي

تفترض طرق DP الحالية أن كل سجل حساس بالتساوي، لكن في الواقع:

  • قد تكون المعلومات الحساسة موزعة بشكل متناثر
  • تختلف درجات الحساسية بين المستخدمين والسمات المختلفة
  • قد تتكرر الأسرار عبر السجلات
  • الضمانات الموحدة تؤدي إلى الإفراط في الحماية وفقدان الفائدة

المساهمات الأساسية

  1. اقتراح إطار SecPE: إطار عمل لتوليد البيانات الاصطناعية الخاصة يركز على حماية الأسرار بدلاً من DP التقليدي، مما يحسن الفائدة من خلال تقليل الضوضاء التي يتطلبها DP عادة
  2. تطوير طريقة التجميع المحمي بالأسرار: يقلل بشكل كبير من التعقيد الزمني للتشغيل مقارنة بطريقة PE، من O(MNsyn) إلى O(KNsyn)، حيث K≪M
  3. الضمانات النظرية: إثبات أن SecPE يحقق الحماية السرية (p,r)، وهي نسخة مرتخية من DP الغاوسي
  4. التحقق التجريبي: على مجموعات بيانات OpenReview و PubMed و Yelp، يحقق SecPE كفاءة أعلى وFID أقل ودقة أفضل في المهام اللاحقة تحت نفس الضمانات المعاد بناؤها

شرح الطريقة

تعريف المهمة

بالنظر إلى مجموعة بيانات نصوص خاصة تحتوي على أسرار حساسة، توليد بيانات نصوص اصطناعية عالية الجودة بحيث:

  1. الحفاظ على الخصائص الإحصائية المماثلة للبيانات الأصلية
  2. حماية الأسرار المحددة من إعادة البناء
  3. الحفاظ على الأداء الجيد في المهام اللاحقة

تعريف الحماية السرية

التعريف 3.1 (الحماية السرية): دع D = {x₁,...,xₙ} تكون مجموعة بيانات التدريب، حيث قد تحتوي كل عينة على أسرار من S = {s₁,...,sₘ}. بالنسبة للسر sⱼ∈S، دع πⱼ تكون توزيع الاحتمالات السابقة على مجموعة البيانات {D¹ⱼ,...,Dᴷⱼ}، مع تحقيق Pr(Dᵏⱼ) ≤ pⱼ، حيث تختلف D و Dᵏⱼ فقط في وجود sⱼ. آلية عشوائية A تحقق الحماية السرية (p,r)، إذا كان لأي هجوم إعادة بناء B:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

معمارية النموذج

يتضمن إطار SecPE مكونين أساسيين:

1. التجميع السري (Secret Clustering)

  • الهدف: استخدام البيانات العامة للتجميع، ثم تحديث المراكز باستخدام بيانات خاصة مع ضوضاء
  • تدفق الخوارزمية:
    1. تنفيذ تجميع K-means على البيانات العامة: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K)
    2. تعيين البيانات الخاصة إلى أقرب مركز عام
    3. إضافة ضوضاء معايرة لتحديث إحصائيات التجميع

2. التطور المحمي (Protected Evolution)

  • الهدف: إجراء الاختيار التكراري بناءً على التمثيلات المشوشة، وليس التصويت المباشر على البيانات الخاصة
  • المزايا: تقليل التعقيد من O(MNsyn) إلى O(KNsyn)

معايرة الضوضاء

الخوارزمية 1 (SecretNoise): تعيين الأوزان لكل عينة خاصة من خلال البرمجة الخطية:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

حيث ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) كقيد السعة.

نقاط الابتكار التقني

  1. من خصوصية العضوية إلى حماية الأسرار: عدم حماية عضوية مجموعة البيانات، بل حماية محتوى الأسرار المحددة
  2. تسريع التجميع: استبدال التصويت النقطي بالتصويت التمثيلي، مما يحسن الكفاءة الحسابية بشكل كبير
  3. استرخاء قيود DP: الحماية السرية (p,r) تقيد فقط معدل نجاح الخصم ذي الأولوية الواحدة، وليس منحنى المقايضة بالكامل

إعداد التجارب

مجموعات البيانات

  1. OpenReview: تقييمات أوراق ICLR 2023، معنونة حسب مجال البحث وتقييم التوصية
  2. PubMed: ملخصات الأوراق الطبية
  3. Yelp: تقييمات الأعمال من المستخدمين، معنونة حسب فئة الأعمال والتقييم

مؤشرات التقييم

  1. الكفاءة الحسابية: ساعات GPU ووقت حساب الرسم البياني
  2. الأداء اللاحق: دقة التصنيف عند ضبط RoBERTa/BERT على البيانات الاصطناعية
  3. التشابه الحقيقي-الاصطناعي: FID على تضمينات النصوص ومقارنة توزيع طول النصوص

طرق المقارنة

  • Aug-PE: طريقة التطور الخاص المحسنة بناءً على μ-GDP
  • أعداد تجميع مختلفة K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀ وغيرها

تفاصيل التنفيذ

  • نموذج التوليد: GPT-2, Qwen-2.5-1.5B (التجارب الرئيسية), Llama-3.1-8B, GPT-4o-Mini (الاستئصال)
  • نموذج التضمين: Sentence-Transformers
  • ميزانية الخصوصية: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

نتائج التجارب

النتائج الرئيسية

مقارنة وقت التشغيل

تُظهر الجدول 2 تسريعاً كبيراً في بناء الرسم البياني لـ SecPE:

  • OpenReview: 126.9s → 1.5s (تسريع 84×)
  • PubMed: 32.2s → 0.5s (تسريع 64×)
  • Yelp: 30126.4s → 2.3s (تسريع حوالي 13,000×)

أداء المهام اللاحقة

يتفوق SecPE باستمرار على Aug-PE على جميع مجموعات البيانات:

PubMed (الجدول 3):

  • GPT-2 + BERT-small: Aug-PE من 29.70→24.93 (r/p: ∞→2)، SecPE من 29.19→29.18
  • كلما كانت متطلبات الخصوصية أكثر صرامة، كانت مزايا SecPE أكثر وضوحاً

Yelp (الجدول 5):

  • عند r/p=2، يحقق SecPE₈₀₀ 72.74% في تصنيف الفئات مقابل 71.53% لـ Aug-PE
  • في تصنيف التقييم يحقق SecPE₈₀₀ 62.46% مقابل 47.02% لـ Aug-PE

التشابه الحقيقي-الاصطناعي

يُظهر الشكل 2 أنه مع تناقص r/p، يحقق SecPE FID أقل (تشابه أعلى)، بينما في الإعداد غير الخاص يكون FID أعلى قليلاً لكن قابل للمقارنة بشكل أساسي.

تجارب الاستئصال

تأثير اختيار نموذج اللغة (الجدول 6)

تنتج نماذج اللغة الأقوى نتائج أفضل:

  • GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
  • Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

تأثير عدد التجميعات K

تُظهر التجارب أن الأداء غير حساس لاختيار K، مما يشير إلى قوة الطريقة.

نتائج مهام PII

في مهام كشف PII الحقيقية، يكون تحسن SecPE مقارنة بـ Aug-PE معتدلاً، لكنه يحافظ على القدرة التنافسية.

الأعمال ذات الصلة

توليد النصوص بالخصوصية التفاضلية

  1. DP-Generator: استخدام DP-SGD لتدريب نموذج اللغة، كثيف الحوسبة ويتطلب كمية كبيرة من البيانات الخاصة عالية الجودة
  2. التطور الخاص (PE): الوصول إلى نموذج أساسي عبر API، تحديث عينات عشوائية الإنشاء بشكل متكرر
  3. مساهمة هذه الورقة: الانتقال من الحماية الموحدة إلى الحماية الواعية للأسرار

حماية الأسرار مقابل الخصوصية التفاضلية

  • DP التقليدي: حماية عضوية المجموعة، حماية موحدة لجميع السجلات
  • حماية الأسرار: معايرة الضمانات للأسرار المحددة، السماح باستخدام البيانات العامة بدون حماية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. يحقق SecPE توازناً أفضل بين الفائدة والخصوصية من خلال الحماية الواعية للأسرار
  2. تحسن طريقة التجميع الكفاءة الحسابية بشكل كبير
  3. يتفوق باستمرار على طرق أساس GDP على عدة مجموعات بيانات
  4. يمكن لنماذج اللغة الأقوى أن تنتج نصوصاً اصطناعية أعلى جودة

القيود

  1. فقدان التجريد بالتجميع: يؤدي التجميع إلى تجريد التفاصيل الدقيقة، وقد يسبب فقداناً طفيفاً في الفائدة في الحالة غير الخاصة
  2. تحديات تعريف الأسرار: كيفية تعريف الأسرار رسمياً وقياس حساسيتها لا تزال مسألة مفتوحة
  3. نطاق التطبيق: تفترض الطريقة أن المعلومات الحساسة نادرة ومتكررة، وقد لا تنطبق على جميع السيناريوهات

الاتجاهات المستقبلية

  1. استكشاف الميزانيات غير المتجانسة والخاصة بالأسرار والأولويات التكيفية
  2. التوسع إلى مجال الصور والتحقيق في مولدات الحماية السرية
  3. توحيد استخدام البيانات الخاصة بشكل أكبر

التقييم المتعمق

المزايا

  1. الابتكار النظري: مفهوم الحماية السرية (p,r) جديد، يوفر منظوراً جديداً لحماية الخصوصية
  2. القيمة العملية: التسريع الحسابي الكبير يجعل الطريقة أكثر قابلية للتطبيق العملي
  3. التجارب الشاملة: تقييم شامل عبر مجموعات بيانات متعددة ومؤشرات متعددة
  4. التقنية الصلبة: تحليل نظري صارم وإثباتات

أوجه القصور

  1. تحديد الأسرار: لم تناقش الورقة بشكل كافٍ كيفية تحديد وتعريف "الأسرار" في الممارسة العملية
  2. قيود الأساس: المقارنة الرئيسية مع طريقة أساس واحدة، تفتقر إلى المقارنة مع طرق DP أخرى لتوليد النصوص
  3. القابلية للتعميم: التحسن المحدود في مهام PII، تحتاج قابلية تعميم الطريقة إلى التحقق الإضافي

التأثير

  1. المساهمة الأكاديمية: توفير إطار نظري جديد لتوليد البيانات الاصطناعية المحمية بالخصوصية
  2. القيمة العملية: التسريع الحسابي الكبير يجعل الطريقة أكثر ملاءمة للتطبيقات واسعة النطاق
  3. قابلية التكرار: توفير تفاصيل تنفيذ شاملة وإعدادات المعاملات الفائقة

السيناريوهات المطبقة

  1. بيانات النصوص حيث تكون المعلومات الحساسة نادرة ونوع معروف
  2. التطبيقات التي تتطلب توليد نصوص خاصة واسعة النطاق
  3. السيناريوهات ذات المتطلبات العالية للكفاءة الحسابية
  4. تطبيقات المجال حيث يمكن تعريف "الأسرار" بوضوح

المراجع

تستشهد الورقة بأعمال مهمة في مجالات حماية الخصوصية والخصوصية التفاضلية وتوليد النصوص، بما في ذلك:

  • Abadi et al. (2016): العمل الأساسي لـ DP-SGD
  • Dong et al. (2019): النظرية الغاوسية للخصوصية التفاضلية
  • Xie et al. (2024): طريقة التطور الخاص
  • Ganesh et al. (2025): الأساس النظري لحماية الأسرار