2025-11-20T05:58:13.871627

Secret-Protected Evolution for Differentially Private Synthetic Text Generation

Wang, Chen, Du et al.

Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower FrÃ©chet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.

academic

গোপনীয়তা-সুরক্ষিত বিবর্তন পার্থক্যমূলক গোপনীয় সিন্থেটিক পাঠ্য প্রজন্মের জন্য

মৌলিক তথ্য

পেপার আইডি: 2510.10990
শিরোনাম: Secret-Protected Evolution for Differentially Private Synthetic Text Generation
লেখক: Tianze Wang¹'², Zhaoyu Chen¹, Jian Du¹†, Yingtai Xiao¹, Linjun Zhang², Qiang Yan¹ (¹TikTok, ²Rutgers University)
শ্রেণীবিভাগ: cs.CR (ক্রিপ্টোগ্রাফি এবং নিরাপত্তা), cs.CL (গণনা এবং ভাষা), cs.NE (স্নায়ু এবং বিবর্তনীয় কম্পিউটিং)
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv প্রাক-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.10990

সারসংক্ষেপ

পাঠ্য ডেটা বৃহৎ ভাষা মডেল (LLMs) এ অত্যন্ত মূল্যবান হয়ে উঠেছে এবং এমনকি সাধারণ কৃত্রিম বুদ্ধিমত্তা (AGI) এর উন্নয়নকে চালিত করতে পারে। তবে, বাস্তব বিশ্বে অনেক উচ্চ মানের পাঠ্য ডেটা ব্যক্তিগত, এবং গোপনীয়তার উদ্বেগের কারণে অবাধে ব্যবহার করা যায় না। অতএব, পার্থক্যমূলক গোপনীয়তা (DP) সিন্থেটিক পাঠ্য প্রজন্ম প্রস্তাব করা হয়েছে, যা উচ্চ ব্যবহারযোগ্যতার সিন্থেটিক ডেটা তৈরি করার সময় সংবেদনশীল তথ্য রক্ষা করার লক্ষ্য রাখে। তবে, বিদ্যমান DP সিন্থেটিক পাঠ্য প্রজন্ম পদ্ধতি একীভূত গ্যারান্টি প্রয়োগ করে, যা প্রায়শই অ-সংবেদনশীল বিষয়বস্তুকে অত্যধিক সুরক্ষিত করে, যার ফলে উল্লেখযোগ্য ব্যবহারযোগ্যতা হ্রাস এবং গণনামূলক ওভারহেড ঘটে। এই পেপারটি Secret-Protected Evolution (SecPE) প্রস্তাব করে, গোপনীয়তা-সচেতন সুরক্ষা মাধ্যমে ব্যক্তিগত বিবর্তন প্রসারিত করার একটি নতুন কাঠামো। তাত্ত্বিকভাবে প্রমাণ করা হয়েছে যে SecPE (p,r)-গোপনীয়তা-সুরক্ষা সন্তুষ্ট করে, যা গাউসিয়ান DP এর একটি শিথিলকরণ গঠন করে, আরও কঠোর ব্যবহারযোগ্যতা-গোপনীয়তা বিনিময় অর্জন করে, যখন বেসলাইন পদ্ধতির তুলনায় গণনামূলক জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

বৃহৎ ভাষা মডেলের দ্রুত উন্নয়নের সাথে, পাঠ্য ডেটার মূল্য ক্রমবর্ধমান স্পষ্ট হয়ে উঠছে। তবে, এই মডেলগুলির প্রশিক্ষণ এবং অভিযোজন সাধারণত বিশাল পরিমাণে ব্যক্তিগত ব্যবহারকারী পাঠ্য ডেটার উপর নির্ভর করে, যা সংবেদনশীল বিষয়বস্তুর স্মরণ এবং ফাঁস সহ গুরুতর গোপনীয়তা ঝুঁকি নিয়ে আসে।

সমস্যার গুরুত্ব

১. ডেটা মূল্য এবং গোপনীয়তার দ্বন্দ্ব: উচ্চ মানের পাঠ্য ডেটা LLMs এর জন্য অত্যন্ত গুরুত্বপূর্ণ, কিন্তু ব্যক্তিগত ডেটার ব্যবহার গোপনীয়তা নিয়মকানুন দ্বারা সীমাবদ্ধ ২. বিদ্যমান পদ্ধতির সীমাবদ্ধতা: ঐতিহ্যবাহী পার্থক্যমূলক গোপনীয়তা পদ্ধতি সমস্ত রেকর্ডে একীভূত সুরক্ষা প্রদান করে, এমনকি সংবেদনশীল তথ্য বিরল এবং ব্যবহারকারী এবং বৈশিষ্ট্য জুড়ে পরিবর্তিত হতে পারে ३. গণনামূলক দক্ষতা সমস্যা: বিদ্যমান ব্যক্তিগত বিবর্তন (PE) পদ্ধতি বিশাল পরিমাণে জোড়া সাদৃশ্য গণনা প্রয়োজন, যা বিশাল গণনামূলক ওভারহেড সৃষ্টি করে

গবেষণা প্রেরণা

বিদ্যমান DP পদ্ধতি অনুমান করে যে প্রতিটি রেকর্ড সমানভাবে সংবেদনশীল, কিন্তু বাস্তবে:

সংবেদনশীল তথ্য বিরলভাবে বিতরণ করা যেতে পারে
বিভিন্ন ব্যবহারকারী এবং বৈশিষ্ট্যের সংবেদনশীলতার ডিগ্রি আলাদা
গোপনীয়তা রেকর্ড জুড়ে পুনরাবৃত্ত হতে পারে
একীভূত গ্যারান্টি অত্যধিক সুরক্ষা এবং ব্যবহারযোগ্যতা হ্রাস করে

মূল অবদান

१. SecPE কাঠামো প্রস্তাব: ঐতিহ্যবাহী DP এর পরিবর্তে গোপনীয়তা সুরক্ষার উপর জোর দেওয়া একটি ব্যক্তিগত সিন্থেটিক ডেটা প্রজন্ম কাঠামো, DP সাধারণত প্রয়োজনীয় শব্দ হ্রাস করে ব্যবহারযোগ্যতা উন্নত করে २. গোপনীয়তা-সুরক্ষিত ক্লাস্টারিং পদ্ধতি উন্নয়ন: PE পদ্ধতির তুলনায় চালানোর সময়ের জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে, O(MNsyn) থেকে O(KNsyn) পর্যন্ত, যেখানে K≪M ३. তাত্ত্বিক গ্যারান্টি: প্রমাণ করে যে SecPE (p,r)-গোপনীয়তা-সুরক্ষা সন্তুষ্ট করে, যা গাউসিয়ান DP এর একটি শিথিল সংস্করণ ४. পরীক্ষামূলক যাচাইকরণ: OpenReview, PubMed এবং Yelp ডেটাসেটে, SecPE একই পুনর্নির্মাণ গ্যারান্টির অধীনে উচ্চতর দক্ষতা, নিম্ন FID এবং উন্নত ডাউনস্ট্রিম নির্ভুলতা অর্জন করে

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

সংবেদনশীল গোপনীয়তা সম্বলিত ব্যক্তিগত পাঠ্য ডেটাসেট দেওয়া, উচ্চ মানের সিন্থেটিক পাঠ্য ডেটা তৈরি করুন, যাতে এটি: १. মূল ডেটার সাথে একই পরিসংখ্যানগত বৈশিষ্ট্য বজায় রাখে २. নির্দিষ্ট গোপনীয়তা পুনর্নির্মাণ থেকে রক্ষা করে ३. ডাউনস্ট্রিম কাজে ভাল কর্মক্ষমতা বজায় রাখে

গোপনীয়তা-সুরক্ষা সংজ্ঞা

সংজ্ঞা 3.1 (গোপনীয়তা-সুরক্ষা): D = {x₁,...,xₙ} প্রশিক্ষণ ডেটাসেট হতে দিন, প্রতিটি নমুনা সম্ভবত S = {s₁,...,sₘ} থেকে গোপনীয়তা ধারণ করতে পারে। গোপনীয়তা sⱼ∈S এর জন্য, πⱼ ডেটাসেট {D¹ⱼ,...,Dᴷⱼ} এ পূর্ব বিতরণ হতে দিন, Pr(Dᵏⱼ) ≤ pⱼ সন্তুষ্ট করে, যেখানে D এবং Dᵏⱼ শুধুমাত্র sⱼ এর উপস্থিতিতে আলাদা। র্যান্ডম মেকানিজম A (p,r)-গোপনীয়তা-সুরক্ষা সন্তুষ্ট করে, যদি কোনো পুনর্নির্মাণ আক্রমণ B এর জন্য:

Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j

মডেল স্থাপত্য

SecPE কাঠামো দুটি মূল উপাদান অন্তর্ভুক্ত করে:

१. গোপনীয়তা ক্লাস্টারিং (Secret Clustering)

উদ্দেশ্য: জনসাধারণের ডেটা ব্যবহার করে ক্লাস্টারিং সম্পাদন করুন, তারপর প্রতিনিধিত্বমূলক কেন্দ্র গঠনের জন্য শব্দযুক্ত ব্যক্তিগত ডেটা দিয়ে আপডেট করুন
অ্যালগরিদম প্রবাহ: १. জনসাধারণের ডেটায় K-means ক্লাস্টারিং সম্পাদন করুন: {(eₖ, nₖ)}ᴷₖ₌₁ = Kmeans(Dpub, K) २. ব্যক্তিগত ডেটা নিকটতম জনসাধারণ কেন্দ্রে বরাদ্দ করুন ३. ক্লাস্টারিং পরিসংখ্যান আপডেট করতে ক্যালিব্রেটেড শব্দ যোগ করুন

२. সুরক্ষিত বিবর্তন (Protected Evolution)

উদ্দেশ্য: ব্যক্তিগত ডেটায় সরাসরি ভোটের পরিবর্তে শব্দযুক্ত প্রতিনিধিদের উপর ভিত্তি করে পুনরাবৃত্তিমূলক নির্বাচন সম্পাদন করুন
সুবিধা: জটিলতা O(MNsyn) থেকে O(KNsyn) এ হ্রাস করে

শব্দ ক্যালিব্রেশন

অ্যালগরিদম 1 (SecretNoise): রৈখিক প্রোগ্রামিং এর মাধ্যমে প্রতিটি ব্যক্তিগত নমুনায় ওজন বরাদ্দ করুন:

max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]

যেখানে ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) ক্ষমতা সীমাবদ্ধতা হিসাবে।

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

१. সদস্যপদ গোপনীয়তা থেকে গোপনীয়তা-সুরক্ষায় রূপান্তর: ডেটাসেট সদস্যপদ সম্পর্ক রক্ষা করবেন না, বরং নির্দিষ্ট গোপনীয় বিষয়বস্তু রক্ষা করুন २. ক্লাস্টারিং ত্বরণ: পয়েন্ট-ভিত্তিক ভোটের পরিবর্তে প্রতিনিধিত্বমূলক ভোট ব্যবহার করুন, গণনামূলক দক্ষতা ব্যাপকভাবে উন্নত করুন ३. DP সীমাবদ্ধতা শিথিলকরণ: (p,r)-গোপনীয়তা-সুরক্ষা শুধুমাত্র একক-পয়েন্ট পূর্ব প্রতিদ্বন্দ্বীর সাফল্যের হার সীমাবদ্ধ করে, সম্পূর্ণ বিনিময় বক্ররেখা নয়

পরীক্ষামূলক সেটআপ

ডেটাসেট

१. OpenReview: ICLR 2023 কাগজ পর্যালোচনা, গবেষণা ক্ষেত্র এবং সুপারিশ রেটিং দ্বারা মনোনীত २. PubMed: চিকিৎসা কাগজ সারাংশ ३. Yelp: ব্যবহারকারী ব্যবসায়িক পর্যালোচনা, ব্যবসায়িক বিভাগ এবং রেটিং দ্বারা মনোনীত

মূল্যায়ন মেট্রিক্স

१. গণনামূলক দক্ষতা: GPU ঘন্টা এবং হিস্টোগ্রাম গণনা সময় २. ডাউনস্ট্রিম কর্মক্ষমতা: সিন্থেটিক ডেটায় RoBERTa/BERT সূক্ষ্ম-সুর করার শ্রেণীবিভাগ নির্ভুলতা ३. বাস্তব-সিন্থেটিক সাদৃশ্য: পাঠ্য এম্বেডিং এ FID এবং পাঠ্য দৈর্ঘ্য বিতরণ তুলনা

তুলনা পদ্ধতি

Aug-PE: μ-GDP ভিত্তিক উন্নত ব্যক্তিগত বিবর্তন পদ্ধতি
বিভিন্ন ক্লাস্টারিং সংখ্যা K: SecPE₂₀₀₀, SecPE₃₀₀₀, SecPE₄₀₀₀ ইত্যাদি ভেরিয়েন্ট

বাস্তবায়ন বিবরণ

প্রজন্ম মডেল: GPT-2, Qwen-2.5-1.5B (প্রধান পরীক্ষা), Llama-3.1-8B, GPT-4o-Mini (অপসারণ)
এম্বেডিং মডেল: Sentence-Transformers
গোপনীয়তা বাজেট: p = 1×10⁻⁴, r/p ∈ {2, 10, 50, ∞}

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

চালানোর সময় তুলনা

টেবিল 2 হিস্টোগ্রাম নির্মাণে SecPE উল্লেখযোগ্য ত্বরণ প্রদর্শন করে:

OpenReview: 126.9s → 1.5s (84× ত্বরণ)
PubMed: 32.2s → 0.5s (64× ত্বরণ)
Yelp: 30126.4s → 2.3s (প্রায় 13,000× ত্বরণ)

ডাউনস্ট্রিম কাজের কর্মক্ষমতা

সমস্ত ডেটাসেটে, SecPE ধারাবাহিকভাবে Aug-PE কে ছাড়িয়ে যায়:

PubMed (টেবিল 3):

GPT-2 + BERT-small: Aug-PE 29.70→24.93 (r/p: ∞→2), SecPE 29.19→29.18
গোপনীয়তা প্রয়োজন যত কঠোর, SecPE সুবিধা তত স্পষ্ট

Yelp (টেবিল 5):

r/p=2 এ, SecPE₈₀₀ বিভাগ শ্রেণীবিভাগে 72.74% বনাম Aug-PE এর 71.53% অর্জন করে
রেটিং শ্রেণীবিভাগে SecPE₈₀₀ 62.46% বনাম Aug-PE এর 47.02% অর্জন করে

বাস্তব-সিন্থেটিক সাদৃশ্য

চিত্র 2 দেখায় যে r/p হ্রাসের সাথে, SecPE নিম্ন FID (উচ্চতর সাদৃশ্য) অর্জন করে, যখন অ-ব্যক্তিগত সেটিংয়ে FID সামান্য বেশি কিন্তু মূলত তুলনীয়।

অপসারণ পরীক্ষা

LLM নির্বাচন প্রভাব (টেবিল 6)

শক্তিশালী LLM উন্নত ফলাফল উৎপাদন করে:

GPT-4o-mini (74.84, 62.96) > GPT-2 (73.82, 58.36)
Qwen-2.5-7B (74.56, 63.06) > Qwen-2.5-1.5B (73.12, 62.08)

ক্লাস্টারিং সংখ্যা K এর প্রভাব

পরীক্ষা দেখায় যে কর্মক্ষমতা K এর পছন্দের প্রতি অসংবেদনশীল, পদ্ধতি শক্তিশালী।

PII কাজের ফলাফল

বাস্তব PII সনাক্তকরণ কাজে, SecPE Aug-PE এর তুলনায় মধ্যম উন্নতি, কিন্তু প্রতিযোগিতামূলক থাকে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

१. SecPE গোপনীয়তা-সচেতন সুরক্ষার মাধ্যমে উন্নত ব্যবহারযোগ্যতা-গোপনীয়তা বিনিময় অর্জন করে २. ক্লাস্টারিং পদ্ধতি গণনামূলক দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে ३. একাধিক ডেটাসেটে GDP বেসলাইন পদ্ধতির তুলনায় ধারাবাহিকভাবে উন্নত ४. শক্তিশালী LLM উচ্চতর মানের সিন্থেটিক পাঠ্য উৎপাদন করতে পারে

সীমাবদ্ধতা

१. ক্লাস্টারিং বিমূর্তকরণ ক্ষতি: ক্লাস্টারিং সূক্ষ্ম-দানা বিবরণ বিমূর্ত করে, অ-ব্যক্তিগত পরিস্থিতিতে সামান্য ব্যবহারযোগ্যতা ক্ষতি হতে পারে २. গোপনীয়তা সংজ্ঞা চ্যালেঞ্জ: কীভাবে গোপনীয়তা আনুষ্ঠানিকভাবে সংজ্ঞায়িত করতে এবং এর সংবেদনশীলতা পরিমাপ করতে হয় তা এখনও একটি উন্মুক্ত প্রশ্ন ३. প্রযোজ্য পরিসীমা: পদ্ধতি অনুমান করে যে সংবেদনশীল তথ্য বিরল এবং পুনরাবৃত্ত, সমস্ত পরিস্থিতিতে প্রযোজ্য নাও হতে পারে

ভবিষ্যত দিকনির্দেশনা

१. বৈষম্যমূলক, গোপনীয়তা-নির্দিষ্ট বাজেট এবং অভিযোজিত পূর্ব অন্বেষণ করুন २. চিত্র ডোমেনে প্রসারিত করুন এবং গোপনীয়তা-সুরক্ষিত জেনারেটর তদন্ত করুন ३. ব্যক্তিগত ডেটা ব্যবহার আরও মানক করুন

গভীর মূল্যায়ন

শক্তি

१. তাত্ত্বিক উদ্ভাবন: (p,r)-গোপনীয়তা-সুরক্ষা ধারণা উদ্ভাবনী, গোপনীয়তা সুরক্ষার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে २. ব্যবহারিক মূল্য: উল্লেখযোগ্য গণনামূলক ত্বরণ পদ্ধতিকে আরও ব্যবহারিক প্রয়োগ মূল্য করে তোলে ३. পরীক্ষা সম্পূর্ণ: একাধিক ডেটাসেট, একাধিক মেট্রিক্সের ব্যাপক মূল্যায়ন ४. প্রযুক্তি দৃঢ়: কঠোর তাত্ত্বিক বিশ্লেষণ এবং প্রমাণ

অপূর্ণতা

१. গোপনীয়তা সনাক্তকরণ: পেপার ব্যবহারিকভাবে "গোপনীয়তা" কীভাবে সনাক্ত এবং সংজ্ঞায়িত করতে হয় তা যথেষ্টভাবে আলোচনা করে না २. বেসলাইন সীমাবদ্ধতা: প্রধানত একটি বেসলাইন পদ্ধতির সাথে তুলনা, অন্যান্য DP পাঠ্য প্রজন্ম পদ্ধতির সাথে তুলনা অভাব ३. সাধারণীকরণ: PII কাজে সীমিত উন্নতি, পদ্ধতির সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন

প্রভাব

१. একাডেমিক অবদান: গোপনীয়তা-সুরক্ষিত সিন্থেটিক ডেটা প্রজন্মের জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করে २. ব্যবহারিক মূল্য: গণনামূলক দক্ষতার উল্লেখযোগ্য উন্নতি পদ্ধতিকে বৃহৎ-স্কেল প্রয়োগের জন্য আরও উপযুক্ত করে তোলে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিং প্রদান করে

প্রযোজ্য পরিস্থিতি

१. সংবেদনশীল তথ্য বিরল এবং প্রকার পরিচিত পাঠ্য ডেটা २. বৃহৎ-স্কেল গোপনীয়তা-সুরক্ষিত পাঠ্য প্রজন্মের প্রয়োজন অ্যাপ্লিকেশন ३. গণনামূলক দক্ষতার প্রতি উচ্চ প্রয়োজনীয়তা সহ পরিস্থিতি ४. "গোপনীয়তা" স্পষ্টভাবে সংজ্ঞায়িত করা যায় এমন ডোমেন অ্যাপ্লিকেশন

তথ্যসূত্র

পেপারটি গোপনীয়তা সুরক্ষা, পার্থক্যমূলক গোপনীয়তা, পাঠ্য প্রজন্ম এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

Abadi et al. (2016): DP-SGD মৌলিক কাজ
Dong et al. (2019): গাউসিয়ান পার্থক্যমূলক গোপনীয়তা তত্ত্ব
Xie et al. (2024): Private Evolution পদ্ধতি
Ganesh et al. (2025): গোপনীয়তা-সুরক্ষা তাত্ত্বিক ভিত্তি