পাঠ্য ডেটা বৃহৎ ভাষা মডেল (LLMs) এ অত্যন্ত মূল্যবান হয়ে উঠেছে এবং এমনকি সাধারণ কৃত্রিম বুদ্ধিমত্তা (AGI) এর উন্নয়নকে চালিত করতে পারে। তবে, বাস্তব বিশ্বে অনেক উচ্চ মানের পাঠ্য ডেটা ব্যক্তিগত, এবং গোপনীয়তার উদ্বেগের কারণে অবাধে ব্যবহার করা যায় না। অতএব, পার্থক্যমূলক গোপনীয়তা (DP) সিন্থেটিক পাঠ্য প্রজন্ম প্রস্তাব করা হয়েছে, যা উচ্চ ব্যবহারযোগ্যতার সিন্থেটিক ডেটা তৈরি করার সময় সংবেদনশীল তথ্য রক্ষা করার লক্ষ্য রাখে। তবে, বিদ্যমান DP সিন্থেটিক পাঠ্য প্রজন্ম পদ্ধতি একীভূত গ্যারান্টি প্রয়োগ করে, যা প্রায়শই অ-সংবেদনশীল বিষয়বস্তুকে অত্যধিক সুরক্ষিত করে, যার ফলে উল্লেখযোগ্য ব্যবহারযোগ্যতা হ্রাস এবং গণনামূলক ওভারহেড ঘটে। এই পেপারটি Secret-Protected Evolution (SecPE) প্রস্তাব করে, গোপনীয়তা-সচেতন সুরক্ষা মাধ্যমে ব্যক্তিগত বিবর্তন প্রসারিত করার একটি নতুন কাঠামো। তাত্ত্বিকভাবে প্রমাণ করা হয়েছে যে SecPE (p,r)-গোপনীয়তা-সুরক্ষা সন্তুষ্ট করে, যা গাউসিয়ান DP এর একটি শিথিলকরণ গঠন করে, আরও কঠোর ব্যবহারযোগ্যতা-গোপনীয়তা বিনিময় অর্জন করে, যখন বেসলাইন পদ্ধতির তুলনায় গণনামূলক জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে।
বৃহৎ ভাষা মডেলের দ্রুত উন্নয়নের সাথে, পাঠ্য ডেটার মূল্য ক্রমবর্ধমান স্পষ্ট হয়ে উঠছে। তবে, এই মডেলগুলির প্রশিক্ষণ এবং অভিযোজন সাধারণত বিশাল পরিমাণে ব্যক্তিগত ব্যবহারকারী পাঠ্য ডেটার উপর নির্ভর করে, যা সংবেদনশীল বিষয়বস্তুর স্মরণ এবং ফাঁস সহ গুরুতর গোপনীয়তা ঝুঁকি নিয়ে আসে।
১. ডেটা মূল্য এবং গোপনীয়তার দ্বন্দ্ব: উচ্চ মানের পাঠ্য ডেটা LLMs এর জন্য অত্যন্ত গুরুত্বপূর্ণ, কিন্তু ব্যক্তিগত ডেটার ব্যবহার গোপনীয়তা নিয়মকানুন দ্বারা সীমাবদ্ধ ২. বিদ্যমান পদ্ধতির সীমাবদ্ধতা: ঐতিহ্যবাহী পার্থক্যমূলক গোপনীয়তা পদ্ধতি সমস্ত রেকর্ডে একীভূত সুরক্ষা প্রদান করে, এমনকি সংবেদনশীল তথ্য বিরল এবং ব্যবহারকারী এবং বৈশিষ্ট্য জুড়ে পরিবর্তিত হতে পারে ३. গণনামূলক দক্ষতা সমস্যা: বিদ্যমান ব্যক্তিগত বিবর্তন (PE) পদ্ধতি বিশাল পরিমাণে জোড়া সাদৃশ্য গণনা প্রয়োজন, যা বিশাল গণনামূলক ওভারহেড সৃষ্টি করে
বিদ্যমান DP পদ্ধতি অনুমান করে যে প্রতিটি রেকর্ড সমানভাবে সংবেদনশীল, কিন্তু বাস্তবে:
१. SecPE কাঠামো প্রস্তাব: ঐতিহ্যবাহী DP এর পরিবর্তে গোপনীয়তা সুরক্ষার উপর জোর দেওয়া একটি ব্যক্তিগত সিন্থেটিক ডেটা প্রজন্ম কাঠামো, DP সাধারণত প্রয়োজনীয় শব্দ হ্রাস করে ব্যবহারযোগ্যতা উন্নত করে २. গোপনীয়তা-সুরক্ষিত ক্লাস্টারিং পদ্ধতি উন্নয়ন: PE পদ্ধতির তুলনায় চালানোর সময়ের জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে, O(MNsyn) থেকে O(KNsyn) পর্যন্ত, যেখানে K≪M ३. তাত্ত্বিক গ্যারান্টি: প্রমাণ করে যে SecPE (p,r)-গোপনীয়তা-সুরক্ষা সন্তুষ্ট করে, যা গাউসিয়ান DP এর একটি শিথিল সংস্করণ ४. পরীক্ষামূলক যাচাইকরণ: OpenReview, PubMed এবং Yelp ডেটাসেটে, SecPE একই পুনর্নির্মাণ গ্যারান্টির অধীনে উচ্চতর দক্ষতা, নিম্ন FID এবং উন্নত ডাউনস্ট্রিম নির্ভুলতা অর্জন করে
সংবেদনশীল গোপনীয়তা সম্বলিত ব্যক্তিগত পাঠ্য ডেটাসেট দেওয়া, উচ্চ মানের সিন্থেটিক পাঠ্য ডেটা তৈরি করুন, যাতে এটি: १. মূল ডেটার সাথে একই পরিসংখ্যানগত বৈশিষ্ট্য বজায় রাখে २. নির্দিষ্ট গোপনীয়তা পুনর্নির্মাণ থেকে রক্ষা করে ३. ডাউনস্ট্রিম কাজে ভাল কর্মক্ষমতা বজায় রাখে
সংজ্ঞা 3.1 (গোপনীয়তা-সুরক্ষা): D = {x₁,...,xₙ} প্রশিক্ষণ ডেটাসেট হতে দিন, প্রতিটি নমুনা সম্ভবত S = {s₁,...,sₘ} থেকে গোপনীয়তা ধারণ করতে পারে। গোপনীয়তা sⱼ∈S এর জন্য, πⱼ ডেটাসেট {D¹ⱼ,...,Dᴷⱼ} এ পূর্ব বিতরণ হতে দিন, Pr(Dᵏⱼ) ≤ pⱼ সন্তুষ্ট করে, যেখানে D এবং Dᵏⱼ শুধুমাত্র sⱼ এর উপস্থিতিতে আলাদা। র্যান্ডম মেকানিজম A (p,r)-গোপনীয়তা-সুরক্ষা সন্তুষ্ট করে, যদি কোনো পুনর্নির্মাণ আক্রমণ B এর জন্য:
Pr[B(A(Dⱼ)) = sⱼ] ≤ rⱼ, ∀j
SecPE কাঠামো দুটি মূল উপাদান অন্তর্ভুক্ত করে:
অ্যালগরিদম 1 (SecretNoise): রৈখিক প্রোগ্রামিং এর মাধ্যমে প্রতিটি ব্যক্তিগত নমুনায় ওজন বরাদ্দ করুন:
max Σwᵢ subject to Σwᵢ ≤ ηⱼ, wᵢ ∈ [0,1]
যেখানে ηⱼ = Φ⁻¹(1-pⱼ) - Φ⁻¹(1-rⱼ) ক্ষমতা সীমাবদ্ধতা হিসাবে।
१. সদস্যপদ গোপনীয়তা থেকে গোপনীয়তা-সুরক্ষায় রূপান্তর: ডেটাসেট সদস্যপদ সম্পর্ক রক্ষা করবেন না, বরং নির্দিষ্ট গোপনীয় বিষয়বস্তু রক্ষা করুন २. ক্লাস্টারিং ত্বরণ: পয়েন্ট-ভিত্তিক ভোটের পরিবর্তে প্রতিনিধিত্বমূলক ভোট ব্যবহার করুন, গণনামূলক দক্ষতা ব্যাপকভাবে উন্নত করুন ३. DP সীমাবদ্ধতা শিথিলকরণ: (p,r)-গোপনীয়তা-সুরক্ষা শুধুমাত্র একক-পয়েন্ট পূর্ব প্রতিদ্বন্দ্বীর সাফল্যের হার সীমাবদ্ধ করে, সম্পূর্ণ বিনিময় বক্ররেখা নয়
१. OpenReview: ICLR 2023 কাগজ পর্যালোচনা, গবেষণা ক্ষেত্র এবং সুপারিশ রেটিং দ্বারা মনোনীত २. PubMed: চিকিৎসা কাগজ সারাংশ ३. Yelp: ব্যবহারকারী ব্যবসায়িক পর্যালোচনা, ব্যবসায়িক বিভাগ এবং রেটিং দ্বারা মনোনীত
१. গণনামূলক দক্ষতা: GPU ঘন্টা এবং হিস্টোগ্রাম গণনা সময় २. ডাউনস্ট্রিম কর্মক্ষমতা: সিন্থেটিক ডেটায় RoBERTa/BERT সূক্ষ্ম-সুর করার শ্রেণীবিভাগ নির্ভুলতা ३. বাস্তব-সিন্থেটিক সাদৃশ্য: পাঠ্য এম্বেডিং এ FID এবং পাঠ্য দৈর্ঘ্য বিতরণ তুলনা
টেবিল 2 হিস্টোগ্রাম নির্মাণে SecPE উল্লেখযোগ্য ত্বরণ প্রদর্শন করে:
সমস্ত ডেটাসেটে, SecPE ধারাবাহিকভাবে Aug-PE কে ছাড়িয়ে যায়:
PubMed (টেবিল 3):
Yelp (টেবিল 5):
চিত্র 2 দেখায় যে r/p হ্রাসের সাথে, SecPE নিম্ন FID (উচ্চতর সাদৃশ্য) অর্জন করে, যখন অ-ব্যক্তিগত সেটিংয়ে FID সামান্য বেশি কিন্তু মূলত তুলনীয়।
শক্তিশালী LLM উন্নত ফলাফল উৎপাদন করে:
পরীক্ষা দেখায় যে কর্মক্ষমতা K এর পছন্দের প্রতি অসংবেদনশীল, পদ্ধতি শক্তিশালী।
বাস্তব PII সনাক্তকরণ কাজে, SecPE Aug-PE এর তুলনায় মধ্যম উন্নতি, কিন্তু প্রতিযোগিতামূলক থাকে।
१. DP-Generator: DP-SGD ব্যবহার করে ভাষা মডেল প্রশিক্ষণ, গণনা-নিবিড় এবং বিশাল উচ্চ মানের ব্যক্তিগত ডেটা প্রয়োজন २. Private Evolution (PE): API অ্যাক্সেসের মাধ্যমে বেস মডেল, পুনরাবৃত্তিমূলক আপডেট র্যান্ডমভাবে উদ্যোগী নমুনা ३. এই পেপারের অবদান: একীভূত সুরক্ষা থেকে গোপনীয়তা-সচেতন সুরক্ষায় রূপান্তর
१. SecPE গোপনীয়তা-সচেতন সুরক্ষার মাধ্যমে উন্নত ব্যবহারযোগ্যতা-গোপনীয়তা বিনিময় অর্জন করে २. ক্লাস্টারিং পদ্ধতি গণনামূলক দক্ষতা উল্লেখযোগ্যভাবে উন্নত করে ३. একাধিক ডেটাসেটে GDP বেসলাইন পদ্ধতির তুলনায় ধারাবাহিকভাবে উন্নত ४. শক্তিশালী LLM উচ্চতর মানের সিন্থেটিক পাঠ্য উৎপাদন করতে পারে
१. ক্লাস্টারিং বিমূর্তকরণ ক্ষতি: ক্লাস্টারিং সূক্ষ্ম-দানা বিবরণ বিমূর্ত করে, অ-ব্যক্তিগত পরিস্থিতিতে সামান্য ব্যবহারযোগ্যতা ক্ষতি হতে পারে २. গোপনীয়তা সংজ্ঞা চ্যালেঞ্জ: কীভাবে গোপনীয়তা আনুষ্ঠানিকভাবে সংজ্ঞায়িত করতে এবং এর সংবেদনশীলতা পরিমাপ করতে হয় তা এখনও একটি উন্মুক্ত প্রশ্ন ३. প্রযোজ্য পরিসীমা: পদ্ধতি অনুমান করে যে সংবেদনশীল তথ্য বিরল এবং পুনরাবৃত্ত, সমস্ত পরিস্থিতিতে প্রযোজ্য নাও হতে পারে
१. বৈষম্যমূলক, গোপনীয়তা-নির্দিষ্ট বাজেট এবং অভিযোজিত পূর্ব অন্বেষণ করুন २. চিত্র ডোমেনে প্রসারিত করুন এবং গোপনীয়তা-সুরক্ষিত জেনারেটর তদন্ত করুন ३. ব্যক্তিগত ডেটা ব্যবহার আরও মানক করুন
१. তাত্ত্বিক উদ্ভাবন: (p,r)-গোপনীয়তা-সুরক্ষা ধারণা উদ্ভাবনী, গোপনীয়তা সুরক্ষার জন্য নতুন দৃষ্টিভঙ্গি প্রদান করে २. ব্যবহারিক মূল্য: উল্লেখযোগ্য গণনামূলক ত্বরণ পদ্ধতিকে আরও ব্যবহারিক প্রয়োগ মূল্য করে তোলে ३. পরীক্ষা সম্পূর্ণ: একাধিক ডেটাসেট, একাধিক মেট্রিক্সের ব্যাপক মূল্যায়ন ४. প্রযুক্তি দৃঢ়: কঠোর তাত্ত্বিক বিশ্লেষণ এবং প্রমাণ
१. গোপনীয়তা সনাক্তকরণ: পেপার ব্যবহারিকভাবে "গোপনীয়তা" কীভাবে সনাক্ত এবং সংজ্ঞায়িত করতে হয় তা যথেষ্টভাবে আলোচনা করে না २. বেসলাইন সীমাবদ্ধতা: প্রধানত একটি বেসলাইন পদ্ধতির সাথে তুলনা, অন্যান্য DP পাঠ্য প্রজন্ম পদ্ধতির সাথে তুলনা অভাব ३. সাধারণীকরণ: PII কাজে সীমিত উন্নতি, পদ্ধতির সাধারণীকরণ ক্ষমতা আরও যাচাইকরণ প্রয়োজন
१. একাডেমিক অবদান: গোপনীয়তা-সুরক্ষিত সিন্থেটিক ডেটা প্রজন্মের জন্য নতুন তাত্ত্বিক কাঠামো প্রদান করে २. ব্যবহারিক মূল্য: গণনামূলক দক্ষতার উল্লেখযোগ্য উন্নতি পদ্ধতিকে বৃহৎ-স্কেল প্রয়োগের জন্য আরও উপযুক্ত করে তোলে ३. পুনরুৎপাদনযোগ্যতা: বিস্তারিত বাস্তবায়ন বিবরণ এবং হাইপারপ্যারামিটার সেটিং প্রদান করে
१. সংবেদনশীল তথ্য বিরল এবং প্রকার পরিচিত পাঠ্য ডেটা २. বৃহৎ-স্কেল গোপনীয়তা-সুরক্ষিত পাঠ্য প্রজন্মের প্রয়োজন অ্যাপ্লিকেশন ३. গণনামূলক দক্ষতার প্রতি উচ্চ প্রয়োজনীয়তা সহ পরিস্থিতি ४. "গোপনীয়তা" স্পষ্টভাবে সংজ্ঞায়িত করা যায় এমন ডোমেন অ্যাপ্লিকেশন
পেপারটি গোপনীয়তা সুরক্ষা, পার্থক্যমূলক গোপনীয়তা, পাঠ্য প্রজন্ম এবং অন্যান্য ক্ষেত্রের গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে: