Disclosing private information via publication of a machine learning model is often a concern. Intuitively, publishing a learned model should be less risky than publishing a dataset. But how much risk is there? In this paper, we present a principled disclosure metric called \emph{gradient uniqueness} that is derived from an upper bound on the amount of information disclosure from publishing a learned model. Gradient uniqueness provides an intuitive way to perform privacy auditing. The mathematical derivation of gradient uniqueness is general, and does not make any assumption on the model architecture, dataset type, or the strategy of an attacker. We examine a simple defense based on monitoring gradient uniqueness, and find that it achieves privacy comparable to classical methods such as DP-SGD, while being substantially better in terms of (utility) testing accuracy.
- পেপার আইডি: 2510.10902
- শিরোনাম: Quantifying Information Disclosure During Gradient Descent Using Gradient Uniqueness
- লেখক: Mahmoud Abdelghafar (Rice University), Maryam Aliakbarpour (Rice University), Chris Jermaine (Rice University)
- শ্রেণীবিভাগ: cs.LG stat.ML
- প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর
- পেপার লিংক: https://arxiv.org/abs/2510.10902v1
মেশিন লার্নিং মডেল প্রকাশ করা ব্যক্তিগত তথ্য ফাঁস করতে পারে, যা একটি গুরুত্বপূর্ণ গোপনীয়তা সমস্যা। স্বজ্ঞাগতভাবে, প্রশিক্ষিত মডেল প্রকাশ করা সরাসরি ডেটাসেট প্রকাশের চেয়ে কম ঝুঁকিপূর্ণ হওয়া উচিত, কিন্তু প্রকৃত ঝুঁকি কতটা বড়? এই পেপারটি একটি নীতিভিত্তিক প্রকাশ পরিমাপ পদ্ধতি প্রস্তাব করে—গ্রেডিয়েন্ট অনন্যতা (Gradient Uniqueness, GNQ), যা শেখার মডেল প্রকাশের সময় তথ্য প্রকাশের পরিমাণের উপরের সীমার গাণিতিক উদ্ভবন থেকে উদ্ভূত। গ্রেডিয়েন্ট অনন্যতা গোপনীয়তা নিরীক্ষার জন্য একটি স্বজ্ঞাত পদ্ধতি প্রদান করে, যার গাণিতিক উদ্ভবন সর্বজনীন, মডেল আর্কিটেকচার, ডেটাসেট প্রকার বা আক্রমণকারীর কৌশলের উপর কোনো অনুমান করে না। গবেষণা দেখায় যে GNQ পর্যবেক্ষণের উপর ভিত্তি করে সহজ প্রতিরক্ষা পদ্ধতি DP-SGD এর মতো ক্লাসিক পদ্ধতির সাথে গোপনীয়তা সুরক্ষায় সমতুল্য, একই সাথে পরীক্ষার নির্ভুলতায় উন্নত কর্মক্ষমতা প্রদর্শন করে।
এই গবেষণা যে মূল সমস্যা সমাধান করতে চায় তা হল: মেশিন লার্নিং মডেল প্রকাশ প্রক্রিয়ায় গোপনীয়তা ফাঁসের ঝুঁকি কীভাবে পরিমাপ করা যায়। নির্দিষ্টভাবে, যখন র্যান্ডম গ্রেডিয়েন্ট ডিসেন্ট (SGD) ব্যবহার করে মডেল প্রশিক্ষণ করা হয় এবং চূড়ান্ত মডেল পরামিতি প্রকাশ করা হয়, তখন আক্রমণকারী প্রশিক্ষণ ডেটা সম্পর্কে কতটা তথ্য অনুমান করতে পারে?
- ব্যবহারিক চাহিদা জরুরি: আধুনিক AI সিস্টেম (যেমন বড় ভাষা মডেল) এর প্রশিক্ষণ খরচ অত্যন্ত বেশি, সংস্থাগুলি গোপনীয়তা সুরক্ষার জন্য প্রশিক্ষণ অ্যালগরিদম উল্লেখযোগ্যভাবে পরিবর্তন করতে অনিচ্ছুক
- বিদ্যমান পদ্ধতির সীমাবদ্ধতা: ডিফারেনশিয়াল প্রাইভেসি (DP-SGD) তাত্ত্বিক গ্যারান্টি প্রদান করে, কিন্তু মডেল কর্মক্ষমতায় গুরুতর ক্ষতি করে
- পরিমাপের অভাব: বিদ্যমান পদ্ধতি প্রধানত আক্রমণ পরীক্ষার উপর ভিত্তি করে, তাত্ত্বিক সমর্থিত গোপনীয়তা ঝুঁকি পরিমাপ সূচকের অভাব রয়েছে
- ডিফারেনশিয়াল প্রাইভেসি পদ্ধতি অত্যন্ত রক্ষণশীল: DP-SGD প্রতিটি গ্রেডিয়েন্টে শব্দ যোগ করা এবং ক্লিপিং প্রয়োজন, যার ফলে মডেল কর্মক্ষমতা গুরুতরভাবে হ্রাস পায়
- আক্রমণ-ভিত্তিক নিরীক্ষা পদ্ধতি: নির্দিষ্ট আক্রমণ কৌশলের উপর নির্ভর করে, সর্বজনীনতা এবং তাত্ত্বিক ভিত্তির অভাব রয়েছে
- সর্বোচ্চ ক্ষেত্রে অনুমান: বিদ্যমান তাত্ত্বিক বিশ্লেষণ প্রায়শই সর্বোচ্চ ক্ষেত্রের উপর ভিত্তি করে, বাস্তব প্রয়োগে অত্যন্ত হতাশাব্যঞ্জক
এই পেপারের মূল ধারণা হল: যেহেতু SGD নিজেই র্যান্ডম, এই অন্তর্নিহিত গোপনীয়তা সুরক্ষা বৈশিষ্ট্য ব্যবহার করে ঝুঁকি পরিমাপ করা যায় কি, প্রশিক্ষণ অ্যালগরিদম সংশোধন না করে? এই পদ্ধতি বাস্তব প্রয়োগের চাহিদার সাথে আরও ভালভাবে সামঞ্জস্যপূর্ণ।
- গ্রেডিয়েন্ট অনন্যতা (GNQ) সূচক প্রস্তাব: তথ্য তত্ত্ব থেকে উদ্ভূত গোপনীয়তা ঝুঁকি পরিমাপ পদ্ধতি, তথ্য ফাঁসের উপরের সীমার সাথে একঘেয়ে সম্পর্কিত
- তাত্ত্বিক সর্বজনীনতা: গাণিতিক উদ্ভবন মডেল আর্কিটেকচার, ডেটাসেট প্রকার বা আক্রমণকারীর কৌশলের উপর নির্ভর করে না, ব্যাপক প্রযোজ্যতা রয়েছে
- অভিজ্ঞতামূলক যাচাইকরণ: প্রমাণ করে যে GNQ বিভিন্ন আক্রমণের সাফল্যের হার কার্যকরভাবে পূর্বাভাস এবং ব্যাখ্যা করতে পারে
- সহজ এবং কার্যকর প্রতিরক্ষা পদ্ধতি: GNQ র্যাঙ্কিং এর উপর ভিত্তি করে উচ্চ-ঝুঁকি ডেটা পয়েন্ট অপসারণ, মডেল কার্যকারিতা বজায় রেখে গোপনীয়তা সুরক্ষা প্রদান করে
প্রকাশ্য ডেটাসেট D={dj}j=1N দেওয়া, যেখান থেকে প্রতিস্থাপন ছাড়াই সমানভাবে নমুনা নেওয়া হয় ব্যক্তিগত প্রশিক্ষণ সেট Dt পেতে। র্যান্ডম গ্রেডিয়েন্ট ডিসেন্ট ব্যবহার করে পরামিতিযুক্ত মডেল hθ প্রশিক্ষণ করুন, আক্রমণকারী চূড়ান্ত মডেল পরামিতি θNr পর্যবেক্ষণ করে, লক্ষ্য হল কোনো ডেটা পয়েন্ট dj প্রশিক্ষণ সেট Dt এ আছে কিনা তা অনুমান করা।
সংজ্ঞা 1 (গ্রেডিয়েন্ট অনন্যতা): প্রশিক্ষণ ব্যাচ i এর জন্য, ডেটা পয়েন্ট dj এর ব্যাচ i এর সাপেক্ষে গ্রেডিয়েন্ট অনন্যতা সংজ্ঞায়িত করা হয়:
GNQij=gijTS+gij
যেখানে:
- S=∑k=1,k=jNgikgikT∈RNp×Np
- S+ Moore-Penrose সিউডো-ইনভার্স নির্দেশ করে
- gij=∇θ[ℓ[θi,dj]]∈RNp হল ডেটা পয়েন্ট dj এ ক্ষতি ফাংশনের গ্রেডিয়েন্ট
উপপাদ্য (অনানুষ্ঠানিক সংস্করণ): যেকোনো আক্রমণকারী θNr পরীক্ষা করে dj∈Dt নির্ধারণ করতে যে তথ্য নিষ্কাশন করতে পারে (বিট এ) তা একটি ফাংশন দ্বারা সীমাবদ্ধ যা ∑i=1Nr−1GNQij এর সাথে একঘেয়ে বৃদ্ধি পায়।
GNQ এর গণনা জ্যামিতিকভাবে প্রতিনিধিত্ব করা যায়:
- সমস্ত গ্রেডিয়েন্টকে সংক্ষিপ্ত করে এমন একটি উপবৃত্ত তৈরি করুন
- GNQij ডেটা পয়েন্ট dj এর গ্রেডিয়েন্ট সেই উপবৃত্তের সাপেক্ষে কতটা অস্বাভাবিক তা পরিমাপ করে
- গ্রেডিয়েন্ট যত বেশি "অনন্য" (অন্যান্য গ্রেডিয়েন্টের দিক থেকে বিচ্যুত), GNQ মান যত বেশি, গোপনীয়তা ঝুঁকি যত বেশি
- তথ্য তত্ত্ব ভিত্তি: পারস্পরিক তথ্য তত্ত্বের উপর ভিত্তি করে, GNQ এবং তথ্য ফাঁসের উপরের সীমার মধ্যে গাণিতিক সংযোগ স্থাপন করে
- আক্রমণ স্বাধীনতা: নির্দিষ্ট আক্রমণ পদ্ধতির উপর নির্ভর করে না, সর্বজনীন গোপনীয়তা ঝুঁকি মূল্যায়ন প্রদান করে
- জ্যামিতিক ব্যাখ্যা: গ্রেডিয়েন্ট স্থানের জ্যামিতিক বিশ্লেষণের মাধ্যমে, ঝুঁকির স্বজ্ঞাত বোঝা প্রদান করে
- গণনা দক্ষতা: তির্যক অনুমান ইত্যাদি কৌশল প্রস্তাব করে, পদ্ধতিকে বড় আকারের মডেলের জন্য উপযুক্ত করে
- MNIST: হাতে লেখা সংখ্যা স্বীকৃতি
- CIFAR-10/100: প্রাকৃতিক চিত্র শ্রেণীবিভাগ
- AT&T Database of Faces: মুখ স্বীকৃতি
- Tiny ImageNet: বড় আকারের চিত্র শ্রেণীবিভাগ
- IMDB: অনুভূতি বিশ্লেষণ
- MLP: বহু-স্তরীয় পার্সেপ্ট্রন
- CNN: কনভোলিউশনাল নিউরাল নেটওয়ার্ক
- ResNet: অবশিষ্ট নেটওয়ার্ক (কম্পিউটার দৃষ্টি)
- BERT: Transformer-ভিত্তিক পাঠ্য শ্রেণীবিভাগকারী
- গোপনীয়তা সুরক্ষা: সদস্যপদ অনুমান আক্রমণ (MIA) এর AUC ROC মান
- মডেল কার্যকারিতা: পরীক্ষা সেটের নির্ভুলতা
- পুনর্নির্মাণ আক্রমণ: মডেল বিপরীত আক্রমণের পুনর্নির্মাণ গুণমান
- Baseline: কোনো গোপনীয়তা সুরক্ষা ছাড়াই মান প্রশিক্ষণ
- DP-SGD: ডিফারেনশিয়াল প্রাইভেসি র্যান্ডম গ্রেডিয়েন্ট ডিসেন্ট (ϵ∈{2,8,512})
- GNQ-based: গ্রেডিয়েন্ট অনন্যতার উপর ভিত্তি করে প্রতিরক্ষা পদ্ধতি
টেবিল 1 GNQ ফিল্টারিং পদ্ধতি এবং DP-SGD এর তুলনা ফলাফল প্রদর্শন করে:
| ডেটাসেট | মডেল | সেটিং | AUC ROC | পরীক্ষা নির্ভুলতা |
|---|
| CIFAR10 | ResNet | Baseline | 0.7294 | 80.80% |
| | শীর্ষ-10% GNQ অপসারণ | 0.5122 | 71.33% |
| | DP-SGD (ε=2) | 0.5008 | 41.83% |
| CIFAR100 | ResNet | Baseline | 0.8752 | 49.58% |
| | শীর্ষ-20% GNQ অপসারণ | 0.5137 | 34.92% |
| | DP-SGD (ε=2) | 0.5015 | 6.83% |
মূল আবিষ্কার:
- GNQ পদ্ধতি MIA আক্রমণের সাফল্যের হার র্যান্ডম অনুমানের স্তরে (AUC ≈ 0.5) হ্রাস করতে পারে
- একই গোপনীয়তা সুরক্ষা স্তরে, GNQ পদ্ধতির মডেল নির্ভুলতা DP-SGD এর চেয়ে উল্লেখযোগ্যভাবে বেশি
- CIFAR100 এর জন্য, DP-SGD এর নির্ভুলতা মাত্র 6.83%, যখন GNQ পদ্ধতি 34.92% এ পৌঁছায়
চিত্র 5 বিভিন্ন ডেটাসেটে GNQ এবং MIA আক্রমণ সাফল্যের হারের সম্পর্ক দেখায়:
- সমস্ত মডেল এবং ডেটাসেটে, আক্রমণের সাফল্যের হার GNQ মানের সাথে বৃদ্ধি পায়
- উচ্চ GNQ মানের নমুনা ঠিক সেই নমুনা যেখানে আক্রমণ আরও সফল হওয়ার সম্ভাবনা বেশি
- GNQ কে গোপনীয়তা ঝুঁকি সূচক হিসাবে কার্যকারিতা প্রমাণ করে
AT&T মুখ ডেটাবেসে পরীক্ষা দেখায়:
- একক সর্বোচ্চ GNQ স্কোর নমুনা অপসারণের পরে, মডেল বিপরীত আক্রমণের পুনর্নির্মাণ গুণমান উল্লেখযোগ্যভাবে হ্রাস পায়
- যাচাইকরণ নির্ভুলতা মাত্র 95.31% থেকে 94.15% এ হ্রাস পায়, কিন্তু গোপনীয়তা সুরক্ষা প্রভাব স্পষ্ট
চিত্র 7 বিভিন্ন প্রশিক্ষণ পরামিতি এবং GNQ এবং আক্রমণ সাফল্যের হারের সম্পর্ক দেখায়:
- প্রশিক্ষণ পুনরাবৃত্তি: আরও পুনরাবৃত্তি উচ্চতর গোপনীয়তা ঝুঁকির দিকে পরিচালিত করে
- ডেটাসেট আকার: ছোট ডেটাসেট উচ্চতর ঝুঁকি
- মডেল আকার: বৃহত্তর মডেল সাধারণত উচ্চতর ঝুঁকি
- ব্যাচ আকার: ছোট ব্যাচ ঝুঁকি বৃদ্ধি করে
- শেখার হার: উচ্চতর শেখার হার ঝুঁকি বৃদ্ধি করতে পারে
- ছায়া মডেল MIA: মডেলের পরবর্তী সম্ভাবনা আক্রমণ বৈশিষ্ট্য হিসাবে ব্যবহার করে
- হোয়াইট-বক্স MIA: গ্রেডিয়েন্ট, সক্রিয়করণ মান ইত্যাদি অভ্যন্তরীণ তথ্য ব্যবহার করে
- ক্ষতি-ভিত্তিক MIA: প্রার্থী পয়েন্টে মডেলের ক্ষতি সদস্যপদ সূচক হিসাবে ব্যবহার করে
- গ্রেডিয়েন্ট বিপরীত আক্রমণ: লক্ষ্য পুনর্নির্মাণ অপ্টিমাইজ করে প্রশিক্ষণ ডেটা পুনরুদ্ধার করে
বিদ্যমান পদ্ধতি প্রধানত DP বাস্তবায়ন দাবিকৃত গোপনীয়তা স্তর অর্জন করে কিনা তা যাচাই করে, যখন GNQ যেকোনো প্রশিক্ষিত মডেলের গোপনীয়তা ঝুঁকি পরিমাপ করে।
GNQ প্রশিক্ষণ সময়ে ঝুঁকি-সচেতন বিস্মৃতি গাইড করতে পারে এবং ঝুঁকি পরিবর্তন নিরীক্ষার জন্য অন্তর্নির্মিত সূচক হিসাবে কাজ করতে পারে।
- GNQ তাত্ত্বিক সমর্থিত গোপনীয়তা ঝুঁকি পরিমাপ পদ্ধতি প্রদান করে, নির্দিষ্ট আক্রমণ কৌশলের উপর নির্ভর করে না
- সহজ GNQ প্রতিরক্ষা পদ্ধতি গোপনীয়তা-কার্যকারিতা ট্রেড-অফে DP-SGD এর চেয়ে উন্নত
- GNQ বিভিন্ন গোপনীয়তা আক্রমণের সাফল্যের প্যাটার্ন ব্যাখ্যা এবং পূর্বাভাস করতে পারে
- শক্তিশালী তাত্ত্বিক অনুমান: গ্রেডিয়েন্ট গাউসিয়ান বিতরণ অনুমান এবং গ্রেডিয়েন্ট রৈখিক সম্পর্ক অনুমানের উপর নির্ভর করে
- স্কেলেবিলিটি সমস্যা: বড় আকারের মডেলের জন্য অনুমান পদ্ধতির প্রয়োজন (যেমন তির্যকীকরণ)
- সহজ প্রতিরক্ষা কৌশল: শুধুমাত্র ডেটা পয়েন্ট অপসারণ এই এক প্রতিরক্ষা কৌশল বিবেচনা করে
- দীর্ঘমেয়াদী গোপনীয়তা গ্যারান্টি: গতিশীল পরিবেশে গোপনীয়তা সুরক্ষার ধারাবাহিকতার বিশ্লেষণের অভাব রয়েছে
- আরও সূক্ষ্ম প্রতিরক্ষা কৌশল: ডেটা পয়েন্ট সম্পূর্ণভাবে অপসারণ না করে, বরং উচ্চ-ঝুঁকি পয়েন্টের গ্রেডিয়েন্টে অল্প পরিমাণ শব্দ যোগ করা
- মেশিন বিস্মৃতি প্রয়োগ: GNQ উদীয়মান মেশিন বিস্মৃতি ক্ষেত্রে সেবা করতে পারে
- বড় আকারের মডেল অপ্টিমাইজেশন: GNQ গণনার জন্য আরও দক্ষ পদ্ধতি বিকাশ করা
- শক্তিশালী তাত্ত্বিক উদ্ভাবনী: প্রথমবারের মতো তথ্য তত্ত্ব দৃষ্টিকোণ থেকে গ্রেডিয়েন্ট জ্যামিতি এবং গোপনীয়তা ফাঁসের মধ্যে পরিমাণগত সম্পর্ক স্থাপন করে
- উচ্চ ব্যবহারিক মূল্য: প্রশিক্ষণ অ্যালগরিদম সংশোধন করার প্রয়োজন ছাড়াই গোপনীয়তা মূল্যায়ন পদ্ধতি প্রদান করে, বাস্তব প্রয়োগের চাহিদার সাথে সামঞ্জস্যপূর্ণ
- ভাল সর্বজনীনতা: পদ্ধতি নির্দিষ্ট মডেল আর্কিটেকচার বা আক্রমণ কৌশলের উপর নির্ভর করে না
- পর্যাপ্ত পরীক্ষা: একাধিক ডেটাসেট এবং মডেলে পদ্ধতির কার্যকারিতা যাচাই করে
- শক্তিশালী তাত্ত্বিক অনুমান: গ্রেডিয়েন্ট গাউসিয়ান বিতরণ অনুমান বাস্তবে সত্য নাও হতে পারে
- স্কেলেবিলিটি সমস্যা: অতি-বড় আকারের মডেলের জন্য, এমনকি অনুমান পদ্ধতি ব্যবহার করেও, গণনা ওভারহেড এখনও উল্লেখযোগ্য
- একক প্রতিরক্ষা কৌশল: শুধুমাত্র ডেটা অপসারণ প্রতিরক্ষা পদ্ধতি অন্বেষণ করে
- দীর্ঘমেয়াদী গোপনীয়তা নিশ্চয়তা: গতিশীল পরিবেশে গোপনীয়তা সুরক্ষার ধারাবাহিকতার বিশ্লেষণের অভাব
- তাত্ত্বিক অবদান: গোপনীয়তা সুরক্ষা মেশিন লার্নিংয়ের জন্য নতুন তাত্ত্বিক সরঞ্জাম প্রদান করে
- ব্যবহারিক নির্দেশনা: বাস্তব ML সিস্টেম স্থাপনার জন্য গোপনীয়তা ঝুঁকি মূল্যায়ন পদ্ধতি প্রদান করে
- গবেষণা অনুপ্রেরণা: প্রশিক্ষণ গতিশীলতার উপর ভিত্তি করে গোপনীয়তা বিশ্লেষণের নতুন দিক খুলে দেয়
- এন্টারপ্রাইজ ML সিস্টেম: প্রশিক্ষণ প্রবাহ উল্লেখযোগ্যভাবে পরিবর্তন না করে গোপনীয়তা ঝুঁকি মূল্যায়ন করার প্রয়োজন
- ওপেন-সোর্স মডেল প্রকাশ: মডেল প্রকাশের আগে গোপনীয়তা ফাঁস ঝুঁকি মূল্যায়ন এবং হ্রাস করা
- নিয়ন্ত্রক সম্মতি: গোপনীয়তা নিয়মকানুন মেনে চলার জন্য পরিমাণগত সরঞ্জাম প্রদান করা
- গবেষণা সরঞ্জাম: গোপনীয়তা সুরক্ষা মেশিন লার্নিং গবেষণার জন্য নতুন বিশ্লেষণ পদ্ধতি প্রদান করা
সামগ্রিক মূল্যায়ন: এটি গোপনীয়তা সুরক্ষা মেশিন লার্নিং ক্ষেত্রে গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক মূল্যের একটি কাজ। পেপারটি প্রস্তাবিত গ্রেডিয়েন্ট অনন্যতা ধারণা বিদ্যমান পদ্ধতির একটি গুরুত্বপূর্ণ ফাঁক পূরণ করে, বাস্তব প্রয়োগের জন্য আরও ব্যবহারিক গোপনীয়তা ঝুঁকি মূল্যায়ন সরঞ্জাম প্রদান করে। যদিও তাত্ত্বিক অনুমান এবং গণনা জটিলতার ক্ষেত্রে নির্দিষ্ট সীমাবদ্ধতা রয়েছে, তবে এর উদ্ভাবনী এবং ব্যবহারিক মূল্য এটিকে এই ক্ষেত্রের একটি গুরুত্বপূর্ণ অবদান করে তোলে।