2025-11-21T11:01:15.942804

High-Power Training Data Identification with Provable Statistical Guarantees

Liu, Zeng, Huang et al.
Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
academic

উচ্চ-শক্তিশালী প্রশিক্ষণ ডেটা সনাক্তকরণ প্রমাণযোগ্য পরিসংখ্যানগত গ্যারান্টি সহ

মৌলিক তথ্য

  • পেপার আইডি: 2510.09717
  • শিরোনাম: High-Power Training Data Identification with Provable Statistical Guarantees
  • লেখক: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
  • শ্রেণীবিভাগ: cs.LG cs.AI
  • প্রকাশনার সময়/সম্মেলন: প্রি-প্রিন্ট (২০২৫ সালের অক্টোবর)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.09717

সারসংক্ষেপ

বৃহৎ আকারের মডেলে প্রশিক্ষণ ডেটা সনাক্তকরণ কপিরাইট মামলা, গোপনীয়তা অডিট এবং ন্যায্য মূল্যায়ন নিশ্চিত করার জন্য অত্যন্ত গুরুত্বপূর্ণ। প্রথাগত পদ্ধতিগুলি এটিকে একটি সাধারণ দ্বিমুখী শ্রেণীবিভাগ কাজ হিসাবে বিবেচনা করে, যা পরিসংখ্যানগত গ্যারান্টির অভাব রয়েছে। সাম্প্রতিক পদ্ধতিগুলি যদিও ত্রুটি আবিষ্কার হার (FDR) নিয়ন্ত্রণের প্রক্রিয়া ডিজাইন করেছে, তবে এর গ্যারান্টি সহজেই লঙ্ঘনযোগ্য শক্তিশালী অনুমানের উপর নির্ভর করে। এই পেপারটি প্রমাণযোগ্য প্রশিক্ষণ ডেটা সনাক্তকরণ (PTDI) পদ্ধতি প্রস্তাব করে, যা ত্রুটি আবিষ্কার হার কঠোরভাবে নিয়ন্ত্রণ করে। এই পদ্ধতিটি পরিচিত অদেখা ডেটাসেট ব্যবহার করে প্রতিটি ডেটা পয়েন্টের জন্য p-মান গণনা করে, তারপর পরীক্ষা সেট ডেটা ব্যবহারের অনুপাতের একটি রক্ষণশীল অনুমানকারী তৈরি করে এই p-মানগুলি স্কেল করতে। অবশেষে, স্কেল করা p-মান ডেটা-নির্ভর থ্রেশহোল্ডের নিচে থাকা সমস্ত পয়েন্ট সনাক্ত করে চূড়ান্ত প্রশিক্ষণ ডেটা সেট নির্বাচন করা হয়। সম্পূর্ণ প্রক্রিয়া প্রমাণযোগ্য কঠোর FDR নিয়ন্ত্রণ অর্জন করে এবং পরিসংখ্যানগত শক্তি উল্লেখযোগ্যভাবে বৃদ্ধি করে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার গুরুত্ব

মেশিন লার্নিং মডেলের ব্যাপক স্থাপনার সাথে, প্রশিক্ষণ ডেটা সনাক্তকরণ অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে, যা প্রধানত নিম্নলিখিত ক্ষেত্রে প্রতিফলিত হয়:

  1. কপিরাইট বিরোধ: Strike 3 বনাম Meta মামলার মতো, যা ২,৩৯৬টি কপিরাইট চলচ্চিত্র জড়িত, সম্ভাব্য আইনি ক্ষতিপূরণ ৩.৫ বিলিয়ন ডলার অতিক্রম করে
  2. ডেটা গোপনীয়তা: GDPR, CCPA এবং অন্যান্য গোপনীয়তা নিয়মের সাথে সম্মতি
  3. ডেটা দূষণ: মূল্যায়ন মানদণ্ডের ন্যায্যতা নিশ্চিত করা, প্রশিক্ষণ ডেটা ফাঁস প্রতিরোধ করা

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

  1. প্রথাগত পদ্ধতি: প্রশিক্ষণ ডেটা সনাক্তকরণকে একটি সাধারণ দ্বিমুখী শ্রেণীবিভাগ কাজ হিসাবে বিবেচনা করে, তাত্ত্বিক গ্যারান্টির অভাব রয়েছে
  2. সাম্প্রতিক পদ্ধতি: Hu এবং অন্যান্যদের (২০২৫) দ্বারা প্রস্তাবিত knockoff পরিসংখ্যান পদ্ধতি যদিও FDR নিয়ন্ত্রণ করে, তবে নিম্নলিখিত সমস্যা রয়েছে:
    • মডেল গ্রেডিয়েন্টে অ্যাক্সেসের প্রয়োজন, ব্ল্যাক-বক্স সেটিংয়ে উপলব্ধ নয়
    • কার্যকর knockoff নির্মাণ কঠিন, সমান বিতরণ অনুমান সহজেই লঙ্ঘিত হয়
    • অবৈধ FDR নিয়ন্ত্রণের দিকে পরিচালিত করতে পারে

গবেষণা প্রেরণা

এই পেপারটি একটি বিতরণ-স্বাধীন পদ্ধতি ডিজাইন করার লক্ষ্য রাখে যা সাদা-বক্স এবং কালো-বক্স উভয় সেটিংয়ে কঠোর FDR নিয়ন্ত্রণ প্রদান করে, একই সাথে উচ্চতর পরিসংখ্যানগত শক্তি সহ।

মূল অবদান

  1. PTDI পদ্ধতি প্রস্তাব: একটি নতুন এবং সর্বজনীন পদ্ধতি যা বিতরণ-স্বাধীন সীমিত নমুনা FDR নিয়ন্ত্রণ অর্জন করে, বিদ্যমান সনাক্তকরণ পদ্ধতির সাথে একত্রিত হতে পারে
  2. তাত্ত্বিক গ্যারান্টি: কঠোর তাত্ত্বিক প্রমাণ (উপপাদ্য ১) প্রদান করে, PTDI ত্রুটি আবিষ্কার হার কঠোরভাবে নিয়ন্ত্রণ করে তা নিশ্চিত করে
  3. ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক মডেল (LLM এবং VLM), কাজ (প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর) এবং ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করে
  4. ব্যবহারিকতা: পদ্ধতি মডেল-অজ্ঞেয়বাদী, কালো-বক্স এবং সাদা-বক্স সেটিংয়ে প্রযোজ্য, শুধুমাত্র অদেখা ডেটা ক্যালিব্রেশন সেট হিসাবে প্রয়োজন

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

লক্ষ্য মডেল θ, ক্যালিব্রেশন সেট D_cal (আকার n) এবং পরীক্ষা সেট D_test = {X_{n+j}}^m_ দেওয়া, লক্ষ্য হল সূচক উপসেট S ⊆ {1,...,m} নির্বাচন করা যাতে ত্রুটি আবিষ্কার হার ব্যবহারকারী-নির্দিষ্ট স্তর α ∈ (0,1) এ নিয়ন্ত্রিত হয়:

FDR=E[j=1m1{Mn+j=0,jS}max(S,1)]α\text{FDR} = E\left[\frac{\sum_{j=1}^m \mathbf{1}\{M_{n+j} = 0, j \in S\}}{\max(|S|, 1)}\right] \leq \alpha

মূল অ্যালগরিদম: PTDI

ধাপ ১: Conformal p-মান নির্মাণ

প্রতিটি পরীক্ষা পয়েন্টের জন্য p-মান গণনা করুন: pj=1+i=1n1{TiTn+j}n+1p_j = \frac{1 + \sum_{i=1}^n \mathbf{1}\{T_i \leq T_{n+j}\}}{n+1}

যেখানে T(X;θ) হল সনাক্তকরণ স্কোর (যেমন বিভ্রান্তি), কম স্কোর প্রশিক্ষণ সদস্য হওয়ার সম্ভাবনা বেশি নির্দেশ করে।

ধাপ ২: ডেটা ব্যবহার অনুপাত অনুমান

বিয়োগ অনুমানকারী π̂_sub ব্যবহার করে পরীক্ষা সেটে প্রশিক্ষণ ডেটার অনুপাত π_test অনুমান করুন: π^sub=11m+1(1+j=1m1{T(Xn+j)R})1ni=1n1{T(Xi)R}\hat{\pi}_{sub} = 1 - \frac{\frac{1}{m+1}(1 + \sum_{j=1}^m \mathbf{1}\{T(X_{n+j}) \in R\})}{\frac{1}{n}\sum_{i=1}^n \mathbf{1}\{T(X_i) \in R\}}

যেখানে R = (τ,+∞) হল পরিমাণ থ্রেশহোল্ড η দ্বারা নির্মিত একটি বিরল সদস্য অঞ্চল।

ধাপ ৩: p-মান স্কেলিং

স্কেল করা p-মান গণনা করুন: p~j=(1π^test)pj\tilde{p}_j = (1-\hat{\pi}_{test})p_j

ধাপ ৪: Benjamini-Hochberg পদ্ধতি

চূড়ান্ত সেট নির্বাচন করতে BH পদ্ধতি প্রয়োগ করুন: S={jp~jkmα}S = \{j | \tilde{p}_j \leq \frac{k^*}{m}\alpha\} যেখানে k=max{kp~(k)kmα}k^* = \max\{k | \tilde{p}_{(k)} \leq \frac{k}{m}\alpha\}

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. রক্ষণশীল অনুমানকারী ডিজাইন: বিয়োগ অনুমানকারী নিশ্চিত করে E(1-π_test)/(1-π̂_sub) ≤ 1, FDR নিয়ন্ত্রণ বজায় রাখে
  2. p-মান স্কেলিং কৌশল: মান BH পদ্ধতির রক্ষণশীলতা অতিক্রম করতে p-মান স্কেলিং করে, পরিসংখ্যানগত শক্তি উল্লেখযোগ্যভাবে বৃদ্ধি করে
  3. বিতরণ-স্বাধীন গ্যারান্টি: নির্দিষ্ট বিতরণ অনুমানের উপর নির্ভর করে না, ব্যাপক প্রযোজ্যতা রয়েছে

পরীক্ষামূলক সেটআপ

ডেটাসেট

  • LLM প্রাক-প্রশিক্ষণ: WikiMIA, ArxivTection
  • LLM সূক্ষ্ম-সুর: XSum, BBC Real Time
  • দৃষ্টি-ভাষা মডেল: VL-MIA/Flickr, VL-MIA/DALL-E

মডেল

  • LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B এবং 6.9B)
  • VLM: LLaVA-1.5, MiniGPT-4

সনাক্তকরণ স্কোর

  • LLM: বিভ্রান্তি (Perplexity), Zlib সংকোচন অনুপাত, MIN-K%, সংশোধিত এন্ট্রপি (M-Entropy)
  • VLM: MaxRényi-K%

মূল্যায়ন মেট্রিক্স

  • FDR: ত্রুটি আবিষ্কার হারের অভিজ্ঞতামূলক অনুমান
  • Power: পরিসংখ্যানগত শক্তি, সত্যিকারের সদস্য সঠিকভাবে সনাক্ত করার অনুপাত

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

FDR নিয়ন্ত্রণ কার্যকারিতা

সমস্ত পরীক্ষামূলক সেটিংয়ে, PTDI পদ্ধতি লক্ষ্য স্তরের নিচে FDR কঠোরভাবে নিয়ন্ত্রণ করে:

  • WikiMIA-তে Pythia-1.4B, লক্ষ্য FDR=5%: PTDI ৪.৯৪% অর্জন করে বনাম KTD এর ১৩.১১%
  • সমস্ত মডেল এবং ডেটাসেট সমন্বয় প্রকৃত FDR লক্ষ্য স্তরের নিচে প্রদর্শন করে

পরিসংখ্যানগত শক্তি বৃদ্ধি

p-মান স্কেলিং উল্লেখযোগ্যভাবে পরিসংখ্যানগত শক্তি বৃদ্ধি করে:

  • WikiMIA-তে GPT-NeoX-20B, লক্ষ্য FDR=0.5, MIN-K% স্কোর: শক্তি ০.৪৪ থেকে ০.৭৫ এ বৃদ্ধি পায়
  • বিভিন্ন লক্ষ্য FDR স্তরে, স্কেলিং পদ্ধতি সর্বদা vanilla পদ্ধতির চেয়ে উত্তম

অপসারণ পরীক্ষা

ক্যালিব্রেশন সেট আকার প্রভাব

  • ক্যালিব্রেশন সেট আকার বৃদ্ধি (ρ = n/m ০.১ থেকে ১.০) FDP এবং শক্তির বৈচিত্র্য হ্রাস করে
  • সমস্ত ρ মান কার্যকরভাবে FDR নিয়ন্ত্রণ করে

হাইপারপ্যারামিটার η এর দৃঢ়তা

  • η ∈ {০.০১, ০.০৫, ০.१, ०.५} পরিসরে, পদ্ধতি দৃঢ়ভাবে FDR নিয়ন্ত্রণ করে
  • ডিফল্ট সেটিং η = ०.०५

π_test পরিবর্তনের দৃঢ়তা

  • বিভিন্ন ডেটা ব্যবহার অনুপাতে (π_test = ०.३, ०.५, ०.७) FDR নিয়ন্ত্রণ বজায় রাখে

KTD পদ্ধতির সাথে তুলনা

  • PTDI সমস্ত পরীক্ষা সেটিংয়ে কঠোরভাবে FDR নিয়ন্ত্রণ করে
  • KTD WikiMIA এবং XSum-এ কিছু α মানে নিয়ন্ত্রণ হারায়
  • FDR নিয়ন্ত্রণ কার্যকর হলে, PTDI GPT-2-তে উত্তম শক্তি রাখে

সমন্বিত মুহূর্ত অনুমানকারী

পক্ষপাত-সংশোধিত মুহূর্ত অনুমানকারী π̂_mom প্রস্তাব করা হয়েছে, যখন নিশ্চিত সদস্য ডেটা উপলব্ধ থাকে তখন আরও শক্তি বৃদ্ধি করে, FDR নিয়ন্ত্রণ বজায় রেখে।

সম্পর্কিত কাজ

বৃহৎ আকারের মডেলে প্রশিক্ষণ ডেটা সনাক্তকরণ

  • ডেটা দূষণ গবেষণা: মানদণ্ড ডেটা প্রশিক্ষণ সেটে ফাঁস প্রতিরোধ করা
  • হিউরিস্টিক সনাক্তকরণ স্কোর: বিভ্রান্তি, MIN-k% ইত্যাদি পদ্ধতি তাত্ত্বিক গ্যারান্টির অভাব রয়েছে
  • পরিসংখ্যানগত কঠোর পদ্ধতি: Dekoninck এবং অন্যান্য এবং Oren এবং অন্যান্যদের পদ্ধতি শুধুমাত্র ডেটাসেট-স্তরের অনুমানের জন্য প্রযোজ্য

সদস্যপদ অনুমান আক্রমণ

  • গোপনীয়তা দৃষ্টিকোণ: MIA নির্দিষ্ট ডেটা পয়েন্ট প্রশিক্ষণের জন্য ব্যবহৃত হয়েছে কিনা তা নির্ধারণ করার লক্ষ্য রাখে
  • দ্বিমুখী শ্রেণীবিভাগ পদ্ধতি: গড় শ্রেণীবিভাগ নির্ভুলতায় ফোকাস করে
  • অনুমান পরীক্ষার কাঠামো: Attack-P ইত্যাদি পদ্ধতি কম FPR-এ TPR অগ্রাধিকার দেয়

FDR নিয়ন্ত্রণ

  • Benjamini-Hochberg পদ্ধতি: মান FDR নিয়ন্ত্রণ সরঞ্জাম
  • Conformal p-মান: Jin & Candès এর পদ্ধতি শক্তিশালী i.i.d অনুমান প্রয়োজন
  • Knockoff পরিসংখ্যান: Hu এবং অন্যান্যদের পদ্ধতি উচ্চ-মানের knockoff উৎপাদন প্রয়োজন

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. PTDI পদ্ধতি কঠোর FDR নিয়ন্ত্রণ অর্জন করে, বিতরণ-স্বাধীন সীমিত নমুনা গ্যারান্টি সহ
  2. p-মান স্কেলিং কৌশল উল্লেখযোগ্যভাবে পরিসংখ্যানগত শক্তি বৃদ্ধি করে, তাত্ত্বিক কঠোরতা বজায় রেখে
  3. পদ্ধতি ব্যাপক প্রযোজ্যতা রয়েছে, বিদ্যমান সনাক্তকরণ পদ্ধতির সাথে একত্রিত হতে পারে

সীমাবদ্ধতা

  1. ক্যালিব্রেশন সেট প্রয়োজনীয়তা: পরীক্ষা সেটের বিতরণের সাথে সমান অদেখা ডেটা ক্যালিব্রেশন সেট প্রয়োজন
  2. বিষমজাত ডেটা চ্যালেঞ্জ: অত্যন্ত বিষমজাত পরীক্ষা ডেটার জন্য, প্রতিনিধিত্বমূলক ক্যালিব্রেশন সেট নির্মাণ কঠিন
  3. বিতরণ অমিল: ক্যালিব্রেশন ডেটা এবং পরীক্ষা ডেটার মধ্যে উল্লেখযোগ্য বিতরণ অমিল FDR গ্যারান্টি অকার্যকর করতে পারে

ভবিষ্যত দিকনির্দেশনা

  1. আরও দৃঢ় ডেটা ব্যবহার অনুপাত অনুমান পদ্ধতি বিকাশ করা
  2. বিতরণ অমিল পরিস্থিতিতে FDR নিয়ন্ত্রণ গবেষণা করা
  3. আরও জটিল সনাক্তকরণ পরিস্থিতিতে সম্প্রসারণ করা

গভীর মূল্যায়ন

সুবিধা

  1. তাত্ত্বিক কঠোরতা: সম্পূর্ণ গাণিতিক প্রমাণ এবং সীমিত নমুনা গ্যারান্টি প্রদান করে
  2. শক্তিশালী ব্যবহারিকতা: পদ্ধতি সহজ এবং বাস্তবায়ন করা সহজ, বিদ্যমান সরঞ্জামের সাথে একত্রিত হতে পারে
  3. পর্যাপ্ত পরীক্ষা: একাধিক মডেল, কাজ এবং ডেটাসেটের ব্যাপক মূল্যায়ন অন্তর্ভুক্ত করে
  4. উদ্ভাবনী: p-মান স্কেলিং কৌশল BH পদ্ধতির রক্ষণশীলতা সমস্যা চতুরভাবে সমাধান করে

অপূর্ণতা

  1. অনুমান সীমাবদ্ধতা: উপযুক্ত ক্যালিব্রেশন সেট পাওয়ার অনুমানের উপর নির্ভর করে
  2. গণনামূলক ওভারহেড: বিপুল সংখ্যক প্রার্থী ডেটা পয়েন্টের জন্য সনাক্তকরণ স্কোর গণনা প্রয়োজন
  3. প্যারামিটার নির্বাচন: যদিও η এর প্রতি দৃঢ়, সর্বোত্তম নির্বাচন এখনও অভিজ্ঞতামূলক নির্দেশনা প্রয়োজন

প্রভাব

  1. একাডেমিক অবদান: প্রশিক্ষণ ডেটা সনাক্তকরণের জন্য প্রথম কঠোর পরিসংখ্যানগত কাঠামো প্রদান করে
  2. ব্যবহারিক মূল্য: কপিরাইট মামলা এবং গোপনীয়তা অডিটে সরাসরি প্রয়োগ মূল্য রয়েছে
  3. পুনরুৎপাদনযোগ্যতা: অ্যালগরিদম বর্ণনা স্পষ্ট, পুনরুৎপাদন এবং সম্প্রসারণ সহজ

প্রযোজ্য পরিস্থিতি

  1. কপিরাইট সুরক্ষা: মডেল প্রশিক্ষণে ব্যবহৃত কপিরাইট-সুরক্ষিত সামগ্রী সনাক্ত করা
  2. গোপনীয়তা অডিট: ব্যক্তিগত ডেটা মডেল প্রশিক্ষণের জন্য ব্যবহৃত হয়েছে কিনা তা যাচাই করা
  3. মানদণ্ড মূল্যায়ন: মূল্যায়ন ডেটাসেটে দূষণ সনাক্ত এবং অপসারণ করা
  4. মডেল অডিট: নিয়ন্ত্রক পরিবেশে মডেল সম্মতি যাচাই করা

তথ্যসূত্র

পেপারটি একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • Benjamini & Hochberg (১৯৯৫): FDR নিয়ন্ত্রণের ক্লাসিক BH পদ্ধতি
  • Shi et al. (२०२४): WikiMIA ডেটাসেট এবং MIN-K% সনাক্তকরণ পদ্ধতি
  • Hu et al. (२०२५): Knockoff পরিসংখ্যান-ভিত্তিক প্রশিক্ষণ ডেটা সনাক্তকরণ
  • Jin & Candès (२०२३): নির্বাচন সমস্যায় Conformal p-মান

সারসংক্ষেপ: এটি প্রশিক্ষণ ডেটা সনাক্তকরণ ক্ষেত্রে গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক মূল্য সহ একটি পেপার। PTDI পদ্ধতি শুধুমাত্র কঠোর পরিসংখ্যানগত গ্যারান্টি প্রদান করে না বরং বাস্তব প্রয়োগে উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে। এই কাজ বর্তমান AI মডেল স্বচ্ছতা এবং জবাবদিহিতা সমস্যা সমাধানের জন্য গুরুত্বপূর্ণ সরঞ্জাম প্রদান করে।