Identifying training data within large-scale models is critical for copyright litigation, privacy auditing, and ensuring fair evaluation. The conventional approaches treat it as a simple binary classification task without statistical guarantees. A recent approach is designed to control the false discovery rate (FDR), but its guarantees rely on strong, easily violated assumptions. In this paper, we introduce Provable Training Data Identification (PTDI), a rigorous method that identifies a set of training data with strict false discovery rate (FDR) control. Specifically, our method computes p-values for each data point using a set of known unseen data, and then constructs a conservative estimator for the data usage proportion of the test set, which allows us to scale these p-values. Our approach then selects the final set of training data by identifying all points whose scaled p-values fall below a data-dependent threshold. This entire procedure enables the discovery of training data with provable, strict FDR control and significantly boosted power. Extensive experiments across a wide range of models (LLMs and VLMs), and datasets demonstrate that PTDI strictly controls the FDR and achieves higher power.
- পেপার আইডি: 2510.09717
- শিরোনাম: High-Power Training Data Identification with Provable Statistical Guarantees
- লেখক: Zhenlong Liu, Hao Zeng, Weiran Huang, Hongxin Wei
- শ্রেণীবিভাগ: cs.LG cs.AI
- প্রকাশনার সময়/সম্মেলন: প্রি-প্রিন্ট (২০২৫ সালের অক্টোবর)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.09717
বৃহৎ আকারের মডেলে প্রশিক্ষণ ডেটা সনাক্তকরণ কপিরাইট মামলা, গোপনীয়তা অডিট এবং ন্যায্য মূল্যায়ন নিশ্চিত করার জন্য অত্যন্ত গুরুত্বপূর্ণ। প্রথাগত পদ্ধতিগুলি এটিকে একটি সাধারণ দ্বিমুখী শ্রেণীবিভাগ কাজ হিসাবে বিবেচনা করে, যা পরিসংখ্যানগত গ্যারান্টির অভাব রয়েছে। সাম্প্রতিক পদ্ধতিগুলি যদিও ত্রুটি আবিষ্কার হার (FDR) নিয়ন্ত্রণের প্রক্রিয়া ডিজাইন করেছে, তবে এর গ্যারান্টি সহজেই লঙ্ঘনযোগ্য শক্তিশালী অনুমানের উপর নির্ভর করে। এই পেপারটি প্রমাণযোগ্য প্রশিক্ষণ ডেটা সনাক্তকরণ (PTDI) পদ্ধতি প্রস্তাব করে, যা ত্রুটি আবিষ্কার হার কঠোরভাবে নিয়ন্ত্রণ করে। এই পদ্ধতিটি পরিচিত অদেখা ডেটাসেট ব্যবহার করে প্রতিটি ডেটা পয়েন্টের জন্য p-মান গণনা করে, তারপর পরীক্ষা সেট ডেটা ব্যবহারের অনুপাতের একটি রক্ষণশীল অনুমানকারী তৈরি করে এই p-মানগুলি স্কেল করতে। অবশেষে, স্কেল করা p-মান ডেটা-নির্ভর থ্রেশহোল্ডের নিচে থাকা সমস্ত পয়েন্ট সনাক্ত করে চূড়ান্ত প্রশিক্ষণ ডেটা সেট নির্বাচন করা হয়। সম্পূর্ণ প্রক্রিয়া প্রমাণযোগ্য কঠোর FDR নিয়ন্ত্রণ অর্জন করে এবং পরিসংখ্যানগত শক্তি উল্লেখযোগ্যভাবে বৃদ্ধি করে।
মেশিন লার্নিং মডেলের ব্যাপক স্থাপনার সাথে, প্রশিক্ষণ ডেটা সনাক্তকরণ অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে, যা প্রধানত নিম্নলিখিত ক্ষেত্রে প্রতিফলিত হয়:
- কপিরাইট বিরোধ: Strike 3 বনাম Meta মামলার মতো, যা ২,৩৯৬টি কপিরাইট চলচ্চিত্র জড়িত, সম্ভাব্য আইনি ক্ষতিপূরণ ৩.৫ বিলিয়ন ডলার অতিক্রম করে
- ডেটা গোপনীয়তা: GDPR, CCPA এবং অন্যান্য গোপনীয়তা নিয়মের সাথে সম্মতি
- ডেটা দূষণ: মূল্যায়ন মানদণ্ডের ন্যায্যতা নিশ্চিত করা, প্রশিক্ষণ ডেটা ফাঁস প্রতিরোধ করা
- প্রথাগত পদ্ধতি: প্রশিক্ষণ ডেটা সনাক্তকরণকে একটি সাধারণ দ্বিমুখী শ্রেণীবিভাগ কাজ হিসাবে বিবেচনা করে, তাত্ত্বিক গ্যারান্টির অভাব রয়েছে
- সাম্প্রতিক পদ্ধতি: Hu এবং অন্যান্যদের (২০২৫) দ্বারা প্রস্তাবিত knockoff পরিসংখ্যান পদ্ধতি যদিও FDR নিয়ন্ত্রণ করে, তবে নিম্নলিখিত সমস্যা রয়েছে:
- মডেল গ্রেডিয়েন্টে অ্যাক্সেসের প্রয়োজন, ব্ল্যাক-বক্স সেটিংয়ে উপলব্ধ নয়
- কার্যকর knockoff নির্মাণ কঠিন, সমান বিতরণ অনুমান সহজেই লঙ্ঘিত হয়
- অবৈধ FDR নিয়ন্ত্রণের দিকে পরিচালিত করতে পারে
এই পেপারটি একটি বিতরণ-স্বাধীন পদ্ধতি ডিজাইন করার লক্ষ্য রাখে যা সাদা-বক্স এবং কালো-বক্স উভয় সেটিংয়ে কঠোর FDR নিয়ন্ত্রণ প্রদান করে, একই সাথে উচ্চতর পরিসংখ্যানগত শক্তি সহ।
- PTDI পদ্ধতি প্রস্তাব: একটি নতুন এবং সর্বজনীন পদ্ধতি যা বিতরণ-স্বাধীন সীমিত নমুনা FDR নিয়ন্ত্রণ অর্জন করে, বিদ্যমান সনাক্তকরণ পদ্ধতির সাথে একত্রিত হতে পারে
- তাত্ত্বিক গ্যারান্টি: কঠোর তাত্ত্বিক প্রমাণ (উপপাদ্য ১) প্রদান করে, PTDI ত্রুটি আবিষ্কার হার কঠোরভাবে নিয়ন্ত্রণ করে তা নিশ্চিত করে
- ব্যাপক পরীক্ষামূলক যাচাইকরণ: একাধিক মডেল (LLM এবং VLM), কাজ (প্রাক-প্রশিক্ষণ এবং সূক্ষ্ম-সুর) এবং ডেটাসেটে পদ্ধতির কার্যকারিতা যাচাই করে
- ব্যবহারিকতা: পদ্ধতি মডেল-অজ্ঞেয়বাদী, কালো-বক্স এবং সাদা-বক্স সেটিংয়ে প্রযোজ্য, শুধুমাত্র অদেখা ডেটা ক্যালিব্রেশন সেট হিসাবে প্রয়োজন
লক্ষ্য মডেল θ, ক্যালিব্রেশন সেট D_cal (আকার n) এবং পরীক্ষা সেট D_test = {X_{n+j}}^m_ দেওয়া, লক্ষ্য হল সূচক উপসেট S ⊆ {1,...,m} নির্বাচন করা যাতে ত্রুটি আবিষ্কার হার ব্যবহারকারী-নির্দিষ্ট স্তর α ∈ (0,1) এ নিয়ন্ত্রিত হয়:
FDR=E[max(∣S∣,1)∑j=1m1{Mn+j=0,j∈S}]≤α
প্রতিটি পরীক্ষা পয়েন্টের জন্য p-মান গণনা করুন:
pj=n+11+∑i=1n1{Ti≤Tn+j}
যেখানে T(X;θ) হল সনাক্তকরণ স্কোর (যেমন বিভ্রান্তি), কম স্কোর প্রশিক্ষণ সদস্য হওয়ার সম্ভাবনা বেশি নির্দেশ করে।
বিয়োগ অনুমানকারী π̂_sub ব্যবহার করে পরীক্ষা সেটে প্রশিক্ষণ ডেটার অনুপাত π_test অনুমান করুন:
π^sub=1−n1∑i=1n1{T(Xi)∈R}m+11(1+∑j=1m1{T(Xn+j)∈R})
যেখানে R = (τ,+∞) হল পরিমাণ থ্রেশহোল্ড η দ্বারা নির্মিত একটি বিরল সদস্য অঞ্চল।
স্কেল করা p-মান গণনা করুন:
p~j=(1−π^test)pj
চূড়ান্ত সেট নির্বাচন করতে BH পদ্ধতি প্রয়োগ করুন:
S={j∣p~j≤mk∗α}
যেখানে k∗=max{k∣p~(k)≤mkα}
- রক্ষণশীল অনুমানকারী ডিজাইন: বিয়োগ অনুমানকারী নিশ্চিত করে E(1-π_test)/(1-π̂_sub) ≤ 1, FDR নিয়ন্ত্রণ বজায় রাখে
- p-মান স্কেলিং কৌশল: মান BH পদ্ধতির রক্ষণশীলতা অতিক্রম করতে p-মান স্কেলিং করে, পরিসংখ্যানগত শক্তি উল্লেখযোগ্যভাবে বৃদ্ধি করে
- বিতরণ-স্বাধীন গ্যারান্টি: নির্দিষ্ট বিতরণ অনুমানের উপর নির্ভর করে না, ব্যাপক প্রযোজ্যতা রয়েছে
- LLM প্রাক-প্রশিক্ষণ: WikiMIA, ArxivTection
- LLM সূক্ষ্ম-সুর: XSum, BBC Real Time
- দৃষ্টি-ভাষা মডেল: VL-MIA/Flickr, VL-MIA/DALL-E
- LLM: GPT-2, GPT-Neo, GPT-NeoX-20B, LLaMA-7B, Pythia (1.4B এবং 6.9B)
- VLM: LLaVA-1.5, MiniGPT-4
- LLM: বিভ্রান্তি (Perplexity), Zlib সংকোচন অনুপাত, MIN-K%, সংশোধিত এন্ট্রপি (M-Entropy)
- VLM: MaxRényi-K%
- FDR: ত্রুটি আবিষ্কার হারের অভিজ্ঞতামূলক অনুমান
- Power: পরিসংখ্যানগত শক্তি, সত্যিকারের সদস্য সঠিকভাবে সনাক্ত করার অনুপাত
সমস্ত পরীক্ষামূলক সেটিংয়ে, PTDI পদ্ধতি লক্ষ্য স্তরের নিচে FDR কঠোরভাবে নিয়ন্ত্রণ করে:
- WikiMIA-তে Pythia-1.4B, লক্ষ্য FDR=5%: PTDI ৪.৯৪% অর্জন করে বনাম KTD এর ১৩.১১%
- সমস্ত মডেল এবং ডেটাসেট সমন্বয় প্রকৃত FDR লক্ষ্য স্তরের নিচে প্রদর্শন করে
p-মান স্কেলিং উল্লেখযোগ্যভাবে পরিসংখ্যানগত শক্তি বৃদ্ধি করে:
- WikiMIA-তে GPT-NeoX-20B, লক্ষ্য FDR=0.5, MIN-K% স্কোর: শক্তি ০.৪৪ থেকে ০.৭৫ এ বৃদ্ধি পায়
- বিভিন্ন লক্ষ্য FDR স্তরে, স্কেলিং পদ্ধতি সর্বদা vanilla পদ্ধতির চেয়ে উত্তম
- ক্যালিব্রেশন সেট আকার বৃদ্ধি (ρ = n/m ০.১ থেকে ১.০) FDP এবং শক্তির বৈচিত্র্য হ্রাস করে
- সমস্ত ρ মান কার্যকরভাবে FDR নিয়ন্ত্রণ করে
- η ∈ {০.০১, ০.০৫, ০.१, ०.५} পরিসরে, পদ্ধতি দৃঢ়ভাবে FDR নিয়ন্ত্রণ করে
- ডিফল্ট সেটিং η = ०.०५
- বিভিন্ন ডেটা ব্যবহার অনুপাতে (π_test = ०.३, ०.५, ०.७) FDR নিয়ন্ত্রণ বজায় রাখে
- PTDI সমস্ত পরীক্ষা সেটিংয়ে কঠোরভাবে FDR নিয়ন্ত্রণ করে
- KTD WikiMIA এবং XSum-এ কিছু α মানে নিয়ন্ত্রণ হারায়
- FDR নিয়ন্ত্রণ কার্যকর হলে, PTDI GPT-2-তে উত্তম শক্তি রাখে
পক্ষপাত-সংশোধিত মুহূর্ত অনুমানকারী π̂_mom প্রস্তাব করা হয়েছে, যখন নিশ্চিত সদস্য ডেটা উপলব্ধ থাকে তখন আরও শক্তি বৃদ্ধি করে, FDR নিয়ন্ত্রণ বজায় রেখে।
- ডেটা দূষণ গবেষণা: মানদণ্ড ডেটা প্রশিক্ষণ সেটে ফাঁস প্রতিরোধ করা
- হিউরিস্টিক সনাক্তকরণ স্কোর: বিভ্রান্তি, MIN-k% ইত্যাদি পদ্ধতি তাত্ত্বিক গ্যারান্টির অভাব রয়েছে
- পরিসংখ্যানগত কঠোর পদ্ধতি: Dekoninck এবং অন্যান্য এবং Oren এবং অন্যান্যদের পদ্ধতি শুধুমাত্র ডেটাসেট-স্তরের অনুমানের জন্য প্রযোজ্য
- গোপনীয়তা দৃষ্টিকোণ: MIA নির্দিষ্ট ডেটা পয়েন্ট প্রশিক্ষণের জন্য ব্যবহৃত হয়েছে কিনা তা নির্ধারণ করার লক্ষ্য রাখে
- দ্বিমুখী শ্রেণীবিভাগ পদ্ধতি: গড় শ্রেণীবিভাগ নির্ভুলতায় ফোকাস করে
- অনুমান পরীক্ষার কাঠামো: Attack-P ইত্যাদি পদ্ধতি কম FPR-এ TPR অগ্রাধিকার দেয়
- Benjamini-Hochberg পদ্ধতি: মান FDR নিয়ন্ত্রণ সরঞ্জাম
- Conformal p-মান: Jin & Candès এর পদ্ধতি শক্তিশালী i.i.d অনুমান প্রয়োজন
- Knockoff পরিসংখ্যান: Hu এবং অন্যান্যদের পদ্ধতি উচ্চ-মানের knockoff উৎপাদন প্রয়োজন
- PTDI পদ্ধতি কঠোর FDR নিয়ন্ত্রণ অর্জন করে, বিতরণ-স্বাধীন সীমিত নমুনা গ্যারান্টি সহ
- p-মান স্কেলিং কৌশল উল্লেখযোগ্যভাবে পরিসংখ্যানগত শক্তি বৃদ্ধি করে, তাত্ত্বিক কঠোরতা বজায় রেখে
- পদ্ধতি ব্যাপক প্রযোজ্যতা রয়েছে, বিদ্যমান সনাক্তকরণ পদ্ধতির সাথে একত্রিত হতে পারে
- ক্যালিব্রেশন সেট প্রয়োজনীয়তা: পরীক্ষা সেটের বিতরণের সাথে সমান অদেখা ডেটা ক্যালিব্রেশন সেট প্রয়োজন
- বিষমজাত ডেটা চ্যালেঞ্জ: অত্যন্ত বিষমজাত পরীক্ষা ডেটার জন্য, প্রতিনিধিত্বমূলক ক্যালিব্রেশন সেট নির্মাণ কঠিন
- বিতরণ অমিল: ক্যালিব্রেশন ডেটা এবং পরীক্ষা ডেটার মধ্যে উল্লেখযোগ্য বিতরণ অমিল FDR গ্যারান্টি অকার্যকর করতে পারে
- আরও দৃঢ় ডেটা ব্যবহার অনুপাত অনুমান পদ্ধতি বিকাশ করা
- বিতরণ অমিল পরিস্থিতিতে FDR নিয়ন্ত্রণ গবেষণা করা
- আরও জটিল সনাক্তকরণ পরিস্থিতিতে সম্প্রসারণ করা
- তাত্ত্বিক কঠোরতা: সম্পূর্ণ গাণিতিক প্রমাণ এবং সীমিত নমুনা গ্যারান্টি প্রদান করে
- শক্তিশালী ব্যবহারিকতা: পদ্ধতি সহজ এবং বাস্তবায়ন করা সহজ, বিদ্যমান সরঞ্জামের সাথে একত্রিত হতে পারে
- পর্যাপ্ত পরীক্ষা: একাধিক মডেল, কাজ এবং ডেটাসেটের ব্যাপক মূল্যায়ন অন্তর্ভুক্ত করে
- উদ্ভাবনী: p-মান স্কেলিং কৌশল BH পদ্ধতির রক্ষণশীলতা সমস্যা চতুরভাবে সমাধান করে
- অনুমান সীমাবদ্ধতা: উপযুক্ত ক্যালিব্রেশন সেট পাওয়ার অনুমানের উপর নির্ভর করে
- গণনামূলক ওভারহেড: বিপুল সংখ্যক প্রার্থী ডেটা পয়েন্টের জন্য সনাক্তকরণ স্কোর গণনা প্রয়োজন
- প্যারামিটার নির্বাচন: যদিও η এর প্রতি দৃঢ়, সর্বোত্তম নির্বাচন এখনও অভিজ্ঞতামূলক নির্দেশনা প্রয়োজন
- একাডেমিক অবদান: প্রশিক্ষণ ডেটা সনাক্তকরণের জন্য প্রথম কঠোর পরিসংখ্যানগত কাঠামো প্রদান করে
- ব্যবহারিক মূল্য: কপিরাইট মামলা এবং গোপনীয়তা অডিটে সরাসরি প্রয়োগ মূল্য রয়েছে
- পুনরুৎপাদনযোগ্যতা: অ্যালগরিদম বর্ণনা স্পষ্ট, পুনরুৎপাদন এবং সম্প্রসারণ সহজ
- কপিরাইট সুরক্ষা: মডেল প্রশিক্ষণে ব্যবহৃত কপিরাইট-সুরক্ষিত সামগ্রী সনাক্ত করা
- গোপনীয়তা অডিট: ব্যক্তিগত ডেটা মডেল প্রশিক্ষণের জন্য ব্যবহৃত হয়েছে কিনা তা যাচাই করা
- মানদণ্ড মূল্যায়ন: মূল্যায়ন ডেটাসেটে দূষণ সনাক্ত এবং অপসারণ করা
- মডেল অডিট: নিয়ন্ত্রক পরিবেশে মডেল সম্মতি যাচাই করা
পেপারটি একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- Benjamini & Hochberg (১৯৯৫): FDR নিয়ন্ত্রণের ক্লাসিক BH পদ্ধতি
- Shi et al. (२०२४): WikiMIA ডেটাসেট এবং MIN-K% সনাক্তকরণ পদ্ধতি
- Hu et al. (२०२५): Knockoff পরিসংখ্যান-ভিত্তিক প্রশিক্ষণ ডেটা সনাক্তকরণ
- Jin & Candès (२०२३): নির্বাচন সমস্যায় Conformal p-মান
সারসংক্ষেপ: এটি প্রশিক্ষণ ডেটা সনাক্তকরণ ক্ষেত্রে গুরুত্বপূর্ণ তাত্ত্বিক এবং ব্যবহারিক মূল্য সহ একটি পেপার। PTDI পদ্ধতি শুধুমাত্র কঠোর পরিসংখ্যানগত গ্যারান্টি প্রদান করে না বরং বাস্তব প্রয়োগে উৎকৃষ্ট কর্মক্ষমতা প্রদর্শন করে। এই কাজ বর্তমান AI মডেল স্বচ্ছতা এবং জবাবদিহিতা সমস্যা সমাধানের জন্য গুরুত্বপূর্ণ সরঞ্জাম প্রদান করে।