2025-11-14T02:49:11.540996

Iterative Data Curation with Theoretical Guarantees

Jonasson, Magnusson

In recent years, more and more large data sets have become available. Data accuracy, the absence of verifiable errors in data, is crucial for these large materials to enable high-quality research, downstream applications, and model training. This results in the problem of how to curate or improve data accuracy in such large and growing data, especially when the data is too large for manual curation to be feasible. This paper presents a unified procedure for iterative and continuous improvement of data sets. We provide theoretical guarantees that data accuracy tests speed up error reduction and, most importantly, that the proposed approach will, asymptotically, eliminate all errors in data with probability one. We corroborate the theoretical results with simulations and a real-world use case.

academic

তাত্ত্বিক গ্যারান্টি সহ পুনরাবৃত্তিমূলক ডেটা কিউরেশন

মৌলিক তথ্য

পেপার আইডি: 2510.11428
শিরোনাম: Iterative Data Curation with Theoretical Guarantees
লেখক: Väinö Yrjänäinen, Johan Jonasson, Måns Magnusson
শ্রেণীবিভাগ: stat.ME (পরিসংখ্যান - পদ্ধতিবিদ্যা)
প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv প্রি-প্রিন্ট)
পেপার লিঙ্ক: https://arxiv.org/abs/2510.11428v1

সারসংক্ষেপ

বৃহৎ আকারের ডেটাসেটের ক্রমবর্ধমান প্রাচুর্যের সাথে, ডেটা নির্ভুলতা (অর্থাৎ ডেটায় যাচাইযোগ্য ত্রুটির অনুপস্থিতি) উচ্চমানের গবেষণা, ডাউনস্ট্রিম অ্যাপ্লিকেশন এবং মডেল প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে। এই পেপারটি বৃহৎ আকারের ডেটাসেটে ডেটা নির্ভুলতা উন্নতির চ্যালেঞ্জ মোকাবেলা করে একটি একীভূত পুনরাবৃত্তিমূলক ডেটাসেট ক্রমাগত উন্নতি পদ্ধতি প্রস্তাব করে। গবেষণা তাত্ত্বিক গ্যারান্টি প্রদান করে যা প্রমাণ করে যে ডেটা নির্ভুলতা পরীক্ষা ত্রুটি হ্রাস ত্বরান্বিত করতে পারে এবং আরও গুরুত্বপূর্ণভাবে, প্রস্তাবিত পদ্ধতি ডেটায় সমস্ত ত্রুটি সম্ভাব্যতা ১ এ অ্যাসিম্পটোটিকভাবে দূর করবে। তাত্ত্বিক ফলাফলগুলি সিমুলেশন পরীক্ষা এবং বাস্তব-বিশ্বের ব্যবহারের ক্ষেত্রের মাধ্যমে যাচাই করা হয়েছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

এই গবেষণার মূল সমস্যা হল: বৃহৎ আকারের ডেটাসেটে ডেটা নির্ভুলতা পদ্ধতিগতভাবে কীভাবে উন্নত করা যায়, বিশেষত যখন ডেটার আকার এত বড় যে ম্যানুয়াল সম্পাদনা অসম্ভব?

সমস্যার গুরুত্ব

ডেটা গুণমানের গুরুত্বপূর্ণতা: উচ্চমানের ডেটা মেশিন লার্নিং পূর্বাভাস, পরিসংখ্যানগত অনুমান, সিদ্ধান্ত গ্রহণ এবং নির্ভরযোগ্য পূর্বাভাস মডেল প্রশিক্ষণের জন্য অপরিহার্য
বাস্তব চ্যালেঞ্জ: সাধারণভাবে ব্যবহৃত মেশিন লার্নিং ডেটাসেট যেমন Fashion MNIST, Common Crawl, Wikipedia কর্পাস ইত্যাদি সবই প্রচুর ত্রুটি ধারণ করে এবং নির্ভুলতা গ্যারান্টির অভাব রয়েছে
স্কেল সীমাবদ্ধতা: ঐতিহ্যবাহী ম্যানুয়াল সম্পাদনা পদ্ধতি বৃহৎ আকারের ডেটাসেটে প্রয়োগযোগ্য নয়

বিদ্যমান পদ্ধতির সীমাবদ্ধতা

নিয়ম-ভিত্তিক অ্যালগরিদম: যদিও হাজার হাজার ত্রুটি সংশোধন করতে পারে, তবে নির্ভুলতা গ্যারান্টি নেই এবং সাধারণত উল্লেখযোগ্য ত্রুটির হার সহ আসে
ক্রাউডসোর্সিং এবং বাহ্যিক ডেটা উৎস: একইভাবে উল্লেখযোগ্য ত্রুটির হার রয়েছে
তাত্ত্বিক গ্যারান্টির অভাব: বিদ্যমান পদ্ধতিগুলি ত্রুটিমুক্ত ডেটাসেটে সংমিশ্রণের তাত্ত্বিক গ্যারান্টি প্রদান করতে পারে না

গবেষণার প্রেরণা

পেপারটির লক্ষ্য একটি স্কেলেবল ডেটা কিউরেশন ফ্রেমওয়ার্ক প্রতিষ্ঠা করা যা তাত্ত্বিক গ্যারান্টি সহ আসে এবং ন্যূনতম ম্যানুয়াল প্রচেষ্টায় উচ্চমানের পুনরাবৃত্তিমূলক আপডেট অর্জন করতে পারে।

মূল অবদান

পুনরাবৃত্তিমূলক কিউরেশন ফ্রেমওয়ার্ক: বৃহৎ আকারের পাঠ্য এবং টেবিল ডেটাসেটের জন্য একটি কাঠামোগত স্কেলেবল ডেটা নির্ভুলতা উন্নতি প্রক্রিয়া প্রস্তাব করে
তাত্ত্বিক গ্যারান্টি: ত্রুটিমুক্ত ডেটাসেটে অ্যাসিম্পটোটিক সংমিশ্রণ, ত্রুটির সূচকীয় হ্রাস এবং প্রতিটি ডেটা সংশোধনের সময় ত্রুটি হ্রাসের হারের প্রত্যাশিত গ্যারান্টি প্রমাণ করে
পরীক্ষামূলক যাচাইকরণ: সিমুলেশন পরীক্ষা এবং সুইডিশ পার্লামেন্ট কর্পাসের বাস্তব কেস স্টাডির মাধ্যমে তাত্ত্বিক ফলাফলগুলি সমর্থন করে
শব্দ সহনশীলতা: পদ্ধতির শব্দযুক্ত ওরাকেল (noisy oracle) এর প্রতি শক্তিশালীতা প্রমাণ করে

পদ্ধতির বিস্তারিত বিবরণ

কাজের সংজ্ঞা

ইনপুট: ত্রুটি ধারণকারী প্রাথমিক ডেটাসেট $S_0 \in S$ আউটপুট: পুনরাবৃত্তিমূলক উন্নতির মাধ্যমে ত্রুটিমুক্ত হওয়ার দিকে প্রবণ ডেটাসেট অনুক্রম $\{S_t\}$ উদ্দেশ্য: $\lim_{t \to \infty} P(E_t = 0) = 1$ , যেখানে $E_t = d(S^*, S_t)$ হল ত্রুটির সংখ্যা

মডেল আর্কিটেকচার

পুনরাবৃত্তিমূলক কিউরেশন প্রক্রিয়া

সম্পূর্ণ প্রক্রিয়ায় চারটি প্রধান পদক্ষেপ রয়েছে, যার মধ্যে শেষ তিনটি পুনরাবৃত্তিমূলকভাবে সম্পাদিত হয়:

পদক্ষেপ ১: প্রোটোটাইপ প্রতিষ্ঠা

ন্যূনতম কার্যকর প্রোটোটাইপ ডেটাসেট তৈরি করা
উপযুক্ত ডেটা ফর্ম্যাট $S$ সংজ্ঞায়িত করা (মানব-পাঠযোগ্য এবং সহজে সম্প্রসারণযোগ্য)
পুঙ্খানুপুঙ্খ ম্যানুয়াল পরীক্ষা এবং যাচাইকরণ পরিচালনা করা

পদক্ষেপ ২: সংশোধন প্রস্তাব তৈরি করা

সংশোধন প্রস্তাব $R_{t+1} \in S$ তৈরি করা
দুটি ধরনের অন্তর্ভুক্ত: যোগ করা (ডেটা সম্প্রসারণ) এবং সংশোধন করা (ত্রুটি সংশোধন)

পদক্ষেপ ৩: প্রস্তাব গ্রহণ বা প্রত্যাখ্যান করা

৩.১ স্বয়ংক্রিয় ডেটা পরীক্ষা: ফর্ম্যাট যাচাইকরণ, বিষয়বস্তু যুক্তিসঙ্গততা পরীক্ষা
৩.২ সম্পাদনা নমুনা: সম্পাদনা সেট $\Delta_t = \Delta(R_{t+1}, S_t)$ থেকে র্যান্ডমভাবে $n$ টি সম্পাদনা নমুনা করা
ওরাকেল যাচাইকরণ: নমুনা করা সম্পাদনার সঠিকতা ম্যানুয়ালি পরীক্ষা করা
সিদ্ধান্ত নিয়ম: সঠিক সম্পাদনার সংখ্যা $\geq m$ হলে প্রস্তাব গ্রহণ করা

পদক্ষেপ ৪: নতুন সংস্করণ প্রকাশ করা

পরিবর্তনের ধরন চিহ্নিত করতে সিমান্টিক সংস্করণ নিয়ন্ত্রণ ব্যবহার করা (MAJOR/MINOR/PATCH)

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

১. শাখা প্রক্রিয়া মডেলিং

ত্রুটির সংখ্যাকে র্যান্ডম পরিবেশে শাখা প্রক্রিয়া (BPRE) হিসাবে মডেল করা, যেখানে:

$p_{0,t} = (1-r_t)\lambda_t$ : ত্রুটি হ্রাসের সম্ভাবনা
$p_{1,t} = 1-\lambda_t$ : ত্রুটি অপরিবর্তিত থাকার সম্ভাবনা
$p_{2,t} = r_t\lambda_t$ : ত্রুটি বৃদ্ধির সম্ভাবনা

২. তাত্ত্বিক গ্যারান্টি প্রক্রিয়া

গ্রহণ থ্রেশহোল্ড $(n,m)$ নিয়ন্ত্রণের মাধ্যমে নিশ্চিত করা: $E_{r_t,\lambda_t}[\log E[\zeta] | M \geq m] < 0$

এটি শাখা প্রক্রিয়ার সাব-সমালোচনামূলকতা নিশ্চিত করে, যার ফলে ত্রুটির সূচকীয় হ্রাস ঘটে।

৩. ডেটা ফর্ম্যাট অভিযোজনযোগ্যতা

দুটি প্রধান ডেটা ফর্ম্যাটের জন্য নির্দিষ্ট বাস্তবায়ন প্রদান করা:

টেবিল ডেটা: হ্যামিং দূরত্ব ব্যবহার করা
অনুক্রম ডেটা: যোগ-মুছে ফেলা সম্পাদনা দূরত্ব ব্যবহার করা

পরীক্ষামূলক সেটআপ

ডেটাসেট

সিমুলেশন ডেটা:
- সরাসরি ত্রুটির সংখ্যা $E_t$ সিমুলেট করা, ত্রুটির হার $r_t \sim \text{Beta}(\alpha, \beta)$
- ১০ লক্ষ শব্দের ইংরেজি Wikipedia অনুক্রম, প্রাথমিকভাবে প্রায় ১০,০০০ ত্রুটি ধারণ করে
বাস্তব ডেটা: সুইডিশ পার্লামেন্ট রেকর্ড কর্পাস
- ১৭,৯৩৮টি পার্লামেন্ট রেকর্ড (১৮৬৭-২০২৪)
- ৫০০ মিলিয়নেরও বেশি শব্দ, ParlaClarin XML ফর্ম্যাট

মূল্যায়ন মেট্রিক্স

ত্রুটির সংখ্যা $E_t = d(S^*, S_t)$ : প্রকৃত ডেটার সাথে দূরত্ব
সংমিশ্রণের হার: ত্রুটির সূচকীয় হ্রাসের গতি
নির্দিষ্ট নির্ভুলতা মেট্রিক্স: সংসদ সদস্য ম্যাপিং ত্রুটি, অনুচ্ছেদ শ্রেণীবিভাগ ত্রুটি

তুলনামূলক পদ্ধতি

সিদ্ধান্ত নিয়ম সহ বনাম ছাড়া
বিভিন্ন থ্রেশহোল্ড $m/n$ এর তুলনা (০.৪, ০.৫, ০.৬ ইত্যাদি)
প্রকৃত ওরাকেল বনাম শব্দযুক্ত ওরাকেল

বাস্তবায়ন বিবরণ

নমুনা আকার: $n = 10, 50$
গ্রহণ থ্রেশহোল্ড: সাধারণত $m/n \approx 0.5$
শব্দযুক্ত ওরাকেল: শব্দের হার $\varepsilon = 0.2$

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

১. সংমিশ্রণ যাচাইকরণ

সূচকীয় হ্রাস: লগ স্কেলে ত্রুটির সংখ্যায় রৈখিক হ্রাস পর্যবেক্ষণ করা হয়েছে
থ্রেশহোল্ড প্রভাব: $n=10$ এ $m/n = 0.6$ $m/n = 0.5$ এর চেয়ে ভাল; $n=50$ এ বিপরীত
সিদ্ধান্ত নিয়মের সুবিধা: এমনকি অত্যন্ত আশাবাদী $r_t \sim \text{Beta}(1,4)$ (৯৪% প্রস্তাব ডেটা উন্নত করে) পরিস্থিতিতেও, সিদ্ধান্ত নিয়ম সংমিশ্রণ ত্বরান্বিত করতে পারে

২. পাঠ্য ডেটা সিমুলেশন

সিদ্ধান্ত নিয়ম সহ: $E_t$ সূচকীয়ভাবে হ্রাস পায় (গড় এবং কোয়ান্টাইল)
সিদ্ধান্ত নিয়ম ছাড়া:
- $r_t \sim \text{Beta}(1,1)$ এ গড় স্থির থাকে, বৈচিত্র্য বৃদ্ধি পায়
- $r_t \sim \text{Beta}(5,3)$ এ $E_t$ সূচকীয়ভাবে বৃদ্ধি পায়

৩. বাস্তব কেস ফলাফল

সুইডিশ পার্লামেন্ট ডেটার দুটি মূল সূচক ক্রমাগত উন্নতি প্রদর্শন করে:

সংসদ সদস্য ম্যাপিং ত্রুটি: $10^3$ পরিমাণ থেকে নিম্ন স্তরে হ্রাস পায়
অনুচ্ছেদ শ্রেণীবিভাগ ত্রুটি: নিম্ন স্তরে থাকে বা ক্রমাগত হ্রাস পায়

বিলোপন পরীক্ষা

স্বয়ংক্রিয় পরীক্ষার প্রভাব (প্রমেয় ৩.৮)

স্বয়ংক্রিয় ডেটা পরীক্ষা সংমিশ্রণ ত্বরান্বিত করতে পারে তা প্রমাণ করে: $P(E_t = 0 | E_0 = E) < P(E'_t = 0 | E'_0 = E)$

শব্দযুক্ত ওরাকেলের শক্তিশালীতা (প্রমেয় ৩.৪)

থ্রেশহোল্ড $m_{noisy} = m/(1-\varepsilon)$ সামঞ্জস্য করে, শব্দযুক্ত ওরাকেল প্রকৃত ওরাকেলের সাথে অনুরূপ সংমিশ্রণ কর্মক্ষমতা অর্জন করে।

পরীক্ষামূলক অনুসন্ধান

থ্রেশহোল্ড অপ্টিমাইজেশন: সর্বোত্তম $m$ মান $n/2$ এর দিকে প্রবণ হয় ( $n \to \infty$ হলে)
স্কেল প্রভাব: বৃহত্তর এবং আরও সঠিক সংশোধন ত্রুটি হ্রাস ত্বরান্বিত করে
ব্যবহারিকতা: পদ্ধতি বাস্তব বৃহৎ আকারের ডেটাসেটে ভাল কর্মক্ষমতা প্রদর্শন করে

উপসংহার এবং আলোচনা

প্রধান উপসংহার

তাত্ত্বিক গ্যারান্টি: উপযুক্ত শর্তাবলীতে, পুনরাবৃত্তিমূলক কিউরেশন প্রক্রিয়া সম্ভাব্যতা ১ এ ত্রুটিমুক্ত ডেটাসেটে সংমিশ্রিত হয়
সূচকীয় সংমিশ্রণ: ত্রুটির সংখ্যা সূচকীয়ভাবে হ্রাস পায়, সংমিশ্রণের গতি সংশোধনের গুণমান এবং স্কেলের উপর নির্ভর করে
ব্যবহারিকতা: পদ্ধতি বৃহৎ আকারের পাঠ্য এবং টেবিল ডেটার জন্য প্রযোজ্য, বাস্তব প্রকল্পে যাচাই করা হয়েছে

সীমাবদ্ধতা

অনুমানের শর্তাবলী:
- প্রকৃত ডেটা $S^*$ এর ধারণা বিদ্যমান থাকা প্রয়োজন
- সম্পাদনার সংযোজনযোগ্যতা প্রয়োজন (কিছু ডেটা ফর্ম্যাটের জন্য প্রযোজ্য নাও হতে পারে)
- অনুক্রম ডেটা অতিরিক্ত অনুমান প্রয়োজন যেমন কোনো পুনরাবৃত্ত উপাদান নেই
ওরাকেল নির্ভরতা: শব্দের প্রতি শক্তিশালীতা প্রমাণ করা হয়েছে, তবুও ম্যানুয়াল যাচাইকরণ প্রয়োজন
গণনামূলক জটিলতা: বৃহৎ আকারের ডেটাসেটে গণনামূলক খরচ বিস্তারিতভাবে বিশ্লেষণ করা হয়নি

ভবিষ্যত দিকনির্দেশনা

ডেটা ফর্ম্যাট সম্প্রসারণ: আরও জটিল ডেটা কাঠামোর প্রযোজ্যতা অধ্যয়ন করা (যেমন গ্রাফ ডেটা, মাল্টিমোডাল ডেটা)
সক্রিয় শিক্ষা: সম্পাদনা নমুনা অপ্টিমাইজ করতে সক্রিয় শিক্ষা কৌশল একীভূত করা
স্বয়ংক্রিয়করণের ডিগ্রি: ম্যানুয়াল ওরাকেলের উপর নির্ভরতা হ্রাস করা

গভীর মূল্যায়ন

শক্তি

তাত্ত্বিক কঠোরতা: সম্পূর্ণ তাত্ত্বিক বিশ্লেষণ এবং প্রমাণ প্রদান করে, ডেটা কিউরেশন ক্ষেত্রে তাত্ত্বিক গ্যারান্টির শূন্যতা পূরণ করে
ব্যবহারিক মূল্য: পদ্ধতি বৃহৎ আকারের বাস্তব প্রকল্পে প্রয়োগ করা হয়েছে এবং ভাল ফলাফল অর্জন করেছে
সর্বজনীনতা: ফ্রেমওয়ার্ক একাধিক ডেটা ফর্ম্যাটের জন্য প্রযোজ্য (টেবিল, পাঠ্য)
প্রকৌশল চিন্তাভাবনা: সফটওয়্যার ইঞ্জিনিয়ারিং সেরা অনুশীলন থেকে ধার করা, ভাল অপারেশনাল ক্ষমতা রয়েছে

অপূর্ণতা

অনুমানের সীমাবদ্ধতা: কিছু অনুমান (যেমন অনুক্রম অনন্য উপাদান) বাস্তব অ্যাপ্লিকেশনে অত্যন্ত কঠোর হতে পারে
ম্যানুয়াল খরচ: দক্ষতা উন্নত করা সত্ত্বেও, এখনও প্রচুর ম্যানুয়াল যাচাইকরণ কাজ প্রয়োজন
সংমিশ্রণের গতি: যদিও তাত্ত্বিকভাবে সংমিশ্রণ গ্যারান্টিযুক্ত, বাস্তব সংমিশ্রণের গতি ধীর হতে পারে
ত্রুটির ধরন: প্রধানত যাচাইযোগ্য উদ্দেশ্যমূলক ত্রুটিতে ফোকাস করে, বিষয়গত লেবেলিং সমস্যায় প্রযোজ্যতা সীমিত

প্রভাব

একাডেমিক অবদান: প্রথমবারের মতো ডেটা কিউরেশনের জন্য তাত্ত্বিক গ্যারান্টি প্রদান করে, নতুন গবেষণা দিকনির্দেশনা খুলে দিতে পারে
ব্যবহারিক মূল্য: বৃহৎ আকারের ডেটা প্রকল্পের জন্য একটি পদ্ধতিগত গুণমান উন্নতি পদ্ধতি প্রদান করে
পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ বাস্তবায়ন বিবরণ এবং পরিপূরক উপকরণ প্রদান করে

প্রযোজ্য পরিস্থিতি

বৃহৎ আকারের পাঠ্য কর্পাস: যেমন পার্লামেন্ট রেকর্ড, আইনি নথি, ঐতিহাসিক সংরক্ষণাগার
টেবিল ডেটাবেস: ক্রমাগত রক্ষণাবেক্ষণ এবং উন্নতির প্রয়োজন এমন কাঠামোগত ডেটা
মেশিন লার্নিং ডেটাসেট: উচ্চমানের লেবেলিং প্রয়োজন এমন প্রশিক্ষণ ডেটা
দীর্ঘমেয়াদী ডেটা প্রকল্প: সংস্করণ নিয়ন্ত্রণ এবং গুণমান ট্র্যাকিং প্রয়োজন এমন ডেটাসেট

সংদর্ভ

পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:

ডেটা গুণমান গবেষণা: Olson (২০০৩), Jain et al. (২০২০), Budach et al. (২০২২)
শাখা প্রক্রিয়া তত্ত্ব: Smith এবং Wilkinson (১৯৬৯), Guivarc'h এবং Liu (२००१)
বাস্তব ডেটাসেট: Common Crawl (२०२४), Wikipedia অবদানকারী (२०२३)
সফটওয়্যার ইঞ্জিনিয়ারিং: Preston-Werner (२०१३), Torvalds et al. (२००५)

সামগ্রিক মূল্যায়ন: এটি একটি উচ্চমানের পেপার যা তত্ত্ব এবং অনুশীলনের সমন্বয় করে, ডেটা কিউরেশনের এই গুরুত্বপূর্ণ কিন্তু তাত্ত্বিক ভিত্তির অভাব রয়েছে এমন ক্ষেত্রে একটি কঠোর গাণিতিক কাঠামো প্রদান করে। যদিও কিছু অনুমানের সীমাবদ্ধতা রয়েছে, তবে এর তাত্ত্বিক অবদান এবং ব্যবহারিক মূল্য উভয়ই উল্লেখযোগ্য এবং সম্পর্কিত ক্ষেত্রে গুরুত্বপূর্ণ প্রচারমূলক ভূমিকা রয়েছে।