In recent years, more and more large data sets have become available. Data accuracy, the absence of verifiable errors in data, is crucial for these large materials to enable high-quality research, downstream applications, and model training. This results in the problem of how to curate or improve data accuracy in such large and growing data, especially when the data is too large for manual curation to be feasible. This paper presents a unified procedure for iterative and continuous improvement of data sets. We provide theoretical guarantees that data accuracy tests speed up error reduction and, most importantly, that the proposed approach will, asymptotically, eliminate all errors in data with probability one. We corroborate the theoretical results with simulations and a real-world use case.
- পেপার আইডি: 2510.11428
- শিরোনাম: Iterative Data Curation with Theoretical Guarantees
- লেখক: Väinö Yrjänäinen, Johan Jonasson, Måns Magnusson
- শ্রেণীবিভাগ: stat.ME (পরিসংখ্যান - পদ্ধতিবিদ্যা)
- প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv প্রি-প্রিন্ট)
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.11428v1
বৃহৎ আকারের ডেটাসেটের ক্রমবর্ধমান প্রাচুর্যের সাথে, ডেটা নির্ভুলতা (অর্থাৎ ডেটায় যাচাইযোগ্য ত্রুটির অনুপস্থিতি) উচ্চমানের গবেষণা, ডাউনস্ট্রিম অ্যাপ্লিকেশন এবং মডেল প্রশিক্ষণের জন্য অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠেছে। এই পেপারটি বৃহৎ আকারের ডেটাসেটে ডেটা নির্ভুলতা উন্নতির চ্যালেঞ্জ মোকাবেলা করে একটি একীভূত পুনরাবৃত্তিমূলক ডেটাসেট ক্রমাগত উন্নতি পদ্ধতি প্রস্তাব করে। গবেষণা তাত্ত্বিক গ্যারান্টি প্রদান করে যা প্রমাণ করে যে ডেটা নির্ভুলতা পরীক্ষা ত্রুটি হ্রাস ত্বরান্বিত করতে পারে এবং আরও গুরুত্বপূর্ণভাবে, প্রস্তাবিত পদ্ধতি ডেটায় সমস্ত ত্রুটি সম্ভাব্যতা ১ এ অ্যাসিম্পটোটিকভাবে দূর করবে। তাত্ত্বিক ফলাফলগুলি সিমুলেশন পরীক্ষা এবং বাস্তব-বিশ্বের ব্যবহারের ক্ষেত্রের মাধ্যমে যাচাই করা হয়েছে।
এই গবেষণার মূল সমস্যা হল: বৃহৎ আকারের ডেটাসেটে ডেটা নির্ভুলতা পদ্ধতিগতভাবে কীভাবে উন্নত করা যায়, বিশেষত যখন ডেটার আকার এত বড় যে ম্যানুয়াল সম্পাদনা অসম্ভব?
- ডেটা গুণমানের গুরুত্বপূর্ণতা: উচ্চমানের ডেটা মেশিন লার্নিং পূর্বাভাস, পরিসংখ্যানগত অনুমান, সিদ্ধান্ত গ্রহণ এবং নির্ভরযোগ্য পূর্বাভাস মডেল প্রশিক্ষণের জন্য অপরিহার্য
- বাস্তব চ্যালেঞ্জ: সাধারণভাবে ব্যবহৃত মেশিন লার্নিং ডেটাসেট যেমন Fashion MNIST, Common Crawl, Wikipedia কর্পাস ইত্যাদি সবই প্রচুর ত্রুটি ধারণ করে এবং নির্ভুলতা গ্যারান্টির অভাব রয়েছে
- স্কেল সীমাবদ্ধতা: ঐতিহ্যবাহী ম্যানুয়াল সম্পাদনা পদ্ধতি বৃহৎ আকারের ডেটাসেটে প্রয়োগযোগ্য নয়
- নিয়ম-ভিত্তিক অ্যালগরিদম: যদিও হাজার হাজার ত্রুটি সংশোধন করতে পারে, তবে নির্ভুলতা গ্যারান্টি নেই এবং সাধারণত উল্লেখযোগ্য ত্রুটির হার সহ আসে
- ক্রাউডসোর্সিং এবং বাহ্যিক ডেটা উৎস: একইভাবে উল্লেখযোগ্য ত্রুটির হার রয়েছে
- তাত্ত্বিক গ্যারান্টির অভাব: বিদ্যমান পদ্ধতিগুলি ত্রুটিমুক্ত ডেটাসেটে সংমিশ্রণের তাত্ত্বিক গ্যারান্টি প্রদান করতে পারে না
পেপারটির লক্ষ্য একটি স্কেলেবল ডেটা কিউরেশন ফ্রেমওয়ার্ক প্রতিষ্ঠা করা যা তাত্ত্বিক গ্যারান্টি সহ আসে এবং ন্যূনতম ম্যানুয়াল প্রচেষ্টায় উচ্চমানের পুনরাবৃত্তিমূলক আপডেট অর্জন করতে পারে।
- পুনরাবৃত্তিমূলক কিউরেশন ফ্রেমওয়ার্ক: বৃহৎ আকারের পাঠ্য এবং টেবিল ডেটাসেটের জন্য একটি কাঠামোগত স্কেলেবল ডেটা নির্ভুলতা উন্নতি প্রক্রিয়া প্রস্তাব করে
- তাত্ত্বিক গ্যারান্টি: ত্রুটিমুক্ত ডেটাসেটে অ্যাসিম্পটোটিক সংমিশ্রণ, ত্রুটির সূচকীয় হ্রাস এবং প্রতিটি ডেটা সংশোধনের সময় ত্রুটি হ্রাসের হারের প্রত্যাশিত গ্যারান্টি প্রমাণ করে
- পরীক্ষামূলক যাচাইকরণ: সিমুলেশন পরীক্ষা এবং সুইডিশ পার্লামেন্ট কর্পাসের বাস্তব কেস স্টাডির মাধ্যমে তাত্ত্বিক ফলাফলগুলি সমর্থন করে
- শব্দ সহনশীলতা: পদ্ধতির শব্দযুক্ত ওরাকেল (noisy oracle) এর প্রতি শক্তিশালীতা প্রমাণ করে
ইনপুট: ত্রুটি ধারণকারী প্রাথমিক ডেটাসেট S0∈Sআউটপুট: পুনরাবৃত্তিমূলক উন্নতির মাধ্যমে ত্রুটিমুক্ত হওয়ার দিকে প্রবণ ডেটাসেট অনুক্রম {St}উদ্দেশ্য: limt→∞P(Et=0)=1, যেখানে Et=d(S∗,St) হল ত্রুটির সংখ্যা
সম্পূর্ণ প্রক্রিয়ায় চারটি প্রধান পদক্ষেপ রয়েছে, যার মধ্যে শেষ তিনটি পুনরাবৃত্তিমূলকভাবে সম্পাদিত হয়:
পদক্ষেপ ১: প্রোটোটাইপ প্রতিষ্ঠা
- ন্যূনতম কার্যকর প্রোটোটাইপ ডেটাসেট তৈরি করা
- উপযুক্ত ডেটা ফর্ম্যাট S সংজ্ঞায়িত করা (মানব-পাঠযোগ্য এবং সহজে সম্প্রসারণযোগ্য)
- পুঙ্খানুপুঙ্খ ম্যানুয়াল পরীক্ষা এবং যাচাইকরণ পরিচালনা করা
পদক্ষেপ ২: সংশোধন প্রস্তাব তৈরি করা
- সংশোধন প্রস্তাব Rt+1∈S তৈরি করা
- দুটি ধরনের অন্তর্ভুক্ত: যোগ করা (ডেটা সম্প্রসারণ) এবং সংশোধন করা (ত্রুটি সংশোধন)
পদক্ষেপ ৩: প্রস্তাব গ্রহণ বা প্রত্যাখ্যান করা
- ৩.১ স্বয়ংক্রিয় ডেটা পরীক্ষা: ফর্ম্যাট যাচাইকরণ, বিষয়বস্তু যুক্তিসঙ্গততা পরীক্ষা
- ৩.২ সম্পাদনা নমুনা: সম্পাদনা সেট Δt=Δ(Rt+1,St) থেকে র্যান্ডমভাবে n টি সম্পাদনা নমুনা করা
- ওরাকেল যাচাইকরণ: নমুনা করা সম্পাদনার সঠিকতা ম্যানুয়ালি পরীক্ষা করা
- সিদ্ধান্ত নিয়ম: সঠিক সম্পাদনার সংখ্যা ≥m হলে প্রস্তাব গ্রহণ করা
পদক্ষেপ ৪: নতুন সংস্করণ প্রকাশ করা
- পরিবর্তনের ধরন চিহ্নিত করতে সিমান্টিক সংস্করণ নিয়ন্ত্রণ ব্যবহার করা (MAJOR/MINOR/PATCH)
ত্রুটির সংখ্যাকে র্যান্ডম পরিবেশে শাখা প্রক্রিয়া (BPRE) হিসাবে মডেল করা, যেখানে:
- p0,t=(1−rt)λt: ত্রুটি হ্রাসের সম্ভাবনা
- p1,t=1−λt: ত্রুটি অপরিবর্তিত থাকার সম্ভাবনা
- p2,t=rtλt: ত্রুটি বৃদ্ধির সম্ভাবনা
গ্রহণ থ্রেশহোল্ড (n,m) নিয়ন্ত্রণের মাধ্যমে নিশ্চিত করা:
Ert,λt[logE[ζ]∣M≥m]<0
এটি শাখা প্রক্রিয়ার সাব-সমালোচনামূলকতা নিশ্চিত করে, যার ফলে ত্রুটির সূচকীয় হ্রাস ঘটে।
দুটি প্রধান ডেটা ফর্ম্যাটের জন্য নির্দিষ্ট বাস্তবায়ন প্রদান করা:
- টেবিল ডেটা: হ্যামিং দূরত্ব ব্যবহার করা
- অনুক্রম ডেটা: যোগ-মুছে ফেলা সম্পাদনা দূরত্ব ব্যবহার করা
- সিমুলেশন ডেটা:
- সরাসরি ত্রুটির সংখ্যা Et সিমুলেট করা, ত্রুটির হার rt∼Beta(α,β)
- ১০ লক্ষ শব্দের ইংরেজি Wikipedia অনুক্রম, প্রাথমিকভাবে প্রায় ১০,০০০ ত্রুটি ধারণ করে
- বাস্তব ডেটা: সুইডিশ পার্লামেন্ট রেকর্ড কর্পাস
- ১৭,৯৩৮টি পার্লামেন্ট রেকর্ড (১৮৬৭-২০২৪)
- ৫০০ মিলিয়নেরও বেশি শব্দ, ParlaClarin XML ফর্ম্যাট
- ত্রুটির সংখ্যা Et=d(S∗,St): প্রকৃত ডেটার সাথে দূরত্ব
- সংমিশ্রণের হার: ত্রুটির সূচকীয় হ্রাসের গতি
- নির্দিষ্ট নির্ভুলতা মেট্রিক্স: সংসদ সদস্য ম্যাপিং ত্রুটি, অনুচ্ছেদ শ্রেণীবিভাগ ত্রুটি
- সিদ্ধান্ত নিয়ম সহ বনাম ছাড়া
- বিভিন্ন থ্রেশহোল্ড m/n এর তুলনা (০.৪, ০.৫, ০.৬ ইত্যাদি)
- প্রকৃত ওরাকেল বনাম শব্দযুক্ত ওরাকেল
- নমুনা আকার: n=10,50
- গ্রহণ থ্রেশহোল্ড: সাধারণত m/n≈0.5
- শব্দযুক্ত ওরাকেল: শব্দের হার ε=0.2
- সূচকীয় হ্রাস: লগ স্কেলে ত্রুটির সংখ্যায় রৈখিক হ্রাস পর্যবেক্ষণ করা হয়েছে
- থ্রেশহোল্ড প্রভাব: n=10 এ m/n=0.6 m/n=0.5 এর চেয়ে ভাল; n=50 এ বিপরীত
- সিদ্ধান্ত নিয়মের সুবিধা: এমনকি অত্যন্ত আশাবাদী rt∼Beta(1,4) (৯৪% প্রস্তাব ডেটা উন্নত করে) পরিস্থিতিতেও, সিদ্ধান্ত নিয়ম সংমিশ্রণ ত্বরান্বিত করতে পারে
- সিদ্ধান্ত নিয়ম সহ: Et সূচকীয়ভাবে হ্রাস পায় (গড় এবং কোয়ান্টাইল)
- সিদ্ধান্ত নিয়ম ছাড়া:
- rt∼Beta(1,1) এ গড় স্থির থাকে, বৈচিত্র্য বৃদ্ধি পায়
- rt∼Beta(5,3) এ Et সূচকীয়ভাবে বৃদ্ধি পায়
সুইডিশ পার্লামেন্ট ডেটার দুটি মূল সূচক ক্রমাগত উন্নতি প্রদর্শন করে:
- সংসদ সদস্য ম্যাপিং ত্রুটি: 103 পরিমাণ থেকে নিম্ন স্তরে হ্রাস পায়
- অনুচ্ছেদ শ্রেণীবিভাগ ত্রুটি: নিম্ন স্তরে থাকে বা ক্রমাগত হ্রাস পায়
স্বয়ংক্রিয় ডেটা পরীক্ষা সংমিশ্রণ ত্বরান্বিত করতে পারে তা প্রমাণ করে:
P(Et=0∣E0=E)<P(Et′=0∣E0′=E)
থ্রেশহোল্ড mnoisy=m/(1−ε) সামঞ্জস্য করে, শব্দযুক্ত ওরাকেল প্রকৃত ওরাকেলের সাথে অনুরূপ সংমিশ্রণ কর্মক্ষমতা অর্জন করে।
- থ্রেশহোল্ড অপ্টিমাইজেশন: সর্বোত্তম m মান n/2 এর দিকে প্রবণ হয় (n→∞ হলে)
- স্কেল প্রভাব: বৃহত্তর এবং আরও সঠিক সংশোধন ত্রুটি হ্রাস ত্বরান্বিত করে
- ব্যবহারিকতা: পদ্ধতি বাস্তব বৃহৎ আকারের ডেটাসেটে ভাল কর্মক্ষমতা প্রদর্শন করে
- ঐতিহ্যবাহী পদ্ধতি: নিয়ম-ভিত্তিক অ্যালগরিদম, নিয়মিত অভিব্যক্তি, মেশিন লার্নিং পদ্ধতি
- ক্রাউডসোর্সিং পদ্ধতি: অ-বিশেষজ্ঞ লেবেলার, বাহ্যিক ডেটা উৎস
- সীমাবদ্ধতা: নির্ভুলতা গ্যারান্টির অভাব, সাধারণত নতুন ত্রুটি প্রবর্তন করে
- শাখা প্রক্রিয়া তত্ত্ব: Smith এবং Wilkinson (১৯৬৯) এর র্যান্ডম পরিবেশ শাখা প্রক্রিয়া
- এই পেপারের উদ্ভাবন: প্রথমবারের মতো BPRE কে ডেটা কিউরেশন সমস্যায় প্রয়োগ করা এবং সংমিশ্রণ গ্যারান্টি প্রদান করা
- সংস্করণ নিয়ন্ত্রণ: git এর মতো প্রতিশ্রুতি এবং সংস্করণ ব্যবস্থাপনা
- সিমান্টিক সংস্করণ নিয়ন্ত্রণ: Preston-Werner (২০১৩) এর সংস্করণ চিহ্নিতকরণ পদ্ধতি
- তাত্ত্বিক গ্যারান্টি: উপযুক্ত শর্তাবলীতে, পুনরাবৃত্তিমূলক কিউরেশন প্রক্রিয়া সম্ভাব্যতা ১ এ ত্রুটিমুক্ত ডেটাসেটে সংমিশ্রিত হয়
- সূচকীয় সংমিশ্রণ: ত্রুটির সংখ্যা সূচকীয়ভাবে হ্রাস পায়, সংমিশ্রণের গতি সংশোধনের গুণমান এবং স্কেলের উপর নির্ভর করে
- ব্যবহারিকতা: পদ্ধতি বৃহৎ আকারের পাঠ্য এবং টেবিল ডেটার জন্য প্রযোজ্য, বাস্তব প্রকল্পে যাচাই করা হয়েছে
- অনুমানের শর্তাবলী:
- প্রকৃত ডেটা S∗ এর ধারণা বিদ্যমান থাকা প্রয়োজন
- সম্পাদনার সংযোজনযোগ্যতা প্রয়োজন (কিছু ডেটা ফর্ম্যাটের জন্য প্রযোজ্য নাও হতে পারে)
- অনুক্রম ডেটা অতিরিক্ত অনুমান প্রয়োজন যেমন কোনো পুনরাবৃত্ত উপাদান নেই
- ওরাকেল নির্ভরতা: শব্দের প্রতি শক্তিশালীতা প্রমাণ করা হয়েছে, তবুও ম্যানুয়াল যাচাইকরণ প্রয়োজন
- গণনামূলক জটিলতা: বৃহৎ আকারের ডেটাসেটে গণনামূলক খরচ বিস্তারিতভাবে বিশ্লেষণ করা হয়নি
- ডেটা ফর্ম্যাট সম্প্রসারণ: আরও জটিল ডেটা কাঠামোর প্রযোজ্যতা অধ্যয়ন করা (যেমন গ্রাফ ডেটা, মাল্টিমোডাল ডেটা)
- সক্রিয় শিক্ষা: সম্পাদনা নমুনা অপ্টিমাইজ করতে সক্রিয় শিক্ষা কৌশল একীভূত করা
- স্বয়ংক্রিয়করণের ডিগ্রি: ম্যানুয়াল ওরাকেলের উপর নির্ভরতা হ্রাস করা
- তাত্ত্বিক কঠোরতা: সম্পূর্ণ তাত্ত্বিক বিশ্লেষণ এবং প্রমাণ প্রদান করে, ডেটা কিউরেশন ক্ষেত্রে তাত্ত্বিক গ্যারান্টির শূন্যতা পূরণ করে
- ব্যবহারিক মূল্য: পদ্ধতি বৃহৎ আকারের বাস্তব প্রকল্পে প্রয়োগ করা হয়েছে এবং ভাল ফলাফল অর্জন করেছে
- সর্বজনীনতা: ফ্রেমওয়ার্ক একাধিক ডেটা ফর্ম্যাটের জন্য প্রযোজ্য (টেবিল, পাঠ্য)
- প্রকৌশল চিন্তাভাবনা: সফটওয়্যার ইঞ্জিনিয়ারিং সেরা অনুশীলন থেকে ধার করা, ভাল অপারেশনাল ক্ষমতা রয়েছে
- অনুমানের সীমাবদ্ধতা: কিছু অনুমান (যেমন অনুক্রম অনন্য উপাদান) বাস্তব অ্যাপ্লিকেশনে অত্যন্ত কঠোর হতে পারে
- ম্যানুয়াল খরচ: দক্ষতা উন্নত করা সত্ত্বেও, এখনও প্রচুর ম্যানুয়াল যাচাইকরণ কাজ প্রয়োজন
- সংমিশ্রণের গতি: যদিও তাত্ত্বিকভাবে সংমিশ্রণ গ্যারান্টিযুক্ত, বাস্তব সংমিশ্রণের গতি ধীর হতে পারে
- ত্রুটির ধরন: প্রধানত যাচাইযোগ্য উদ্দেশ্যমূলক ত্রুটিতে ফোকাস করে, বিষয়গত লেবেলিং সমস্যায় প্রযোজ্যতা সীমিত
- একাডেমিক অবদান: প্রথমবারের মতো ডেটা কিউরেশনের জন্য তাত্ত্বিক গ্যারান্টি প্রদান করে, নতুন গবেষণা দিকনির্দেশনা খুলে দিতে পারে
- ব্যবহারিক মূল্য: বৃহৎ আকারের ডেটা প্রকল্পের জন্য একটি পদ্ধতিগত গুণমান উন্নতি পদ্ধতি প্রদান করে
- পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ বাস্তবায়ন বিবরণ এবং পরিপূরক উপকরণ প্রদান করে
- বৃহৎ আকারের পাঠ্য কর্পাস: যেমন পার্লামেন্ট রেকর্ড, আইনি নথি, ঐতিহাসিক সংরক্ষণাগার
- টেবিল ডেটাবেস: ক্রমাগত রক্ষণাবেক্ষণ এবং উন্নতির প্রয়োজন এমন কাঠামোগত ডেটা
- মেশিন লার্নিং ডেটাসেট: উচ্চমানের লেবেলিং প্রয়োজন এমন প্রশিক্ষণ ডেটা
- দীর্ঘমেয়াদী ডেটা প্রকল্প: সংস্করণ নিয়ন্ত্রণ এবং গুণমান ট্র্যাকিং প্রয়োজন এমন ডেটাসেট
পেপারটি সমৃদ্ধ সম্পর্কিত সাহিত্য উদ্ধৃত করে, প্রধানত অন্তর্ভুক্ত:
- ডেটা গুণমান গবেষণা: Olson (২০০৩), Jain et al. (২০২০), Budach et al. (২০২২)
- শাখা প্রক্রিয়া তত্ত্ব: Smith এবং Wilkinson (১৯৬৯), Guivarc'h এবং Liu (२००१)
- বাস্তব ডেটাসেট: Common Crawl (२०२४), Wikipedia অবদানকারী (२०२३)
- সফটওয়্যার ইঞ্জিনিয়ারিং: Preston-Werner (२०१३), Torvalds et al. (२००५)
সামগ্রিক মূল্যায়ন: এটি একটি উচ্চমানের পেপার যা তত্ত্ব এবং অনুশীলনের সমন্বয় করে, ডেটা কিউরেশনের এই গুরুত্বপূর্ণ কিন্তু তাত্ত্বিক ভিত্তির অভাব রয়েছে এমন ক্ষেত্রে একটি কঠোর গাণিতিক কাঠামো প্রদান করে। যদিও কিছু অনুমানের সীমাবদ্ধতা রয়েছে, তবে এর তাত্ত্বিক অবদান এবং ব্যবহারিক মূল্য উভয়ই উল্লেখযোগ্য এবং সম্পর্কিত ক্ষেত্রে গুরুত্বপূর্ণ প্রচারমূলক ভূমিকা রয়েছে।