In recent years, more and more large data sets have become available. Data accuracy, the absence of verifiable errors in data, is crucial for these large materials to enable high-quality research, downstream applications, and model training. This results in the problem of how to curate or improve data accuracy in such large and growing data, especially when the data is too large for manual curation to be feasible. This paper presents a unified procedure for iterative and continuous improvement of data sets. We provide theoretical guarantees that data accuracy tests speed up error reduction and, most importantly, that the proposed approach will, asymptotically, eliminate all errors in data with probability one. We corroborate the theoretical results with simulations and a real-world use case.
- पेपर ID: 2510.11428
- शीर्षक: सैद्धांतिक गारंटी के साथ पुनरावृत्तिमूलक डेटा क्यूरेशन
- लेखक: वैनो यर्जानैनन, जोहान जोनासन, मॉन्स मैग्नुसन
- वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
- प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.11428v1
बड़े पैमाने पर डेटासेट के बढ़ते प्रचलन के साथ, डेटा सटीकता (अर्थात् डेटा में कोई सत्यापन योग्य त्रुटि नहीं) उच्च गुणवत्ता वाले अनुसंधान, डाउनस्ट्रीम अनुप्रयोगों और मॉडल प्रशिक्षण के लिए महत्वपूर्ण हो गई है। यह पेपर बड़े पैमाने पर डेटासेट में डेटा सटीकता सुधार की चुनौतियों के समाधान के लिए एक एकीकृत पुनरावृत्तिमूलक डेटासेट निरंतर सुधार प्रक्रिया प्रस्तावित करता है। अनुसंधान सैद्धांतिक गारंटी प्रदान करता है जो साबित करता है कि डेटा सटीकता परीक्षण त्रुटि में कमी को तेज कर सकता है, और अधिक महत्वपूर्ण रूप से, प्रस्तावित विधि स्पर्शोन्मुखी रूप से संभावना 1 के साथ डेटा में सभी त्रुटियों को समाप्त करेगी। सैद्धांतिक परिणामों को सिमुलेशन प्रयोगों और वास्तविक दुनिया के उपयोग मामलों के माध्यम से सत्यापित किया जाता है।
इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: बड़े पैमाने पर डेटासेट में डेटा सटीकता को व्यवस्थित रूप से कैसे सुधारा जाए, विशेष रूप से जब डेटा का आकार इतना बड़ा हो कि मैनुअल क्यूरेशन संभव न हो।
- डेटा गुणवत्ता की महत्ता: उच्च गुणवत्ता वाला डेटा मशीन लर्निंग पूर्वानुमान, सांख्यिकीय अनुमान, निर्णय निर्माण और विश्वसनीय पूर्वानुमान मॉडल प्रशिक्षण के लिए महत्वपूर्ण है
- वास्तविक चुनौतियाँ: आमतौर पर उपयोग किए जाने वाले मशीन लर्निंग डेटासेट जैसे Fashion MNIST, Common Crawl, Wikipedia कॉर्पस आदि में बड़ी संख्या में त्रुटियाँ होती हैं, जिनमें सटीकता की गारंटी नहीं होती
- स्केल सीमा: पारंपरिक मैनुअल क्यूरेशन विधियाँ बड़े पैमाने पर डेटासेट पर व्यावहारिक नहीं हैं
- नियम-आधारित एल्गोरिदम: हालांकि हजारों त्रुटियों को एक साथ सुधार सकते हैं, लेकिन सटीकता की गारंटी नहीं देते, आमतौर पर अनदेखी की जा सकने वाली त्रुटि दर के साथ आते हैं
- क्राउडसोर्सिंग और बाहरी डेटा स्रोत: समान रूप से अनदेखी की जा सकने वाली त्रुटि दर से ग्रस्त हैं
- सैद्धांतिक गारंटी की कमी: मौजूदा विधियाँ त्रुटि-मुक्त डेटासेट में अभिसरण की सैद्धांतिक गारंटी प्रदान नहीं कर सकती हैं
पेपर का उद्देश्य एक ऐसी स्केलेबल डेटा क्यूरेशन फ्रेमवर्क स्थापित करना है जिसमें सैद्धांतिक गारंटी हो और न्यूनतम मानव प्रयास के साथ उच्च गुणवत्ता वाले पुनरावृत्तिमूलक अपडेट प्राप्त कर सके।
- पुनरावृत्तिमूलक क्यूरेशन फ्रेमवर्क: बड़े पैमाने पर पाठ और तालिका डेटासेट के लिए एक संरचित स्केलेबल डेटा सटीकता सुधार प्रक्रिया प्रस्तावित करता है
- सैद्धांतिक गारंटी: त्रुटि-मुक्त डेटासेट में स्पर्शोन्मुखी अभिसरण, त्रुटियों के घातीय क्षय, और प्रत्येक डेटा संशोधन के समय त्रुटि में कमी की दर की अपेक्षा गारंटी साबित करता है
- प्रायोगिक सत्यापन: सिमुलेशन प्रयोगों और स्वीडिश संसद कॉर्पस के वास्तविक केस अध्ययन के माध्यम से सैद्धांतिक परिणामों का समर्थन करता है
- शोर सहनशीलता: विधि के शोरयुक्त ओरेकल (noisy oracle) के प्रति दृढ़ता साबित करता है
इनपुट: त्रुटियों वाला प्रारंभिक डेटासेट S0∈Sआउटपुट: पुनरावृत्तिमूलक सुधार के बाद त्रुटि-मुक्त की ओर प्रवृत्त डेटासेट अनुक्रम {St}उद्देश्य: limt→∞P(Et=0)=1, जहाँ Et=d(S∗,St) त्रुटियों की संख्या है
संपूर्ण प्रक्रिया में चार मुख्य चरण होते हैं, जिनमें से अंतिम तीन चरण पुनरावृत्त होते हैं:
चरण 1: प्रोटोटाइप स्थापना
- न्यूनतम व्यावहारिक प्रोटोटाइप डेटासेट बनाएँ
- उपयुक्त डेटा प्रारूप S परिभाषित करें (मानव-पठनीय और आसानी से विस्तारित)
- पूर्ण मैनुअल जाँच और सत्यापन करें
चरण 2: संशोधन प्रस्ताव बनाएँ
- संशोधन प्रस्ताव Rt+1∈S उत्पन्न करें
- दो प्रकार शामिल हैं: जोड़ना (डेटा विस्तार) और सुधारना (त्रुटि सुधार)
चरण 3: प्रस्ताव स्वीकार या अस्वीकार करें
- 3.1 स्वचालित डेटा परीक्षण: प्रारूप सत्यापन, सामग्री तर्कसंगतता जाँच
- 3.2 संपादन नमूनाकरण: संपादन सेट Δt=Δ(Rt+1,St) से यादृच्छिक रूप से n संपादन नमूना करें
- ओरेकल सत्यापन: नमूना किए गए संपादनों की सही्ता की मैनुअल जाँच करें
- निर्णय नियम: जब सही संपादनों की संख्या ≥m हो तो प्रस्ताव स्वीकार करें
चरण 4: नया संस्करण प्रकाशित करें
- परिवर्तन प्रकार को चिह्नित करने के लिए सिमेंटिक संस्करण नियंत्रण का उपयोग करें (MAJOR/MINOR/PATCH)
त्रुटि संख्या को यादृच्छिक वातावरण में शाखा प्रक्रिया (BPRE) के रूप में मॉडल करें, जहाँ:
- p0,t=(1−rt)λt: त्रुटि में कमी की संभावना
- p1,t=1−λt: त्रुटि अपरिवर्तित रहने की संभावना
- p2,t=rtλt: त्रुटि में वृद्धि की संभावना
स्वीकृति सीमा (n,m) को नियंत्रित करके सुनिश्चित करें:
Ert,λt[logE[ζ]∣M≥m]<0
यह शाखा प्रक्रिया की उप-महत्वपूर्ण प्रकृति सुनिश्चित करता है, जिससे त्रुटियों का घातीय क्षय प्राप्त होता है।
दो मुख्य डेटा प्रारूपों के लिए विशिष्ट कार्यान्वयन प्रदान करें:
- तालिका डेटा: हैमिंग दूरी का उपयोग करें
- अनुक्रम डेटा: जोड़-हटाना संपादन दूरी का उपयोग करें
- सिमुलेशन डेटा:
- त्रुटि संख्या Et को सीधे सिमुलेट करें, त्रुटि दर rt∼Beta(α,β)
- 10 लाख शब्दों का अंग्रेजी Wikipedia अनुक्रम, प्रारंभिक रूप से लगभग 10,000 त्रुटियाँ
- वास्तविक डेटा: स्वीडिश संसद रिकॉर्ड कॉर्पस
- 17,938 संसद रिकॉर्ड (1867-2024)
- 50 करोड़ से अधिक शब्द, ParlaClarin XML प्रारूप
- त्रुटि संख्या Et=d(S∗,St): वास्तविक डेटा के साथ दूरी
- अभिसरण दर: त्रुटि घातीय क्षय की गति
- विशिष्ट सटीकता मेट्रिक्स: सांसद मैपिंग त्रुटि, अनुच्छेद वर्गीकरण त्रुटि
- निर्णय नियम के साथ बनाम बिना
- विभिन्न सीमा m/n की तुलना (0.4, 0.5, 0.6 आदि)
- वास्तविक ओरेकल बनाम शोरयुक्त ओरेकल
- नमूना आकार: n=10,50
- स्वीकृति सीमा: आमतौर पर m/n≈0.5
- शोरयुक्त ओरेकल: शोर दर ε=0.2
- घातीय क्षय: लॉग स्केल पर त्रुटि संख्या में रैखिक कमी देखी गई
- सीमा प्रभाव: n=10 पर m/n=0.6 बेहतर है; n=50 पर विपरीत
- निर्णय नियम लाभ: यहाँ तक कि अत्यधिक आशावादी rt∼Beta(1,4) (94% प्रस्ताव डेटा में सुधार) परिस्थिति में भी, निर्णय नियम अभिसरण को तेज करता है
- निर्णय नियम के साथ: Et घातीय रूप से घटता है (माध्य और मात्रा)
- निर्णय नियम के बिना:
- rt∼Beta(1,1) पर माध्य स्थिर रहता है, विचरण बढ़ता है
- rt∼Beta(5,3) पर Et घातीय रूप से बढ़ता है
स्वीडिश संसद डेटा के दोनों मुख्य संकेतक निरंतर सुधार दिखाते हैं:
- सांसद मैपिंग त्रुटि: 103 परिमाण से कम स्तर तक कम हुई
- अनुच्छेद वर्गीकरण त्रुटि: कम स्तर पर बनी रही या जारी रही कमी
साबित किया कि स्वचालित डेटा परीक्षण अभिसरण को तेज करता है:
P(Et=0∣E0=E)<P(Et′=0∣E0′=E)
सीमा mnoisy=m/(1−ε) को समायोजित करके, शोरयुक्त ओरेकल वास्तविक ओरेकल के समान अभिसरण प्रदर्शन प्राप्त करता है।
- सीमा अनुकूलन: इष्टतम m मान n/2 की ओर प्रवृत्त होता है (जब n→∞)
- स्केल प्रभाव: बड़े और अधिक सटीक संशोधन त्रुटि क्षय को तेज करते हैं
- व्यावहारिकता: विधि वास्तविक बड़े पैमाने पर डेटासेट पर अच्छा प्रदर्शन करती है
- पारंपरिक विधियाँ: नियम-आधारित एल्गोरिदम, नियमित अभिव्यक्तियाँ, मशीन लर्निंग विधियाँ
- क्राउडसोर्सिंग विधियाँ: गैर-विशेषज्ञ एनोटेटर, बाहरी डेटा स्रोत
- सीमाएँ: सटीकता की गारंटी की कमी, आमतौर पर नई त्रुटियाँ पेश करते हैं
- शाखा प्रक्रिया सिद्धांत: Smith और Wilkinson (1969) की यादृच्छिक वातावरण शाखा प्रक्रिया
- इस पेपर का नवाचार: पहली बार BPRE को डेटा क्यूरेशन समस्या पर लागू करना और अभिसरण गारंटी प्रदान करना
- संस्करण नियंत्रण: git जैसी प्रतिबद्धता और संस्करण प्रबंधन
- सिमेंटिक संस्करण नियंत्रण: Preston-Werner (2013) की संस्करण टैगिंग विधि
- सैद्धांतिक गारंटी: उपयुक्त शर्तों के तहत, पुनरावृत्तिमूलक क्यूरेशन प्रक्रिया संभावना 1 के साथ त्रुटि-मुक्त डेटासेट में अभिसरित होती है
- घातीय अभिसरण: त्रुटि संख्या घातीय रूप से घटती है, अभिसरण गति संशोधन गुणवत्ता और पैमाने पर निर्भर करती है
- व्यावहारिकता: विधि बड़े पैमाने पर पाठ और तालिका डेटा पर लागू होती है, वास्तविक परियोजनाओं में सत्यापित की गई है
- धारणा शर्तें:
- वास्तविक डेटा S∗ की अवधारणा का अस्तित्व आवश्यक है
- संपादनों की योजकता की आवश्यकता (कुछ डेटा प्रारूपों के लिए लागू नहीं हो सकती)
- अनुक्रम डेटा को अतिरिक्त धारणाएँ पूरी करनी चाहिए जैसे कोई दोहराए गए तत्व नहीं
- ओरेकल निर्भरता: हालांकि शोर के प्रति दृढ़ता साबित की गई है, फिर भी मैनुअल सत्यापन की आवश्यकता है
- कम्प्यूटेशनल जटिलता: बड़े पैमाने पर डेटासेट पर कम्प्यूटेशनल ओवरहेड का विस्तृत विश्लेषण नहीं किया गया
- डेटा प्रारूप विस्तार: अधिक जटिल डेटा संरचनाओं (जैसे ग्राफ डेटा, मल्टीमॉडल डेटा) पर लागूता का अनुसंधान
- सक्रिय शिक्षण: संपादन नमूनाकरण को अनुकूलित करने के लिए सक्रिय शिक्षण रणनीति को एकीकृत करना
- स्वचालन की डिग्री: मैनुअल ओरेकल पर निर्भरता को कम करना
- सैद्धांतिक कठोरता: पूर्ण सैद्धांतिक विश्लेषण और प्रमाण प्रदान करता है, डेटा क्यूरेशन क्षेत्र में सैद्धांतिक गारंटी की खाई को भरता है
- व्यावहारिक मूल्य: विधि बड़े पैमाने पर वास्तविक परियोजनाओं में लागू की गई है और अच्छे परिणाम प्राप्त किए हैं
- सामान्यता: फ्रेमवर्क कई डेटा प्रारूपों (तालिका, पाठ) पर लागू होता है
- इंजीनियरिंग सोच: सॉफ्टवेयर इंजीनियरिंग सर्वोत्तम प्रथाओं से प्रेरणा लेता है, अच्छी व्यावहारिकता है
- धारणा सीमाएँ: कुछ धारणाएँ (जैसे अनुक्रम में कोई दोहराए गए तत्व नहीं) वास्तविक अनुप्रयोगों में बहुत कठोर हो सकती हैं
- मानव लागत: हालांकि दक्षता में सुधार होता है, फिर भी बड़ी मात्रा में मैनुअल सत्यापन कार्य की आवश्यकता होती है
- अभिसरण गति: हालांकि सैद्धांतिक रूप से अभिसरण की गारंटी है, वास्तविक अभिसरण गति धीमी हो सकती है
- त्रुटि प्रकार: मुख्य रूप से सत्यापन योग्य उद्देश्य त्रुटियों पर ध्यान केंद्रित करता है, व्यक्तिपरक एनोटेशन समस्याओं पर सीमित लागूता
- शैक्षणिक योगदान: पहली बार डेटा क्यूरेशन के लिए सैद्धांतिक गारंटी प्रदान करता है, नई अनुसंधान दिशा खोल सकता है
- व्यावहारिक मूल्य: बड़े पैमाने पर डेटा परियोजनाओं के लिए एक व्यवस्थित गुणवत्ता सुधार विधि प्रदान करता है
- पुनरुत्पादनीयता: पूर्ण कार्यान्वयन विवरण और पूरक सामग्री प्रदान करता है
- बड़े पैमाने पर पाठ कॉर्पस: जैसे संसद रिकॉर्ड, कानूनी दस्तावेज, ऐतिहासिक अभिलेख
- तालिका डेटाबेस: निरंतर रखरखाव और सुधार की आवश्यकता वाले संरचित डेटा
- मशीन लर्निंग डेटासेट: उच्च गुणवत्ता वाली एनोटेशन की आवश्यकता वाले प्रशिक्षण डेटा
- दीर्घकालीन डेटा परियोजनाएँ: संस्करण नियंत्रण और गुणवत्ता ट्रैकिंग की आवश्यकता वाले डेटासेट
पेपर समृद्ध संबंधित साहित्य का हवाला देता है, मुख्य रूप से:
- डेटा गुणवत्ता अनुसंधान: Olson (2003), Jain et al. (2020), Budach et al. (2022)
- शाखा प्रक्रिया सिद्धांत: Smith और Wilkinson (1969), Guivarc'h और Liu (2001)
- वास्तविक डेटासेट: Common Crawl (2024), Wikipedia contributors (2023)
- सॉफ्टवेयर इंजीनियरिंग: Preston-Werner (2013), Torvalds et al. (2005)
समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला पेपर है जो सिद्धांत और व्यवहार दोनों को संतुलित करता है। यह डेटा क्यूरेशन के महत्वपूर्ण लेकिन सैद्धांतिक आधार की कमी वाले क्षेत्र के लिए एक कठोर गणितीय ढाँचा प्रदान करता है। हालांकि कुछ धारणा सीमाएँ हैं, लेकिन इसके सैद्धांतिक योगदान और व्यावहारिक मूल्य दोनों महत्वपूर्ण हैं, और यह संबंधित क्षेत्रों के विकास में महत्वपूर्ण भूमिका निभाता है।