2025-11-14T02:49:11.540996

Iterative Data Curation with Theoretical Guarantees

Jonasson, Magnusson

In recent years, more and more large data sets have become available. Data accuracy, the absence of verifiable errors in data, is crucial for these large materials to enable high-quality research, downstream applications, and model training. This results in the problem of how to curate or improve data accuracy in such large and growing data, especially when the data is too large for manual curation to be feasible. This paper presents a unified procedure for iterative and continuous improvement of data sets. We provide theoretical guarantees that data accuracy tests speed up error reduction and, most importantly, that the proposed approach will, asymptotically, eliminate all errors in data with probability one. We corroborate the theoretical results with simulations and a real-world use case.

academic

सैद्धांतिक गारंटी के साथ पुनरावृत्तिमूलक डेटा क्यूरेशन

मूल जानकारी

पेपर ID: 2510.11428
शीर्षक: सैद्धांतिक गारंटी के साथ पुनरावृत्तिमूलक डेटा क्यूरेशन
लेखक: वैनो यर्जानैनन, जोहान जोनासन, मॉन्स मैग्नुसन
वर्गीकरण: stat.ME (सांख्यिकी - पद्धति)
प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.11428v1

सारांश

बड़े पैमाने पर डेटासेट के बढ़ते प्रचलन के साथ, डेटा सटीकता (अर्थात् डेटा में कोई सत्यापन योग्य त्रुटि नहीं) उच्च गुणवत्ता वाले अनुसंधान, डाउनस्ट्रीम अनुप्रयोगों और मॉडल प्रशिक्षण के लिए महत्वपूर्ण हो गई है। यह पेपर बड़े पैमाने पर डेटासेट में डेटा सटीकता सुधार की चुनौतियों के समाधान के लिए एक एकीकृत पुनरावृत्तिमूलक डेटासेट निरंतर सुधार प्रक्रिया प्रस्तावित करता है। अनुसंधान सैद्धांतिक गारंटी प्रदान करता है जो साबित करता है कि डेटा सटीकता परीक्षण त्रुटि में कमी को तेज कर सकता है, और अधिक महत्वपूर्ण रूप से, प्रस्तावित विधि स्पर्शोन्मुखी रूप से संभावना 1 के साथ डेटा में सभी त्रुटियों को समाप्त करेगी। सैद्धांतिक परिणामों को सिमुलेशन प्रयोगों और वास्तविक दुनिया के उपयोग मामलों के माध्यम से सत्यापित किया जाता है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: बड़े पैमाने पर डेटासेट में डेटा सटीकता को व्यवस्थित रूप से कैसे सुधारा जाए, विशेष रूप से जब डेटा का आकार इतना बड़ा हो कि मैनुअल क्यूरेशन संभव न हो।

समस्या की महत्ता

डेटा गुणवत्ता की महत्ता: उच्च गुणवत्ता वाला डेटा मशीन लर्निंग पूर्वानुमान, सांख्यिकीय अनुमान, निर्णय निर्माण और विश्वसनीय पूर्वानुमान मॉडल प्रशिक्षण के लिए महत्वपूर्ण है
वास्तविक चुनौतियाँ: आमतौर पर उपयोग किए जाने वाले मशीन लर्निंग डेटासेट जैसे Fashion MNIST, Common Crawl, Wikipedia कॉर्पस आदि में बड़ी संख्या में त्रुटियाँ होती हैं, जिनमें सटीकता की गारंटी नहीं होती
स्केल सीमा: पारंपरिक मैनुअल क्यूरेशन विधियाँ बड़े पैमाने पर डेटासेट पर व्यावहारिक नहीं हैं

मौजूदा विधियों की सीमाएँ

नियम-आधारित एल्गोरिदम: हालांकि हजारों त्रुटियों को एक साथ सुधार सकते हैं, लेकिन सटीकता की गारंटी नहीं देते, आमतौर पर अनदेखी की जा सकने वाली त्रुटि दर के साथ आते हैं
क्राउडसोर्सिंग और बाहरी डेटा स्रोत: समान रूप से अनदेखी की जा सकने वाली त्रुटि दर से ग्रस्त हैं
सैद्धांतिक गारंटी की कमी: मौजूदा विधियाँ त्रुटि-मुक्त डेटासेट में अभिसरण की सैद्धांतिक गारंटी प्रदान नहीं कर सकती हैं

अनुसंधान प्रेरणा

पेपर का उद्देश्य एक ऐसी स्केलेबल डेटा क्यूरेशन फ्रेमवर्क स्थापित करना है जिसमें सैद्धांतिक गारंटी हो और न्यूनतम मानव प्रयास के साथ उच्च गुणवत्ता वाले पुनरावृत्तिमूलक अपडेट प्राप्त कर सके।

मुख्य योगदान

पुनरावृत्तिमूलक क्यूरेशन फ्रेमवर्क: बड़े पैमाने पर पाठ और तालिका डेटासेट के लिए एक संरचित स्केलेबल डेटा सटीकता सुधार प्रक्रिया प्रस्तावित करता है
सैद्धांतिक गारंटी: त्रुटि-मुक्त डेटासेट में स्पर्शोन्मुखी अभिसरण, त्रुटियों के घातीय क्षय, और प्रत्येक डेटा संशोधन के समय त्रुटि में कमी की दर की अपेक्षा गारंटी साबित करता है
प्रायोगिक सत्यापन: सिमुलेशन प्रयोगों और स्वीडिश संसद कॉर्पस के वास्तविक केस अध्ययन के माध्यम से सैद्धांतिक परिणामों का समर्थन करता है
शोर सहनशीलता: विधि के शोरयुक्त ओरेकल (noisy oracle) के प्रति दृढ़ता साबित करता है

विधि विवरण

कार्य परिभाषा

इनपुट: त्रुटियों वाला प्रारंभिक डेटासेट $S_0 \in S$ आउटपुट: पुनरावृत्तिमूलक सुधार के बाद त्रुटि-मुक्त की ओर प्रवृत्त डेटासेट अनुक्रम $\{S_t\}$ उद्देश्य: $\lim_{t \to \infty} P(E_t = 0) = 1$ , जहाँ $E_t = d(S^*, S_t)$ त्रुटियों की संख्या है

मॉडल आर्किटेक्चर

पुनरावृत्तिमूलक क्यूरेशन प्रक्रिया

संपूर्ण प्रक्रिया में चार मुख्य चरण होते हैं, जिनमें से अंतिम तीन चरण पुनरावृत्त होते हैं:

चरण 1: प्रोटोटाइप स्थापना

न्यूनतम व्यावहारिक प्रोटोटाइप डेटासेट बनाएँ
उपयुक्त डेटा प्रारूप $S$ परिभाषित करें (मानव-पठनीय और आसानी से विस्तारित)
पूर्ण मैनुअल जाँच और सत्यापन करें

चरण 2: संशोधन प्रस्ताव बनाएँ

संशोधन प्रस्ताव $R_{t+1} \in S$ उत्पन्न करें
दो प्रकार शामिल हैं: जोड़ना (डेटा विस्तार) और सुधारना (त्रुटि सुधार)

चरण 3: प्रस्ताव स्वीकार या अस्वीकार करें

3.1 स्वचालित डेटा परीक्षण: प्रारूप सत्यापन, सामग्री तर्कसंगतता जाँच
3.2 संपादन नमूनाकरण: संपादन सेट $\Delta_t = \Delta(R_{t+1}, S_t)$ से यादृच्छिक रूप से $n$ संपादन नमूना करें
ओरेकल सत्यापन: नमूना किए गए संपादनों की सही्ता की मैनुअल जाँच करें
निर्णय नियम: जब सही संपादनों की संख्या $\geq m$ हो तो प्रस्ताव स्वीकार करें

चरण 4: नया संस्करण प्रकाशित करें

परिवर्तन प्रकार को चिह्नित करने के लिए सिमेंटिक संस्करण नियंत्रण का उपयोग करें (MAJOR/MINOR/PATCH)

तकनीकी नवाचार

1. शाखा प्रक्रिया मॉडलिंग

त्रुटि संख्या को यादृच्छिक वातावरण में शाखा प्रक्रिया (BPRE) के रूप में मॉडल करें, जहाँ:

$p_{0,t} = (1-r_t)\lambda_t$ : त्रुटि में कमी की संभावना
$p_{1,t} = 1-\lambda_t$ : त्रुटि अपरिवर्तित रहने की संभावना
$p_{2,t} = r_t\lambda_t$ : त्रुटि में वृद्धि की संभावना

2. सैद्धांतिक गारंटी तंत्र

स्वीकृति सीमा $(n,m)$ को नियंत्रित करके सुनिश्चित करें: $E_{r_t,\lambda_t}[\log E[\zeta] | M \geq m] < 0$

यह शाखा प्रक्रिया की उप-महत्वपूर्ण प्रकृति सुनिश्चित करता है, जिससे त्रुटियों का घातीय क्षय प्राप्त होता है।

3. डेटा प्रारूप अनुकूलन

दो मुख्य डेटा प्रारूपों के लिए विशिष्ट कार्यान्वयन प्रदान करें:

तालिका डेटा: हैमिंग दूरी का उपयोग करें
अनुक्रम डेटा: जोड़-हटाना संपादन दूरी का उपयोग करें

प्रायोगिक सेटअप

डेटासेट

सिमुलेशन डेटा:
- त्रुटि संख्या $E_t$ को सीधे सिमुलेट करें, त्रुटि दर $r_t \sim \text{Beta}(\alpha, \beta)$
- 10 लाख शब्दों का अंग्रेजी Wikipedia अनुक्रम, प्रारंभिक रूप से लगभग 10,000 त्रुटियाँ
वास्तविक डेटा: स्वीडिश संसद रिकॉर्ड कॉर्पस
- 17,938 संसद रिकॉर्ड (1867-2024)
- 50 करोड़ से अधिक शब्द, ParlaClarin XML प्रारूप

मूल्यांकन मेट्रिक्स

त्रुटि संख्या $E_t = d(S^*, S_t)$ : वास्तविक डेटा के साथ दूरी
अभिसरण दर: त्रुटि घातीय क्षय की गति
विशिष्ट सटीकता मेट्रिक्स: सांसद मैपिंग त्रुटि, अनुच्छेद वर्गीकरण त्रुटि

तुलनात्मक विधियाँ

निर्णय नियम के साथ बनाम बिना
विभिन्न सीमा $m/n$ की तुलना (0.4, 0.5, 0.6 आदि)
वास्तविक ओरेकल बनाम शोरयुक्त ओरेकल

कार्यान्वयन विवरण

नमूना आकार: $n = 10, 50$
स्वीकृति सीमा: आमतौर पर $m/n \approx 0.5$
शोरयुक्त ओरेकल: शोर दर $\varepsilon = 0.2$

प्रायोगिक परिणाम

मुख्य परिणाम

1. अभिसरण सत्यापन

घातीय क्षय: लॉग स्केल पर त्रुटि संख्या में रैखिक कमी देखी गई
सीमा प्रभाव: $n=10$ पर $m/n = 0.6$ बेहतर है; $n=50$ पर विपरीत
निर्णय नियम लाभ: यहाँ तक कि अत्यधिक आशावादी $r_t \sim \text{Beta}(1,4)$ (94% प्रस्ताव डेटा में सुधार) परिस्थिति में भी, निर्णय नियम अभिसरण को तेज करता है

2. पाठ डेटा सिमुलेशन

निर्णय नियम के साथ: $E_t$ घातीय रूप से घटता है (माध्य और मात्रा)
निर्णय नियम के बिना:
- $r_t \sim \text{Beta}(1,1)$ पर माध्य स्थिर रहता है, विचरण बढ़ता है
- $r_t \sim \text{Beta}(5,3)$ पर $E_t$ घातीय रूप से बढ़ता है

3. वास्तविक केस परिणाम

स्वीडिश संसद डेटा के दोनों मुख्य संकेतक निरंतर सुधार दिखाते हैं:

सांसद मैपिंग त्रुटि: $10^3$ परिमाण से कम स्तर तक कम हुई
अनुच्छेद वर्गीकरण त्रुटि: कम स्तर पर बनी रही या जारी रही कमी

विलोपन प्रयोग

स्वचालित परीक्षण का प्रभाव (प्रमेय 3.8)

साबित किया कि स्वचालित डेटा परीक्षण अभिसरण को तेज करता है: $P(E_t = 0 | E_0 = E) < P(E'_t = 0 | E'_0 = E)$

शोरयुक्त ओरेकल की दृढ़ता (प्रमेय 3.4)

सीमा $m_{noisy} = m/(1-\varepsilon)$ को समायोजित करके, शोरयुक्त ओरेकल वास्तविक ओरेकल के समान अभिसरण प्रदर्शन प्राप्त करता है।

प्रायोगिक निष्कर्ष

सीमा अनुकूलन: इष्टतम $m$ मान $n/2$ की ओर प्रवृत्त होता है (जब $n \to \infty$ )
स्केल प्रभाव: बड़े और अधिक सटीक संशोधन त्रुटि क्षय को तेज करते हैं
व्यावहारिकता: विधि वास्तविक बड़े पैमाने पर डेटासेट पर अच्छा प्रदर्शन करती है

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सैद्धांतिक गारंटी: उपयुक्त शर्तों के तहत, पुनरावृत्तिमूलक क्यूरेशन प्रक्रिया संभावना 1 के साथ त्रुटि-मुक्त डेटासेट में अभिसरित होती है
घातीय अभिसरण: त्रुटि संख्या घातीय रूप से घटती है, अभिसरण गति संशोधन गुणवत्ता और पैमाने पर निर्भर करती है
व्यावहारिकता: विधि बड़े पैमाने पर पाठ और तालिका डेटा पर लागू होती है, वास्तविक परियोजनाओं में सत्यापित की गई है

सीमाएँ

धारणा शर्तें:
- वास्तविक डेटा $S^*$ की अवधारणा का अस्तित्व आवश्यक है
- संपादनों की योजकता की आवश्यकता (कुछ डेटा प्रारूपों के लिए लागू नहीं हो सकती)
- अनुक्रम डेटा को अतिरिक्त धारणाएँ पूरी करनी चाहिए जैसे कोई दोहराए गए तत्व नहीं
ओरेकल निर्भरता: हालांकि शोर के प्रति दृढ़ता साबित की गई है, फिर भी मैनुअल सत्यापन की आवश्यकता है
कम्प्यूटेशनल जटिलता: बड़े पैमाने पर डेटासेट पर कम्प्यूटेशनल ओवरहेड का विस्तृत विश्लेषण नहीं किया गया

भविष्य की दिशाएँ

डेटा प्रारूप विस्तार: अधिक जटिल डेटा संरचनाओं (जैसे ग्राफ डेटा, मल्टीमॉडल डेटा) पर लागूता का अनुसंधान
सक्रिय शिक्षण: संपादन नमूनाकरण को अनुकूलित करने के लिए सक्रिय शिक्षण रणनीति को एकीकृत करना
स्वचालन की डिग्री: मैनुअल ओरेकल पर निर्भरता को कम करना

गहन मूल्यांकन

शक्तियाँ

सैद्धांतिक कठोरता: पूर्ण सैद्धांतिक विश्लेषण और प्रमाण प्रदान करता है, डेटा क्यूरेशन क्षेत्र में सैद्धांतिक गारंटी की खाई को भरता है
व्यावहारिक मूल्य: विधि बड़े पैमाने पर वास्तविक परियोजनाओं में लागू की गई है और अच्छे परिणाम प्राप्त किए हैं
सामान्यता: फ्रेमवर्क कई डेटा प्रारूपों (तालिका, पाठ) पर लागू होता है
इंजीनियरिंग सोच: सॉफ्टवेयर इंजीनियरिंग सर्वोत्तम प्रथाओं से प्रेरणा लेता है, अच्छी व्यावहारिकता है

कमियाँ

धारणा सीमाएँ: कुछ धारणाएँ (जैसे अनुक्रम में कोई दोहराए गए तत्व नहीं) वास्तविक अनुप्रयोगों में बहुत कठोर हो सकती हैं
मानव लागत: हालांकि दक्षता में सुधार होता है, फिर भी बड़ी मात्रा में मैनुअल सत्यापन कार्य की आवश्यकता होती है
अभिसरण गति: हालांकि सैद्धांतिक रूप से अभिसरण की गारंटी है, वास्तविक अभिसरण गति धीमी हो सकती है
त्रुटि प्रकार: मुख्य रूप से सत्यापन योग्य उद्देश्य त्रुटियों पर ध्यान केंद्रित करता है, व्यक्तिपरक एनोटेशन समस्याओं पर सीमित लागूता

प्रभाव

शैक्षणिक योगदान: पहली बार डेटा क्यूरेशन के लिए सैद्धांतिक गारंटी प्रदान करता है, नई अनुसंधान दिशा खोल सकता है
व्यावहारिक मूल्य: बड़े पैमाने पर डेटा परियोजनाओं के लिए एक व्यवस्थित गुणवत्ता सुधार विधि प्रदान करता है
पुनरुत्पादनीयता: पूर्ण कार्यान्वयन विवरण और पूरक सामग्री प्रदान करता है

लागू परिस्थितियाँ

बड़े पैमाने पर पाठ कॉर्पस: जैसे संसद रिकॉर्ड, कानूनी दस्तावेज, ऐतिहासिक अभिलेख
तालिका डेटाबेस: निरंतर रखरखाव और सुधार की आवश्यकता वाले संरचित डेटा
मशीन लर्निंग डेटासेट: उच्च गुणवत्ता वाली एनोटेशन की आवश्यकता वाले प्रशिक्षण डेटा
दीर्घकालीन डेटा परियोजनाएँ: संस्करण नियंत्रण और गुणवत्ता ट्रैकिंग की आवश्यकता वाले डेटासेट

संदर्भ

पेपर समृद्ध संबंधित साहित्य का हवाला देता है, मुख्य रूप से:

डेटा गुणवत्ता अनुसंधान: Olson (2003), Jain et al. (2020), Budach et al. (2022)
शाखा प्रक्रिया सिद्धांत: Smith और Wilkinson (1969), Guivarc'h और Liu (2001)
वास्तविक डेटासेट: Common Crawl (2024), Wikipedia contributors (2023)
सॉफ्टवेयर इंजीनियरिंग: Preston-Werner (2013), Torvalds et al. (2005)

समग्र मूल्यांकन: यह एक उच्च गुणवत्ता वाला पेपर है जो सिद्धांत और व्यवहार दोनों को संतुलित करता है। यह डेटा क्यूरेशन के महत्वपूर्ण लेकिन सैद्धांतिक आधार की कमी वाले क्षेत्र के लिए एक कठोर गणितीय ढाँचा प्रदान करता है। हालांकि कुछ धारणा सीमाएँ हैं, लेकिन इसके सैद्धांतिक योगदान और व्यावहारिक मूल्य दोनों महत्वपूर्ण हैं, और यह संबंधित क्षेत्रों के विकास में महत्वपूर्ण भूमिका निभाता है।