2025-11-14T02:49:11.540996

Iterative Data Curation with Theoretical Guarantees

Jonasson, Magnusson

In recent years, more and more large data sets have become available. Data accuracy, the absence of verifiable errors in data, is crucial for these large materials to enable high-quality research, downstream applications, and model training. This results in the problem of how to curate or improve data accuracy in such large and growing data, especially when the data is too large for manual curation to be feasible. This paper presents a unified procedure for iterative and continuous improvement of data sets. We provide theoretical guarantees that data accuracy tests speed up error reduction and, most importantly, that the proposed approach will, asymptotically, eliminate all errors in data with probability one. We corroborate the theoretical results with simulations and a real-world use case.

academic

Iterative Data Curation with Theoretical Guarantees

基本信息

论文ID: 2510.11428
标题: Iterative Data Curation with Theoretical Guarantees
作者: Väinö Yrjänäinen, Johan Jonasson, Måns Magnusson
分类: stat.ME (Statistics - Methodology)
发表时间: 2025年10月13日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.11428v1

摘要

随着大规模数据集的日益普及，数据准确性（即数据中没有可验证错误）对于高质量研究、下游应用和模型训练变得至关重要。本文针对大规模数据集中数据准确性改进的挑战，提出了一个统一的迭代数据集持续改进程序。研究提供了理论保证，证明数据准确性测试能够加速错误减少，更重要的是，所提出的方法将渐近地以概率1消除数据中的所有错误。理论结果通过仿真实验和真实世界用例得到验证。

研究背景与动机

问题定义

本研究要解决的核心问题是：如何在大规模数据集中系统性地改进数据准确性，特别是当数据规模过大而无法进行人工整理时。

问题重要性

数据质量的关键性：高质量数据对于机器学习预测、统计推断、决策制定和可靠预测模型训练至关重要
现实挑战：常用的机器学习数据集如Fashion MNIST、Common Crawl、Wikipedia语料库等都包含大量错误，缺乏准确性保证
规模限制：传统的人工整理方法在大规模数据集上不可行

现有方法局限性

基于规则的算法：虽然能同时纠正数千个错误，但没有准确性保证，通常伴随不可忽略的错误率
众包和外部数据源：同样存在不可忽略的错误率
缺乏理论保证：现有方法无法提供收敛到无错误数据集的理论保证

研究动机

论文旨在建立一个具有理论保证的可扩展数据整理框架，能够在最小人工开销下实现高质量的迭代更新。

核心贡献

迭代整理框架：提出了一个针对大规模文本和表格数据集的结构化可扩展数据准确性改进流程
理论保证：证明了渐近收敛到无错误数据集、错误的指数衰减以及每次数据修订时错误减少率的期望保证
实验验证：通过仿真实验和瑞典议会语料库的真实案例研究支持理论结果
噪声容忍性：证明了方法对噪声预言机（noisy oracle）的鲁棒性

创建最小可行的原型数据集
定义合适的数据格式 $S$ （人类可读且易扩展）
进行彻底的人工检查和验证

步骤2：创建修订提案

生成修订提案 $R_{t+1} \in S$
包括两种类型：添加（扩展数据）和纠正（修正错误）

步骤3：接受或拒绝提案

3.1 自动数据测试：格式验证、内容合理性检查
3.2 编辑采样：从编辑集合 $\Delta_t = \Delta(R_{t+1}, S_t)$ 中随机采样 $n$ 个编辑
预言机验证：人工检查采样编辑的正确性
决策规则：当正确编辑数量 $\geq m$ 时接受提案

步骤4：发布新版本

使用语义版本控制标记变更类型（MAJOR/MINOR/PATCH）

技术创新点

1. 分支过程建模

将错误数量建模为随机环境中的分支过程（BPRE），其中：

$p_{0,t} = (1-r_t)\lambda_t$ ：错误减少概率
$p_{1,t} = 1-\lambda_t$ ：错误不变概率
$p_{2,t} = r_t\lambda_t$ ：错误增加概率

2. 理论保证机制

通过控制接受阈值 $(n,m)$ ，确保： $E_{r_t,\lambda_t}[\log E[\zeta] | M \geq m] < 0$

这保证了分支过程的次临界性，从而实现错误的指数衰减。

3. 数据格式适应性

为两种主要数据格式提供了具体实现：

表格数据：使用汉明距离
序列数据：使用加法-删除编辑距离

实验设置

数据集

仿真数据：
- 直接仿真错误数量 $E_t$ ，错误率 $r_t \sim \text{Beta}(\alpha, \beta)$
- 100万词的英文Wikipedia序列，初始包含约1万个错误
真实数据：瑞典议会记录语料库
- 17,938个议会记录（1867-2024年）
- 超过5亿词，ParlaClarin XML格式