In recent years, more and more large data sets have become available. Data accuracy, the absence of verifiable errors in data, is crucial for these large materials to enable high-quality research, downstream applications, and model training. This results in the problem of how to curate or improve data accuracy in such large and growing data, especially when the data is too large for manual curation to be feasible. This paper presents a unified procedure for iterative and continuous improvement of data sets. We provide theoretical guarantees that data accuracy tests speed up error reduction and, most importantly, that the proposed approach will, asymptotically, eliminate all errors in data with probability one. We corroborate the theoretical results with simulations and a real-world use case.
- ID статьи: 2510.11428
- Название: Iterative Data Curation with Theoretical Guarantees
- Авторы: Väinö Yrjänäinen, Johan Jonasson, Måns Magnusson
- Классификация: stat.ME (Статистика - Методология)
- Дата публикации: 13 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.11428v1
С растущей распространённостью крупномасштабных наборов данных точность данных (отсутствие проверяемых ошибок) становится критически важной для качественных исследований, последующих приложений и обучения моделей. В данной работе предлагается унифицированная итеративная процедура непрерывного совершенствования наборов данных для решения проблемы повышения точности данных в крупномасштабных наборах. Исследование предоставляет теоретические гарантии, демонстрирующие, что тестирование точности данных ускоряет снижение ошибок, и, что более важно, предложенный метод асимптотически с вероятностью 1 устраняет все ошибки в данных. Теоретические результаты подтверждены моделированием и примерами из реальной практики.
Основная проблема, которую решает данное исследование: как систематически повышать точность данных в крупномасштабных наборах данных, особенно когда размер данных слишком велик для ручной обработки.
- Критичность качества данных: Высокое качество данных имеет решающее значение для прогнозирования машинного обучения, статистического вывода, принятия решений и обучения надёжных моделей прогнозирования
- Практические вызовы: Широко используемые наборы данных машинного обучения, такие как Fashion MNIST, Common Crawl, корпусы Wikipedia, содержат множество ошибок и не имеют гарантий точности
- Ограничения масштаба: Традиционные методы ручной обработки неприменимы к крупномасштабным наборам данных
- Алгоритмы на основе правил: Хотя способны одновременно исправлять тысячи ошибок, они не предоставляют гарантий точности и обычно сопровождаются значительной частотой ошибок
- Краудсорсинг и внешние источники данных: Также имеют значительную частоту ошибок
- Отсутствие теоретических гарантий: Существующие методы не могут обеспечить теоретические гарантии сходимости к набору данных без ошибок
Работа направлена на создание масштабируемой структуры курации данных с теоретическими гарантиями, способной достичь высокого качества итеративных обновлений с минимальными затратами на ручную работу.
- Структура итеративной курации: Предложена структурированная масштабируемая процедура повышения точности данных для крупномасштабных текстовых и табличных наборов данных
- Теоретические гарантии: Доказана асимптотическая сходимость к набору данных без ошибок, экспоненциальное затухание ошибок и ожидаемые гарантии снижения ошибок при каждом пересмотре данных
- Экспериментальная верификация: Теоретические результаты подтверждены моделированием и тематическим исследованием на корпусе шведского парламента
- Устойчивость к шуму: Доказана робастность метода к шумным оракулам
Вход: Начальный набор данных с ошибками S0∈SВыход: Последовательность наборов данных {St}, улучшаемая итеративно и стремящаяся к отсутствию ошибок
Цель: limt→∞P(Et=0)=1, где Et=d(S∗,St) — количество ошибок
Весь процесс состоит из четырёх основных этапов, из которых последние три выполняются циклически:
Этап 1: Создание прототипа
- Создание минимально жизнеспособного прототипа набора данных
- Определение подходящего формата данных S (удобочитаемый и легко расширяемый)
- Проведение тщательной ручной проверки и валидации
Этап 2: Создание предложений по пересмотру
- Генерация предложений по пересмотру Rt+1∈S
- Включает два типа: добавления (расширение данных) и исправления (коррекция ошибок)
Этап 3: Принятие или отклонение предложений
- 3.1 Автоматическое тестирование данных: Валидация формата, проверка разумности содержания
- 3.2 Выборка редакций: Случайная выборка n редакций из набора редакций Δt=Δ(Rt+1,St)
- Верификация оракулом: Ручная проверка корректности выбранных редакций
- Правило решения: Принять предложение, если количество корректных редакций ≥m
Этап 4: Публикация новой версии
- Использование семантического версионирования для обозначения типа изменений (MAJOR/MINOR/PATCH)
Количество ошибок моделируется как ветвящийся процесс в случайной среде (BPRE), где:
- p0,t=(1−rt)λt: вероятность снижения ошибок
- p1,t=1−λt: вероятность неизменности ошибок
- p2,t=rtλt: вероятность увеличения ошибок
Путём контроля порога принятия (n,m) обеспечивается:
Ert,λt[logE[ζ]∣M≥m]<0
Это гарантирует докритичность ветвящегося процесса, обеспечивая экспоненциальное затухание ошибок.
Предоставлены конкретные реализации для двух основных форматов данных:
- Табличные данные: использование расстояния Хэмминга
- Последовательные данные: использование расстояния редакций с добавлением-удалением
- Смоделированные данные:
- Прямое моделирование количества ошибок Et, частота ошибок rt∼Beta(α,β)
- Последовательность из 1 миллиона слов английской Wikipedia с примерно 10 тысячами начальных ошибок
- Реальные данные: Корпус записей шведского парламента
- 17 938 парламентских записей (1867-2024 гг.)
- Более 500 миллионов слов, формат ParlaClarin XML
- Количество ошибок Et=d(S∗,St): расстояние от истинных данных
- Скорость сходимости: Скорость экспоненциального затухания ошибок
- Специфичные метрики точности: Ошибки сопоставления депутатов, ошибки классификации абзацев
- С правилом решения против без правила решения
- Сравнение различных порогов m/n (0,4, 0,5, 0,6 и т.д.)
- Истинный оракул против шумного оракула
- Размер выборки: n=10,50
- Порог принятия: обычно m/n≈0,5
- Шумный оракул: частота шума ε=0,2
- Экспоненциальное затухание: На логарифмической шкале наблюдается линейное снижение количества ошибок
- Эффект порога: m/n=0,6 превосходит m/n=0,5 при n=10; обратное верно при n=50
- Преимущество правила решения: Даже в высокооптимистичном случае rt∼Beta(1,4) (94% предложений улучшают данные) правило решения ускоряет сходимость
- С правилом решения: Et экспоненциально снижается (среднее значение и квантили)
- Без правила решения:
- При rt∼Beta(1,1) среднее значение остаётся статичным, дисперсия растёт
- При rt∼Beta(5,3) Et экспоненциально растёт
Оба ключевых показателя данных шведского парламента демонстрируют постоянное улучшение:
- Ошибки сопоставления депутатов: Снижение с порядка 103 до более низких уровней
- Ошибки классификации абзацев: Остаются на низком уровне или продолжают снижаться
Доказано, что автоматическое тестирование данных ускоряет сходимость:
P(Et=0∣E0=E)<P(Et′=0∣E0′=E)
Путём корректировки порога mnoisy=m/(1−ε) шумный оракул достигает схожей производительности сходимости с истинным оракулом.
- Оптимизация порога: Оптимальное значение m стремится к n/2 (при n→∞)
- Эффект масштаба: Более крупные и точные пересмотры ускоряют затухание ошибок
- Практичность: Метод показывает хорошие результаты на реальных крупномасштабных наборах данных
- Традиционные методы: Алгоритмы на основе правил, регулярные выражения, методы машинного обучения
- Методы краудсорсинга: Аннотирование неэкспертами, внешние источники данных
- Ограничения: Отсутствие гарантий точности, обычно вводят новые ошибки
- Теория ветвящихся процессов: Ветвящиеся процессы в случайной среде Smith and Wilkinson (1969)
- Инновация данной работы: Первое применение BPRE к проблеме курации данных с гарантиями сходимости
- Контроль версий: Подобно git коммитам и управлению версиями
- Семантическое версионирование: Метод обозначения версий Preston-Werner (2013)
- Теоретические гарантии: При надлежащих условиях процесс итеративной курации с вероятностью 1 сходится к набору данных без ошибок
- Экспоненциальная сходимость: Количество ошибок затухает экспоненциально, скорость сходимости зависит от качества и масштаба пересмотров
- Практичность: Метод применим к крупномасштабным текстовым и табличным данным, верифицирован на реальных проектах
- Предположения:
- Требуется существование концепции истинных данных S∗
- Требуется аддитивность редакций (может не выполняться для некоторых форматов данных)
- Последовательные данные требуют дополнительных предположений, таких как отсутствие дубликатов элементов
- Зависимость от оракула: Хотя доказана робастность к шуму, всё ещё требуется ручная верификация
- Вычислительная сложность: Не проведён детальный анализ вычислительных затрат на крупномасштабных наборах данных
- Расширение форматов данных: Исследование применимости к более сложным структурам данных (графовые данные, мультимодальные данные)
- Активное обучение: Интеграция стратегий активного обучения для оптимизации выборки редакций
- Автоматизация: Снижение зависимости от ручного оракула
- Теоретическая строгость: Предоставлены полный теоретический анализ и доказательства, заполняющие пробел в теоретических гарантиях для области курации данных
- Практическая ценность: Метод успешно применён в крупномасштабных реальных проектах с хорошими результатами
- Универсальность: Структура применима к различным форматам данных (табличные, текстовые)
- Инженерное мышление: Заимствование лучших практик из инженерии программного обеспечения обеспечивает хорошую операционализируемость
- Ограничения предположений: Некоторые предположения (например, отсутствие дубликатов в последовательностях) могут быть слишком строгими в практических приложениях
- Затраты на ручную работу: Несмотря на повышение эффективности, всё ещё требуется значительный объём ручной верификации
- Скорость сходимости: Хотя теоретически гарантирована сходимость, практическая скорость сходимости может быть медленной
- Типы ошибок: Фокусируется в основном на проверяемых объективных ошибках, применимость к субъективным проблемам аннотирования ограничена
- Академический вклад: Впервые предоставлены теоретические гарантии для курации данных, потенциально открывая новое направление исследований
- Практическая ценность: Предоставляет систематический метод повышения качества для крупномасштабных проектов данных
- Воспроизводимость: Предоставлены полные детали реализации и дополнительные материалы
- Крупномасштабные текстовые корпусы: Такие как записи парламента, юридические документы, исторические архивы
- Табличные базы данных: Требующие постоянного обслуживания и улучшения структурированные данные
- Наборы данных машинного обучения: Требующие высокого качества аннотирования обучающих данных
- Долгосрочные проекты данных: Требующие контроля версий и отслеживания качества наборов данных
Статья цитирует богатую литературу по связанным темам, включая в основном:
- Исследования качества данных: Olson (2003), Jain et al. (2020), Budach et al. (2022)
- Теория ветвящихся процессов: Smith and Wilkinson (1969), Guivarc'h and Liu (2001)
- Практические наборы данных: Common Crawl (2024), Wikipedia contributors (2023)
- Инженерия программного обеспечения: Preston-Werner (2013), Torvalds et al. (2005)
Общая оценка: Это высокачественная статья, сочетающая теорию и практику, предоставляющая строгую математическую основу для важной, но теоретически необоснованной области курации данных. Хотя существуют некоторые ограничения предположений, её теоретический вклад и практическая ценность значительны и имеют важное значение для развития соответствующих областей.