In recent years, more and more large data sets have become available. Data accuracy, the absence of verifiable errors in data, is crucial for these large materials to enable high-quality research, downstream applications, and model training. This results in the problem of how to curate or improve data accuracy in such large and growing data, especially when the data is too large for manual curation to be feasible. This paper presents a unified procedure for iterative and continuous improvement of data sets. We provide theoretical guarantees that data accuracy tests speed up error reduction and, most importantly, that the proposed approach will, asymptotically, eliminate all errors in data with probability one. We corroborate the theoretical results with simulations and a real-world use case.
- ID de l'article : 2510.11428
- Titre : Iterative Data Curation with Theoretical Guarantees
- Auteurs : Väinö Yrjänäinen, Johan Jonasson, Måns Magnusson
- Classification : stat.ME (Statistiques - Méthodologie)
- Date de publication : 13 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.11428v1
Avec la prolifération croissante des ensembles de données à grande échelle, l'exactitude des données (c'est-à-dire l'absence d'erreurs vérifiables) est devenue cruciale pour la recherche de haute qualité, les applications en aval et l'entraînement des modèles. Cet article propose une procédure unifiée d'amélioration itérative et continue des ensembles de données pour relever les défis de l'amélioration de l'exactitude des données dans les ensembles de données volumineux. L'étude fournit des garanties théoriques démontrant que les tests d'exactitude des données peuvent accélérer la réduction des erreurs, et plus important encore, la méthode proposée éliminera asymptotiquement toutes les erreurs des données avec une probabilité de 1. Les résultats théoriques sont validés par des expériences de simulation et des cas d'usage réels.
Le problème fondamental que cette recherche aborde est : comment améliorer systématiquement l'exactitude des données dans les ensembles de données volumineux, en particulier lorsque l'échelle des données est trop importante pour permettre un nettoyage manuel ?
- Criticité de la qualité des données : Les données de haute qualité sont essentielles pour les prédictions d'apprentissage automatique, l'inférence statistique, la prise de décision et l'entraînement de modèles de prédiction fiables
- Défis pratiques : Les ensembles de données d'apprentissage automatique couramment utilisés tels que Fashion MNIST, Common Crawl et les corpus Wikipedia contiennent de nombreuses erreurs et manquent de garanties d'exactitude
- Limitations d'échelle : Les méthodes traditionnelles de nettoyage manuel ne sont pas viables pour les ensembles de données volumineux
- Algorithmes basés sur des règles : Bien qu'ils puissent corriger des milliers d'erreurs simultanément, ils ne fournissent pas de garanties d'exactitude et s'accompagnent généralement de taux d'erreur non négligeables
- Crowdsourcing et sources de données externes : Présentent également des taux d'erreur non négligeables
- Absence de garanties théoriques : Les méthodes existantes ne peuvent pas fournir de garanties théoriques de convergence vers un ensemble de données sans erreurs
L'article vise à établir un cadre de curation de données évolutif doté de garanties théoriques, capable d'atteindre des mises à jour itératives de haute qualité avec un effort manuel minimal.
- Cadre de curation itérative : Propose un processus structuré et évolutif d'amélioration de l'exactitude des données pour les ensembles de données textuelles et tabulaires à grande échelle
- Garanties théoriques : Démontre la convergence asymptotique vers un ensemble de données sans erreurs, la décroissance exponentielle des erreurs et les garanties d'espérance du taux de réduction des erreurs à chaque révision de données
- Validation expérimentale : Soutient les résultats théoriques par des expériences de simulation et une étude de cas réelle utilisant le corpus du Parlement suédois
- Tolérance au bruit : Démontre la robustesse de la méthode face aux oracles bruyants
Entrée : Ensemble de données initial contenant des erreurs S0∈SSortie : Séquence d'ensembles de données {St} améliorés itérativement tendant vers l'absence d'erreurs
Objectif : limt→∞P(Et=0)=1, où Et=d(S∗,St) est le nombre d'erreurs
L'ensemble du processus comprend quatre étapes principales, les trois dernières étant exécutées en boucle :
Étape 1 : Établissement du Prototype
- Créer un ensemble de données prototype minimal viable
- Définir un format de données approprié S (lisible par l'homme et facilement extensible)
- Effectuer une vérification et une validation manuelles approfondies
Étape 2 : Création de Propositions de Révision
- Générer une proposition de révision Rt+1∈S
- Inclure deux types : additions (extension des données) et corrections (correction des erreurs)
Étape 3 : Acceptation ou Rejet de la Proposition
- 3.1 Tests de données automatisés : Validation du format, vérifications de cohérence du contenu
- 3.2 Échantillonnage d'éditions : Échantillonnage aléatoire de n éditions à partir de l'ensemble d'éditions Δt=Δ(Rt+1,St)
- Vérification par oracle : Vérification manuelle de l'exactitude des éditions échantillonnées
- Règle de décision : Accepter la proposition lorsque le nombre d'éditions correctes ≥m
Étape 4 : Publication de la Nouvelle Version
- Utiliser le versioning sémantique pour marquer les types de modifications (MAJEUR/MINEUR/CORRECTIF)
Modéliser le nombre d'erreurs comme un processus de branchement en environnement aléatoire (BPRE), où :
- p0,t=(1−rt)λt : probabilité de réduction des erreurs
- p1,t=1−λt : probabilité que les erreurs restent inchangées
- p2,t=rtλt : probabilité d'augmentation des erreurs
En contrôlant le seuil d'acceptation (n,m), on assure :
Ert,λt[logE[ζ]∣M≥m]<0
Cela garantit la sous-criticité du processus de branchement, réalisant ainsi la décroissance exponentielle des erreurs.
Fournit des implémentations concrètes pour deux formats de données principaux :
- Données tabulaires : Utilisation de la distance de Hamming
- Données séquentielles : Utilisation de la distance d'édition additive-suppressive
- Données simulées :
- Simulation directe du nombre d'erreurs Et, taux d'erreur rt∼Beta(α,β)
- Séquence Wikipedia en anglais de 1 million de mots, contenant initialement environ 10 000 erreurs
- Données réelles : Corpus des registres parlementaires suédois
- 17 938 registres parlementaires (1867-2024)
- Plus de 500 millions de mots, format XML ParlaClarin
- Nombre d'erreurs Et=d(S∗,St) : Distance par rapport aux données réelles
- Taux de convergence : Vitesse de décroissance exponentielle des erreurs
- Métriques d'exactitude spécifiques : Erreurs de mappage des parlementaires, erreurs de classification des paragraphes
- Avec règle de décision vs sans règle de décision
- Comparaison de différents seuils m/n (0,4, 0,5, 0,6, etc.)
- Oracle réel vs oracle bruyant
- Taille d'échantillon : n=10,50
- Seuil d'acceptation : généralement m/n≈0,5
- Oracle bruyant : taux de bruit ε=0,2
- Décroissance exponentielle : Diminution linéaire du nombre d'erreurs observée à l'échelle logarithmique
- Effet de seuil : m/n=0,6 surpasse m/n=0,5 pour n=10 ; l'inverse pour n=50
- Bénéfice de la règle de décision : Même dans le cas hautement optimiste de rt∼Beta(1,4) (94 % des propositions améliorent les données), la règle de décision accélère toujours la convergence
- Avec règle de décision : Diminution exponentielle de Et (moyenne et quantiles)
- Sans règle de décision :
- Avec rt∼Beta(1,1), la moyenne reste statique, la variance augmente
- Avec rt∼Beta(5,3), Et augmente exponentiellement
Les deux indicateurs clés des données parlementaires suédoises montrent une amélioration continue :
- Erreurs de mappage des parlementaires : Réduction de l'ordre de 103 à des niveaux inférieurs
- Erreurs de classification des paragraphes : Maintien à des niveaux bas ou réduction continue
Démontre que les tests de données automatisés accélèrent la convergence :
P(Et=0∣E0=E)<P(Et′=0∣E0′=E)
En ajustant le seuil mnoisy=m/(1−ε), l'oracle bruyant atteint des performances de convergence similaires à celles de l'oracle réel.
- Optimisation du seuil : La valeur optimale de m tend vers n/2 (lorsque n→∞)
- Effet d'échelle : Les révisions plus grandes et plus précises accélèrent la décroissance des erreurs
- Praticité : La méthode fonctionne bien sur les ensembles de données réels à grande échelle
- Méthodes traditionnelles : Algorithmes basés sur des règles, expressions régulières, méthodes d'apprentissage automatique
- Méthodes de crowdsourcing : Annotateurs non experts, sources de données externes
- Limitations : Absence de garanties d'exactitude, introduction généralement de nouvelles erreurs
- Théorie des processus de branchement : Processus de branchement en environnement aléatoire de Smith et Wilkinson (1969)
- Innovation de cet article : Première application de BPRE au problème de curation de données avec garanties de convergence
- Contrôle de version : Commits et gestion de versions similaires à git
- Versioning sémantique : Méthode de marquage de version de Preston-Werner (2013)
- Garanties théoriques : Sous des conditions appropriées, le processus de curation itérative converge avec une probabilité de 1 vers un ensemble de données sans erreurs
- Convergence exponentielle : Le nombre d'erreurs décroît exponentiellement, la vitesse de convergence dépendant de la qualité et de l'ampleur des révisions
- Praticité : La méthode s'applique aux données textuelles et tabulaires à grande échelle et a été validée dans des projets réels
- Conditions d'hypothèse :
- Nécessite l'existence d'une notion de données réelles S∗
- Exige l'additivité des éditions (peut ne pas tenir pour certains formats de données)
- Les données séquentielles nécessitent des hypothèses supplémentaires telles que l'absence d'éléments dupliqués
- Dépendance à l'oracle : Bien que la robustesse au bruit soit démontrée, la vérification manuelle reste nécessaire
- Complexité computationnelle : L'analyse détaillée des coûts computationnels sur les ensembles de données volumineux n'est pas fournie
- Extension des formats de données : Étudier l'applicabilité à des structures de données plus complexes (données graphiques, données multimodales)
- Apprentissage actif : Intégrer des stratégies d'apprentissage actif pour optimiser l'échantillonnage d'éditions
- Automatisation accrue : Réduire la dépendance aux oracles humains
- Rigueur théorique : Fournit une analyse théorique complète et des preuves, comblant le vide des garanties théoriques dans le domaine de la curation de données
- Valeur pratique : La méthode a été appliquée dans des projets réels à grande échelle avec des résultats satisfaisants
- Généralité : Le cadre s'applique à plusieurs formats de données (tabulaires, textuels)
- Pensée d'ingénierie : Emprunte les meilleures pratiques de l'ingénierie logicielle avec une bonne opérabilité
- Limitations des hypothèses : Certaines hypothèses (comme l'absence d'éléments dupliqués dans les séquences) peuvent être trop strictes dans les applications pratiques
- Coûts manuels : Bien que l'efficacité soit améliorée, un travail de vérification manuelle considérable reste nécessaire
- Vitesse de convergence : Bien que la convergence soit théoriquement garantie, la vitesse de convergence réelle peut être lente
- Types d'erreurs : Se concentre principalement sur les erreurs objectives vérifiables, avec une applicabilité limitée aux problèmes d'annotation subjective
- Contribution académique : Première fourniture de garanties théoriques pour la curation de données, pouvant ouvrir de nouvelles directions de recherche
- Valeur pratique : Fournit une méthode d'amélioration de la qualité systématique pour les projets de données à grande échelle
- Reproductibilité : Fournit des détails d'implémentation complets et des matériaux supplémentaires
- Corpus textuels à grande échelle : Tels que les registres parlementaires, documents juridiques, archives historiques
- Bases de données tabulaires : Données structurées nécessitant une maintenance et une amélioration continues
- Ensembles de données d'apprentissage automatique : Données d'entraînement nécessitant des annotations de haute qualité
- Projets de données à long terme : Ensembles de données nécessitant le contrôle de version et le suivi de la qualité
L'article cite une riche littérature connexe, comprenant principalement :
- Recherche sur la qualité des données : Olson (2003), Jain et al. (2020), Budach et al. (2022)
- Théorie des processus de branchement : Smith et Wilkinson (1969), Guivarc'h et Liu (2001)
- Ensembles de données pratiques : Common Crawl (2024), Contributeurs Wikipedia (2023)
- Ingénierie logicielle : Preston-Werner (2013), Torvalds et al. (2005)
Évaluation Globale : Cet article est un travail de haute qualité qui équilibre théorie et pratique, fournissant un cadre mathématique rigoureux pour le domaine important mais théoriquement sous-développé de la curation de données. Bien qu'il présente certaines limitations d'hypothèses, ses contributions théoriques et sa valeur pratique sont toutes deux significatives, avec un impact important sur les domaines connexes.