2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.

academic

Ensembles de Documents du Sri Lanka : Une Ressource Multilingue à Grande Échelle pour le Droit, l'Actualité et la Politique

Informations Fondamentales

ID de l'article : 2510.04124
Titre : Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
Auteur : Nuwan I. Senaratna (Chercheur Indépendant)
Classification : cs.CL (Linguistique Informatique)
Date de Publication : Preprint arXiv, v2025-10-16-0818
Lien de l'article : https://arxiv.org/abs/2510.04124

Résumé

Cet article présente un ensemble de documents du Sri Lanka volumineux, ouvert et lisible par machine, couvrant les procès-verbaux parlementaires, les jugements juridiques, les publications gouvernementales, l'actualité et les statistiques touristiques. L'ensemble contient actuellement 230 091 documents (57,7 GB), répartis sur 24 ensembles de données, supportant trois langues : le cinghalais, le tamoul et l'anglais. Les ensembles de données sont mis à jour quotidiennement et sont disponibles en miroir sur GitHub et Hugging Face. Ces ressources visent à soutenir la recherche en linguistique informatique, l'analyse juridique, les études sociopolitiques et le traitement automatique du langage naturel multilingue.

Contexte de Recherche et Motivation

Définition du Problème

Les enregistrements numériques des lois, politiques et médias du Sri Lanka sont dispersés dans de nombreuses sources gouvernementales et privées, la plupart des informations existant sous forme de PDF ou de pages web, sans structure lisible par machine ni cohérence dans les archives publiques. Cette fragmentation limite l'accès des citoyens, journalistes et chercheurs aux informations concernant la gouvernance, l'histoire et les tendances socio-économiques du pays.

Importance

Rareté des données : La région d'Asie du Sud, en particulier le Sri Lanka, manque de dossiers publics unifiés et lisibles par machine
Diversité linguistique : Besoin de recherche en TAL supportant les langues peu dotées en ressources (cinghalais, tamoul)
Exigences de transparence : Amélioration de la transparence et de la vérifiabilité pour la participation citoyenne et la recherche académique
Applications multidisciplinaires : Soutien à l'analyse juridique, la recherche politique, la surveillance médiatique et autres domaines

Limitations Existantes

Les grands corpus mondiaux (Common Crawl, Wikipedia Dumps) sont dominés par les données de langues bien dotées en ressources
Les initiatives régionales sont dispersées et se concentrent généralement sur un seul média ou établissement
Les ensembles de données antérieurs présentent des limitations en termes d'échelle, de couverture linguistique ou de continuité temporelle

Contributions Principales

Construction d'une collection de documents multilingues à grande échelle : 230 091 documents couvrant 24 types d'ensembles de données différents
Établissement d'un pipeline de collecte de données automatisé : Découverte continue, ingestion, analyse, validation et contrôle de version
Fourniture d'une infrastructure de données en accès ouvert : Ensemble de données entièrement ouvert sous licence MIT
Soutien aux applications de recherche multidisciplinaires : Linguistique informatique, analyse juridique, études sociopolitiques, etc.
Assurance de la qualité des données et de la reproductibilité : Formats standardisés, contrôle de version et sources de données transparentes

Détails Méthodologiques

Composition de l'Ensemble de Données

L'article décrit en détail 24 ensembles de données, principalement classés dans les catégories suivantes :

1. Documents Juridiques

Hansard (Procès-verbaux parlementaires) : 1 665 documents, 17,9 GB, 2006-2025
Jugements de la Cour d'Appel : 10 164 documents, 10,5 GB, 2012-2025
Jugements de la Cour Suprême : 2 168 documents, 1,4 GB, 2009-2025
Textes de Loi : 3 934 documents, 6,9 GB, 1981-2025
Projets de Loi : 4 080 documents, 1,9 GB, 2010-2025

2. Publications Gouvernementales

Gazette Extraordinaire (2020s) : 45 373 documents, 1,3 GB
Gazette Extraordinaire (2010s) : 56 379 documents, 3,3 GB
Résolutions du Cabinet : 10 385 documents, 136,4 MB
Communiqués de Presse du Ministère des Finances : 134 documents, 144,5 MB

3. Actualité et Médias

Documents d'Actualité : 81 155 documents, 1,2 GB, 2021-2025
Communiqués de Presse du Bureau des Médias Présidentiels : 2 182 documents, 55,9 MB

4. Statistiques et Rapports

Rapports de Statistiques Touristiques : 161 documents, 405,7 MB
Rapports de Statistiques Halieutiques : 417 documents, 101,4 MB
Rapports Annuels de la Banque Centrale : 1 137 documents, 3,5 GB

Pipeline de Collecte de Données

Architecture Technique

Orchestration GitHub Actions : Utilisation de tâches cron pour exécutions quotidiennes multiples
Stratégie Matricielle : Isolation de chaque source de données, permettant les tentatives indépendantes
Mises à Jour Incrémentielles : Détection des éléments nouveaux ou modifiés via clés stables (URL + date) et hachage du contenu

Implémentation du Web Scraping

Outils : Python + Selenium + Navigateur Chrome sans interface
Gestion du Contenu Dynamique : Attentes explicites conditionnelles pour le chargement du contenu dynamique
Contraintes de Courtoisie : Respect de robots.txt, limitation de la fréquence des requêtes, randomisation des délais

Traitement des Données

Analyse PDF : Extraction de texte, métadonnées et blocs de mise en page via PyMuPDF
Contrôle de Qualité : Validation des schémas, application des champs obligatoires, protection par somme de contrôle
Contrôle de Version : Conservation des artefacts originaux et des représentations JSON analysées

Points d'Innovation Technique

Pipeline Automatisé : Processus entièrement automatisé de collecte, traitement et mise à jour des données
Support Multi-Format : Traitement simultané des documents au format HTML et PDF
Mécanisme de Mise à Jour Incrémentielle : Détection efficace des modifications et contrôle de version
Assurance Qualité : Validation des données à plusieurs niveaux et gestion des erreurs
Conception Transparente : Enregistrement complet des métadonnées et sources de données auditables

Configuration Expérimentale

Statistiques des Données

Nombre Total de Documents : 230 091
Taille Totale : 57,7 GB
Nombre d'Ensembles de Données : 24
Couverture Linguistique : Cinghalais, tamoul, anglais
Étendue Temporelle : 1950 à 2025 (varie selon les ensembles de données)

Évaluation de la Qualité des Données

Vérification de Complétude : Validation des champs obligatoires
Validation de Cohérence : Normalisation des formats
Détection de Doublons : Dédoublonnage basé sur le hachage du contenu
Validité Temporelle : Validation de la plage de dates

Résultats Expérimentaux

Analyse de l'Échelle de l'Ensemble de Données

Catégorie	Nombre de Documents	Taille des Données	Langue Principale
Documents Juridiques	62 314	36,7 GB	Anglais principalement
Publications Gouvernementales	112 473	5,0 GB	Multilingue
Médias d'Actualité	83 337	1,3 GB	Multilingue
Rapports Statistiques	5 742	14,7 GB	Anglais principalement

Analyse de la Couverture Temporelle

Profondeur Historique : Les documents les plus anciens remontent à 1950 (rapports annuels de la banque centrale)
Fréquence de Mise à Jour : Mise à jour automatique quotidienne
Fraîcheur des Données : La plupart des ensembles de données couvrent jusqu'en octobre 2025

Distribution Linguistique

Anglais : Langue principale des documents officiels gouvernementaux et des jugements juridiques
Cinghalais : Actualités locales, certains documents gouvernementaux
Tamoul : Documents en langue minoritaire

Travaux Connexes

Grands Corpus Mondiaux

Common Crawl : Données de web scraping générales
Wikipedia Dumps : Vidages de données Wikipedia
OpenWebText : Corpus de texte web ouvert

Initiatives Régionales

Indian Kanoon : Corpus juridique indien
OpenSubtitles : Ensemble de données de sous-titres multilingues
African News Corpus : Corpus d'actualités africaines

Situation en Asie du Sud

Les efforts existants sont dispersés et se concentrent généralement sur des institutions médiatiques individuelles
Absence d'enregistrements de documents complets et lisibles par machine
Limitations en termes d'échelle, de couverture linguistique ou de continuité temporelle

Conclusion et Discussion

Conclusions Principales

Construction réussie du plus grand ensemble de documents multilingues du Sri Lanka
Établissement d'un mécanisme durable de collecte et de mise à jour automatisées des données
Fourniture d'une ressource précieuse pour la recherche en linguistique informatique et gouvernance numérique
Assurance de l'accessibilité et de la réutilisabilité des données via une licence ouverte

Limitations

Précision du Traitement Linguistique : La précision de l'analyse du cinghalais et du tamoul doit être améliorée
Limitations des Capacités OCR : Capacités insuffisantes pour traiter les PDF numérisés ou non structurés
Étendue de la Couverture : Certaines institutions gouvernementales et sources médiatiques ne sont pas encore incluses
Variation de la Qualité des Données : Différences de qualité des données selon les sources

Orientations Futures

Expansion de la Couverture : Ajout de plus d'institutions gouvernementales, sources médiatiques et archives historiques
Amélioration du Traitement Linguistique : Amélioration de la segmentation en mots du cinghalais et du tamoul, traitement des polices et plongements multilingues
Intégration de l'OCR : Expérimentation de pipelines OCR basés sur l'apprentissage profond, combinés avec reconnaissance de mise en page et modélisation du langage

Évaluation Approfondie

Points Forts

Échelle et Qualité des Données : Ensemble de données volumineux de 230 091 documents couvrant plusieurs domaines importants
Excellente Implémentation Technique : Pipeline de données entièrement automatisé assurant l'actualité et la cohérence des données
Ouverture et Transparence : Accès entièrement ouvert sous licence MIT, conforme aux principes FAIR
Support Multilingue : Ressource précieuse pour la recherche en langues peu dotées en ressources
Valeur Pratique Élevée : Soutien aux besoins d'applications pratiques dans plusieurs domaines de recherche

Insuffisances

Manque d'Évaluation : L'article manque d'évaluation quantitative et de vérification de la qualité des données
Cas d'Usage Insuffisants : Absence de cas d'utilisation concrets ou de résultats de tests de référence
Distribution Linguistique Inégale : Les documents en anglais dominent, la couverture des autres langues est relativement limitée
Détails Techniques Insuffisants : Certains détails d'implémentation technique ne sont pas suffisamment détaillés

Impact

Contribution Académique : Établissement des fondations pour la recherche en sciences humaines numériques et linguistique informatique en Asie du Sud
Valeur Sociale : Amélioration de la transparence gouvernementale, soutien à la participation et à la surveillance citoyennes
Démonstration Technique : Référence pour d'autres pays en développement établissant des infrastructures de données similaires
Durabilité : Établissement d'un mécanisme durable de collecte et de maintenance des données

Scénarios d'Application

Traitement Automatique du Langage Naturel : Entraînement et évaluation de modèles multilingues
Technologie Juridique : Analyse de documents juridiques et recherche jurisprudentielle
Analyse Politique : Suivi des décisions gouvernementales et des changements politiques
Recherche Médiatique : Analyse des tendances d'actualités et analyse des sentiments
Gouvernance Numérique : Recherche sur l'administration électronique et la transparence

Références Bibliographiques

L'article cite plusieurs travaux importants dans les domaines connexes, notamment :

Meilleures pratiques en MLOps et construction de pipelines de données
Cadres de gouvernance des données ouvertes
Normes éthiques et techniques du web scraping
Principes FAIR pour la gestion des données scientifiques
Littérature connexe sur la recherche reproductible

Évaluation Globale : Il s'agit d'un article de jeu de données d'une valeur pratique importante, fournissant une infrastructure précieuse pour la recherche numérique au Sri Lanka et dans la région d'Asie du Sud. Bien que l'innovation technique soit relativement limitée, ses contributions en termes d'échelle de données, d'ouverture et de durabilité méritent d'être reconnues. Ce travail établit un excellent exemple pour la recherche en sciences humaines numériques dans les langues peu dotées en ressources et les pays en développement.