2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna
We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic

Ensembles de Documents du Sri Lanka : Une Ressource Multilingue à Grande Échelle pour le Droit, l'Actualité et la Politique

Informations Fondamentales

  • ID de l'article : 2510.04124
  • Titre : Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
  • Auteur : Nuwan I. Senaratna (Chercheur Indépendant)
  • Classification : cs.CL (Linguistique Informatique)
  • Date de Publication : Preprint arXiv, v2025-10-16-0818
  • Lien de l'article : https://arxiv.org/abs/2510.04124

Résumé

Cet article présente un ensemble de documents du Sri Lanka volumineux, ouvert et lisible par machine, couvrant les procès-verbaux parlementaires, les jugements juridiques, les publications gouvernementales, l'actualité et les statistiques touristiques. L'ensemble contient actuellement 230 091 documents (57,7 GB), répartis sur 24 ensembles de données, supportant trois langues : le cinghalais, le tamoul et l'anglais. Les ensembles de données sont mis à jour quotidiennement et sont disponibles en miroir sur GitHub et Hugging Face. Ces ressources visent à soutenir la recherche en linguistique informatique, l'analyse juridique, les études sociopolitiques et le traitement automatique du langage naturel multilingue.

Contexte de Recherche et Motivation

Définition du Problème

Les enregistrements numériques des lois, politiques et médias du Sri Lanka sont dispersés dans de nombreuses sources gouvernementales et privées, la plupart des informations existant sous forme de PDF ou de pages web, sans structure lisible par machine ni cohérence dans les archives publiques. Cette fragmentation limite l'accès des citoyens, journalistes et chercheurs aux informations concernant la gouvernance, l'histoire et les tendances socio-économiques du pays.

Importance

  1. Rareté des données : La région d'Asie du Sud, en particulier le Sri Lanka, manque de dossiers publics unifiés et lisibles par machine
  2. Diversité linguistique : Besoin de recherche en TAL supportant les langues peu dotées en ressources (cinghalais, tamoul)
  3. Exigences de transparence : Amélioration de la transparence et de la vérifiabilité pour la participation citoyenne et la recherche académique
  4. Applications multidisciplinaires : Soutien à l'analyse juridique, la recherche politique, la surveillance médiatique et autres domaines

Limitations Existantes

  • Les grands corpus mondiaux (Common Crawl, Wikipedia Dumps) sont dominés par les données de langues bien dotées en ressources
  • Les initiatives régionales sont dispersées et se concentrent généralement sur un seul média ou établissement
  • Les ensembles de données antérieurs présentent des limitations en termes d'échelle, de couverture linguistique ou de continuité temporelle

Contributions Principales

  1. Construction d'une collection de documents multilingues à grande échelle : 230 091 documents couvrant 24 types d'ensembles de données différents
  2. Établissement d'un pipeline de collecte de données automatisé : Découverte continue, ingestion, analyse, validation et contrôle de version
  3. Fourniture d'une infrastructure de données en accès ouvert : Ensemble de données entièrement ouvert sous licence MIT
  4. Soutien aux applications de recherche multidisciplinaires : Linguistique informatique, analyse juridique, études sociopolitiques, etc.
  5. Assurance de la qualité des données et de la reproductibilité : Formats standardisés, contrôle de version et sources de données transparentes

Détails Méthodologiques

Composition de l'Ensemble de Données

L'article décrit en détail 24 ensembles de données, principalement classés dans les catégories suivantes :

1. Documents Juridiques

  • Hansard (Procès-verbaux parlementaires) : 1 665 documents, 17,9 GB, 2006-2025
  • Jugements de la Cour d'Appel : 10 164 documents, 10,5 GB, 2012-2025
  • Jugements de la Cour Suprême : 2 168 documents, 1,4 GB, 2009-2025
  • Textes de Loi : 3 934 documents, 6,9 GB, 1981-2025
  • Projets de Loi : 4 080 documents, 1,9 GB, 2010-2025

2. Publications Gouvernementales

  • Gazette Extraordinaire (2020s) : 45 373 documents, 1,3 GB
  • Gazette Extraordinaire (2010s) : 56 379 documents, 3,3 GB
  • Résolutions du Cabinet : 10 385 documents, 136,4 MB
  • Communiqués de Presse du Ministère des Finances : 134 documents, 144,5 MB

3. Actualité et Médias

  • Documents d'Actualité : 81 155 documents, 1,2 GB, 2021-2025
  • Communiqués de Presse du Bureau des Médias Présidentiels : 2 182 documents, 55,9 MB

4. Statistiques et Rapports

  • Rapports de Statistiques Touristiques : 161 documents, 405,7 MB
  • Rapports de Statistiques Halieutiques : 417 documents, 101,4 MB
  • Rapports Annuels de la Banque Centrale : 1 137 documents, 3,5 GB

Pipeline de Collecte de Données

Architecture Technique

  1. Orchestration GitHub Actions : Utilisation de tâches cron pour exécutions quotidiennes multiples
  2. Stratégie Matricielle : Isolation de chaque source de données, permettant les tentatives indépendantes
  3. Mises à Jour Incrémentielles : Détection des éléments nouveaux ou modifiés via clés stables (URL + date) et hachage du contenu

Implémentation du Web Scraping

  • Outils : Python + Selenium + Navigateur Chrome sans interface
  • Gestion du Contenu Dynamique : Attentes explicites conditionnelles pour le chargement du contenu dynamique
  • Contraintes de Courtoisie : Respect de robots.txt, limitation de la fréquence des requêtes, randomisation des délais

Traitement des Données

  1. Analyse PDF : Extraction de texte, métadonnées et blocs de mise en page via PyMuPDF
  2. Contrôle de Qualité : Validation des schémas, application des champs obligatoires, protection par somme de contrôle
  3. Contrôle de Version : Conservation des artefacts originaux et des représentations JSON analysées

Points d'Innovation Technique

  1. Pipeline Automatisé : Processus entièrement automatisé de collecte, traitement et mise à jour des données
  2. Support Multi-Format : Traitement simultané des documents au format HTML et PDF
  3. Mécanisme de Mise à Jour Incrémentielle : Détection efficace des modifications et contrôle de version
  4. Assurance Qualité : Validation des données à plusieurs niveaux et gestion des erreurs
  5. Conception Transparente : Enregistrement complet des métadonnées et sources de données auditables

Configuration Expérimentale

Statistiques des Données

  • Nombre Total de Documents : 230 091
  • Taille Totale : 57,7 GB
  • Nombre d'Ensembles de Données : 24
  • Couverture Linguistique : Cinghalais, tamoul, anglais
  • Étendue Temporelle : 1950 à 2025 (varie selon les ensembles de données)

Évaluation de la Qualité des Données

  • Vérification de Complétude : Validation des champs obligatoires
  • Validation de Cohérence : Normalisation des formats
  • Détection de Doublons : Dédoublonnage basé sur le hachage du contenu
  • Validité Temporelle : Validation de la plage de dates

Résultats Expérimentaux

Analyse de l'Échelle de l'Ensemble de Données

CatégorieNombre de DocumentsTaille des DonnéesLangue Principale
Documents Juridiques62 31436,7 GBAnglais principalement
Publications Gouvernementales112 4735,0 GBMultilingue
Médias d'Actualité83 3371,3 GBMultilingue
Rapports Statistiques5 74214,7 GBAnglais principalement

Analyse de la Couverture Temporelle

  • Profondeur Historique : Les documents les plus anciens remontent à 1950 (rapports annuels de la banque centrale)
  • Fréquence de Mise à Jour : Mise à jour automatique quotidienne
  • Fraîcheur des Données : La plupart des ensembles de données couvrent jusqu'en octobre 2025

Distribution Linguistique

  • Anglais : Langue principale des documents officiels gouvernementaux et des jugements juridiques
  • Cinghalais : Actualités locales, certains documents gouvernementaux
  • Tamoul : Documents en langue minoritaire

Travaux Connexes

Grands Corpus Mondiaux

  • Common Crawl : Données de web scraping générales
  • Wikipedia Dumps : Vidages de données Wikipedia
  • OpenWebText : Corpus de texte web ouvert

Initiatives Régionales

  • Indian Kanoon : Corpus juridique indien
  • OpenSubtitles : Ensemble de données de sous-titres multilingues
  • African News Corpus : Corpus d'actualités africaines

Situation en Asie du Sud

  • Les efforts existants sont dispersés et se concentrent généralement sur des institutions médiatiques individuelles
  • Absence d'enregistrements de documents complets et lisibles par machine
  • Limitations en termes d'échelle, de couverture linguistique ou de continuité temporelle

Conclusion et Discussion

Conclusions Principales

  1. Construction réussie du plus grand ensemble de documents multilingues du Sri Lanka
  2. Établissement d'un mécanisme durable de collecte et de mise à jour automatisées des données
  3. Fourniture d'une ressource précieuse pour la recherche en linguistique informatique et gouvernance numérique
  4. Assurance de l'accessibilité et de la réutilisabilité des données via une licence ouverte

Limitations

  1. Précision du Traitement Linguistique : La précision de l'analyse du cinghalais et du tamoul doit être améliorée
  2. Limitations des Capacités OCR : Capacités insuffisantes pour traiter les PDF numérisés ou non structurés
  3. Étendue de la Couverture : Certaines institutions gouvernementales et sources médiatiques ne sont pas encore incluses
  4. Variation de la Qualité des Données : Différences de qualité des données selon les sources

Orientations Futures

  1. Expansion de la Couverture : Ajout de plus d'institutions gouvernementales, sources médiatiques et archives historiques
  2. Amélioration du Traitement Linguistique : Amélioration de la segmentation en mots du cinghalais et du tamoul, traitement des polices et plongements multilingues
  3. Intégration de l'OCR : Expérimentation de pipelines OCR basés sur l'apprentissage profond, combinés avec reconnaissance de mise en page et modélisation du langage

Évaluation Approfondie

Points Forts

  1. Échelle et Qualité des Données : Ensemble de données volumineux de 230 091 documents couvrant plusieurs domaines importants
  2. Excellente Implémentation Technique : Pipeline de données entièrement automatisé assurant l'actualité et la cohérence des données
  3. Ouverture et Transparence : Accès entièrement ouvert sous licence MIT, conforme aux principes FAIR
  4. Support Multilingue : Ressource précieuse pour la recherche en langues peu dotées en ressources
  5. Valeur Pratique Élevée : Soutien aux besoins d'applications pratiques dans plusieurs domaines de recherche

Insuffisances

  1. Manque d'Évaluation : L'article manque d'évaluation quantitative et de vérification de la qualité des données
  2. Cas d'Usage Insuffisants : Absence de cas d'utilisation concrets ou de résultats de tests de référence
  3. Distribution Linguistique Inégale : Les documents en anglais dominent, la couverture des autres langues est relativement limitée
  4. Détails Techniques Insuffisants : Certains détails d'implémentation technique ne sont pas suffisamment détaillés

Impact

  1. Contribution Académique : Établissement des fondations pour la recherche en sciences humaines numériques et linguistique informatique en Asie du Sud
  2. Valeur Sociale : Amélioration de la transparence gouvernementale, soutien à la participation et à la surveillance citoyennes
  3. Démonstration Technique : Référence pour d'autres pays en développement établissant des infrastructures de données similaires
  4. Durabilité : Établissement d'un mécanisme durable de collecte et de maintenance des données

Scénarios d'Application

  1. Traitement Automatique du Langage Naturel : Entraînement et évaluation de modèles multilingues
  2. Technologie Juridique : Analyse de documents juridiques et recherche jurisprudentielle
  3. Analyse Politique : Suivi des décisions gouvernementales et des changements politiques
  4. Recherche Médiatique : Analyse des tendances d'actualités et analyse des sentiments
  5. Gouvernance Numérique : Recherche sur l'administration électronique et la transparence

Références Bibliographiques

L'article cite plusieurs travaux importants dans les domaines connexes, notamment :

  • Meilleures pratiques en MLOps et construction de pipelines de données
  • Cadres de gouvernance des données ouvertes
  • Normes éthiques et techniques du web scraping
  • Principes FAIR pour la gestion des données scientifiques
  • Littérature connexe sur la recherche reproductible

Évaluation Globale : Il s'agit d'un article de jeu de données d'une valeur pratique importante, fournissant une infrastructure précieuse pour la recherche numérique au Sri Lanka et dans la région d'Asie du Sud. Bien que l'innovation technique soit relativement limitée, ses contributions en termes d'échelle de données, d'ouverture et de durabilité méritent d'être reconnues. Ce travail établit un excellent exemple pour la recherche en sciences humaines numériques dans les langues peu dotées en ressources et les pays en développement.