2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna
We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic

Dataset di Documenti dello Sri Lanka: Una Risorsa Multilingue su Larga Scala per Diritto, Notizie e Politica

Informazioni Fondamentali

  • ID Articolo: 2510.04124
  • Titolo: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
  • Autore: Nuwan I. Senaratna (Ricercatore Indipendente)
  • Classificazione: cs.CL (Linguistica Computazionale)
  • Data di Pubblicazione: arXiv preprint, v2025-10-16-0818
  • Link Articolo: https://arxiv.org/abs/2510.04124

Riassunto

Questo articolo presenta una collezione di dataset di documenti dello Sri Lanka su larga scala, open-source e leggibili da macchina, che comprende verbali parlamentari, sentenze legali, pubblicazioni governative, notizie e statistiche turistiche. La collezione attualmente contiene 230.091 documenti (57,7 GB), distribuiti su 24 dataset, con supporto per tre lingue: singalese, tamil e inglese. I dataset vengono aggiornati quotidianamente e sono disponibili su GitHub e Hugging Face. Queste risorse mirano a supportare la ricerca in linguistica computazionale, analisi legale, studi sociopolitici e elaborazione del linguaggio naturale multilingue.

Contesto di Ricerca e Motivazione

Definizione del Problema

I registri digitalizzati di leggi, politiche e media dello Sri Lanka sono dispersi in numerose fonti governative e private, con la maggior parte delle informazioni disponibili in formato PDF o pagine web, prive di struttura leggibile da macchina o coerenza negli archivi pubblici. Questa frammentazione limita l'accesso dei cittadini, giornalisti e ricercatori alle informazioni sulla governance, storia e tendenze socioeconomiche del paese.

Importanza

  1. Scarsità di Dati: L'Asia meridionale, in particolare lo Sri Lanka, manca di registri pubblici unificati e leggibili da macchina
  2. Diversità Linguistica: Necessità di ricerca NLP per lingue a bassa risorsa (singalese, tamil)
  3. Esigenza di Trasparenza: Migliorare la trasparenza e la verificabilità per la partecipazione civica e la ricerca accademica
  4. Applicazioni Multidisciplinari: Supportare analisi legale, ricerca politica, monitoraggio mediatico e altri campi

Limitazioni Esistenti

  • I grandi corpora globali (come Common Crawl, Wikipedia Dumps) sono dominati principalmente da dati in lingue ad alta risorsa
  • Le iniziative regionali sono disperse e generalmente focalizzate su singoli media o istituzioni
  • I dataset precedenti presentano limitazioni in scala, copertura linguistica o continuità temporale

Contributi Principali

  1. Costruzione di una collezione di documenti multilingue su larga scala: 230.091 documenti distribuiti su 24 diversi tipi di dataset
  2. Implementazione di una pipeline automatizzata di raccolta dati: Scoperta continua, acquisizione, parsing, validazione e controllo versione
  3. Fornitura di infrastruttura dati ad accesso aperto: Dataset completamente aperti sotto licenza MIT
  4. Supporto per applicazioni di ricerca multidisciplinare: Linguistica computazionale, analisi legale, studi sociopolitici, ecc.
  5. Garanzia di qualità dei dati e riproducibilità: Formati standardizzati, controllo versione e tracciabilità trasparente delle fonti

Dettagli Metodologici

Composizione dei Dataset

L'articolo descrive in dettaglio 24 dataset, principalmente suddivisi nelle seguenti categorie:

1. Documenti Legali

  • Hansard (Verbali Parlamentari): 1.665 documenti, 17,9 GB, 2006-2025
  • Sentenze della Corte d'Appello: 10.164 documenti, 10,5 GB, 2012-2025
  • Sentenze della Corte Suprema: 2.168 documenti, 1,4 GB, 2009-2025
  • Testi di Legge: 3.934 documenti, 6,9 GB, 1981-2025
  • Progetti di Legge: 4.080 documenti, 1,9 GB, 2010-2025

2. Pubblicazioni Governative

  • Gazzette Straordinarie (anni 2020): 45.373 documenti, 1,3 GB
  • Gazzette Straordinarie (anni 2010): 56.379 documenti, 3,3 GB
  • Decisioni Gabinetto: 10.385 documenti, 136,4 MB
  • Comunicati Stampa del Ministero delle Finanze: 134 documenti, 144,5 MB

3. Notizie e Media

  • Documenti di Notizie: 81.155 documenti, 1,2 GB, 2021-2025
  • Comunicati Stampa dell'Ufficio Media Presidenziale: 2.182 documenti, 55,9 MB

4. Statistiche e Rapporti

  • Rapporti Statistici Turistici: 161 documenti, 405,7 MB
  • Rapporti Statistici sulla Pesca: 417 documenti, 101,4 MB
  • Rapporti Annuali della Banca Centrale: 1.137 documenti, 3,5 GB

Pipeline di Raccolta Dati

Architettura Tecnica

  1. Orchestrazione GitHub Actions: Utilizzo di job cron per esecuzioni multiple giornaliere
  2. Strategia Matrice: Isolamento di ogni fonte dati, consentendo tentativi indipendenti
  3. Aggiornamenti Incrementali: Rilevamento di elementi nuovi o modificati tramite chiavi stabili (URL + data) e hash del contenuto

Implementazione del Web Scraping

  • Strumenti: Python + Selenium + browser Chrome headless
  • Gestione Contenuti Dinamici: Caricamento di contenuti dinamici tramite attese esplicite condizionali
  • Vincoli di Cortesia: Rispetto di robots.txt, limitazione della frequenza di richieste, randomizzazione dei ritardi

Elaborazione Dati

  1. Parsing PDF: Estrazione di testo, metadati e blocchi di layout utilizzando PyMuPDF
  2. Controllo Qualità: Validazione di schemi, applicazione di campi obbligatori, protezione tramite checksum
  3. Controllo Versione: Conservazione di artefatti originali e rappresentazioni JSON analizzate

Innovazioni Tecniche

  1. Pipeline Automatizzata: Processo completamente automatizzato di raccolta, elaborazione e aggiornamento dati
  2. Supporto Multi-formato: Gestione simultanea di documenti in formato HTML e PDF
  3. Meccanismo di Aggiornamento Incrementale: Rilevamento efficiente delle modifiche e controllo versione
  4. Assicurazione Qualità: Validazione dati multi-livello e gestione degli errori
  5. Progettazione della Trasparenza: Registrazione completa dei metadati e tracciabilità delle fonti

Configurazione Sperimentale

Statistiche dei Dati

  • Numero Totale di Documenti: 230.091
  • Dimensione Totale: 57,7 GB
  • Numero di Dataset: 24
  • Copertura Linguistica: Singalese, Tamil, Inglese
  • Intervallo Temporale: 1950-2025 (varia secondo i diversi dataset)

Valutazione della Qualità dei Dati

  • Controlli di Completezza: Validazione dei campi obbligatori
  • Validazione di Coerenza: Standardizzazione dei formati
  • Rilevamento Duplicati: Deduplicazione basata su hash del contenuto
  • Validità Temporale: Validazione dell'intervallo di date

Risultati Sperimentali

Analisi della Scala dei Dataset

CategoriaNumero DocumentiDimensione DatiLingua Principale
Documenti Legali62.31436,7 GBPrincipalmente Inglese
Pubblicazioni Governative112.4735,0 GBMultilingue
Media e Notizie83.3371,3 GBMultilingue
Rapporti Statistici5.74214,7 GBPrincipalmente Inglese

Analisi della Copertura Temporale

  • Profondità Storica: I documenti più antichi risalgono al 1950 (rapporti annuali della banca centrale)
  • Frequenza di Aggiornamento: Aggiornamento automatico quotidiano
  • Freschezza dei Dati: La maggior parte dei dataset copre fino a ottobre 2025

Distribuzione Linguistica

  • Inglese: Lingua principale dei documenti ufficiali governativi e delle sentenze legali
  • Singalese: Notizie locali e alcuni documenti governativi
  • Tamil: Documenti in lingua minoritaria

Lavori Correlati

Corpora Globali su Larga Scala

  • Common Crawl: Dati di web scraping generico
  • Wikipedia Dumps: Dump di dati Wikipedia
  • OpenWebText: Corpus di testo web aperto

Iniziative Regionali

  • Indian Kanoon: Corpus legale indiano
  • OpenSubtitles: Dataset di sottotitoli multilingue
  • African News Corpus: Corpus di notizie africane

Situazione nell'Asia Meridionale

  • Gli sforzi esistenti sono dispersi e generalmente focalizzati su singole istituzioni mediatiche
  • Mancanza di registri di documenti unificati e leggibili da macchina
  • Limitazioni in scala, copertura linguistica o continuità temporale

Conclusioni e Discussione

Conclusioni Principali

  1. Costruzione riuscita del più grande dataset di documenti multilingue dello Sri Lanka
  2. Implementazione di un meccanismo sostenibile di raccolta e aggiornamento dati automatizzato
  3. Fornitura di risorse preziose per la ricerca in linguistica computazionale e governance digitale
  4. Garanzia dell'accessibilità e della riusabilità dei dati attraverso licenze aperte

Limitazioni

  1. Precisione dell'Elaborazione Linguistica: L'accuratezza del parsing del singalese e del tamil necessita di miglioramenti
  2. Limitazioni delle Capacità OCR: Capacità insufficiente nel gestire PDF scansionati o non strutturati
  3. Portata della Copertura: Alcune istituzioni governative e fonti mediatiche rimangono non incluse
  4. Variabilità della Qualità dei Dati: Differenze nella qualità dei dati tra diverse fonti

Direzioni Future

  1. Espansione della Copertura: Aggiunta di ulteriori istituzioni governative, fonti mediatiche e archivi storici
  2. Miglioramento dell'Elaborazione Linguistica: Miglioramento della tokenizzazione, gestione dei font e embedding multilingue per singalese e tamil
  3. Integrazione di Pipeline OCR: Sperimentazione di pipeline OCR basate su deep learning, combinate con riconoscimento del layout e modellazione linguistica

Valutazione Approfondita

Punti di Forza

  1. Scala e Qualità dei Dati: Dataset su larga scala di 230.091 documenti, coprendo molteplici settori importanti
  2. Eccellente Implementazione Tecnica: Pipeline dati completamente automatizzata, garantendo tempestività e coerenza dei dati
  3. Apertura e Trasparenza: Accesso completamente aperto sotto licenza MIT, conforme ai principi FAIR
  4. Supporto Multilingue: Risorse preziose per la ricerca in lingue a bassa risorsa
  5. Alto Valore Pratico: Supporto per le esigenze di applicazione pratica di molteplici campi di ricerca

Carenze

  1. Mancanza di Valutazione: L'articolo manca di valutazione quantitativa e verifica della qualità dei dati
  2. Insufficienza di Casi d'Uso: Mancanza di casi d'uso specifici o risultati di benchmark
  3. Distribuzione Linguistica Squilibrata: I documenti in inglese dominano, con copertura relativamente limitata di altre lingue
  4. Dettagli Tecnici Insufficienti: Descrizione non abbastanza dettagliata di alcuni aspetti dell'implementazione tecnica

Impatto

  1. Contributo Accademico: Fondazione per la ricerca in digital humanities e linguistica computazionale nell'Asia meridionale
  2. Valore Sociale: Miglioramento della trasparenza governativa, supporto alla partecipazione civica e supervisione
  3. Dimostrazione Tecnica: Riferimento per l'implementazione di infrastrutture dati simili in altri paesi in via di sviluppo
  4. Sostenibilità: Implementazione di un meccanismo sostenibile di raccolta e manutenzione dei dati

Scenari Applicabili

  1. Elaborazione del Linguaggio Naturale: Addestramento e valutazione di modelli multilingue
  2. Legal Tech: Analisi di documenti legali e ricerca di giurisprudenza
  3. Analisi Politica: Tracciamento delle decisioni governative e dei cambiamenti politici
  4. Ricerca Mediatica: Analisi di tendenze nelle notizie e sentiment analysis
  5. Governance Digitale: Ricerca su e-government e trasparenza amministrativa

Bibliografia

L'articolo cita numerosi lavori importanti in campi correlati, inclusi:

  • Best practice nella costruzione di pipeline MLOps e dati
  • Framework di governance dei dati aperti
  • Standard etici e tecnici per il web scraping
  • Principi FAIR per la gestione dei dati scientifici
  • Letteratura correlata sulla ricerca riproducibile

Valutazione Complessiva: Questo è un articolo di dataset con importante valore pratico, che fornisce un'infrastruttura preziosa per la ricerca digitalizzata nello Sri Lanka e nell'Asia meridionale. Sebbene relativamente limitato in termini di innovazione tecnica, i suoi contributi in scala dei dati, apertura e sostenibilità meritano riconoscimento. Questo lavoro stabilisce un eccellente precedente per la ricerca in digital humanities in lingue a bassa risorsa e paesi in via di sviluppo.