2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.

academic

Dataset di Documenti dello Sri Lanka: Una Risorsa Multilingue su Larga Scala per Diritto, Notizie e Politica

Informazioni Fondamentali

ID Articolo: 2510.04124
Titolo: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
Autore: Nuwan I. Senaratna (Ricercatore Indipendente)
Classificazione: cs.CL (Linguistica Computazionale)
Data di Pubblicazione: arXiv preprint, v2025-10-16-0818
Link Articolo: https://arxiv.org/abs/2510.04124

Riassunto

Questo articolo presenta una collezione di dataset di documenti dello Sri Lanka su larga scala, open-source e leggibili da macchina, che comprende verbali parlamentari, sentenze legali, pubblicazioni governative, notizie e statistiche turistiche. La collezione attualmente contiene 230.091 documenti (57,7 GB), distribuiti su 24 dataset, con supporto per tre lingue: singalese, tamil e inglese. I dataset vengono aggiornati quotidianamente e sono disponibili su GitHub e Hugging Face. Queste risorse mirano a supportare la ricerca in linguistica computazionale, analisi legale, studi sociopolitici e elaborazione del linguaggio naturale multilingue.

Contesto di Ricerca e Motivazione

Definizione del Problema

I registri digitalizzati di leggi, politiche e media dello Sri Lanka sono dispersi in numerose fonti governative e private, con la maggior parte delle informazioni disponibili in formato PDF o pagine web, prive di struttura leggibile da macchina o coerenza negli archivi pubblici. Questa frammentazione limita l'accesso dei cittadini, giornalisti e ricercatori alle informazioni sulla governance, storia e tendenze socioeconomiche del paese.

Importanza

Scarsità di Dati: L'Asia meridionale, in particolare lo Sri Lanka, manca di registri pubblici unificati e leggibili da macchina
Diversità Linguistica: Necessità di ricerca NLP per lingue a bassa risorsa (singalese, tamil)
Esigenza di Trasparenza: Migliorare la trasparenza e la verificabilità per la partecipazione civica e la ricerca accademica
Applicazioni Multidisciplinari: Supportare analisi legale, ricerca politica, monitoraggio mediatico e altri campi

Limitazioni Esistenti

I grandi corpora globali (come Common Crawl, Wikipedia Dumps) sono dominati principalmente da dati in lingue ad alta risorsa
Le iniziative regionali sono disperse e generalmente focalizzate su singoli media o istituzioni
I dataset precedenti presentano limitazioni in scala, copertura linguistica o continuità temporale

Contributi Principali

Costruzione di una collezione di documenti multilingue su larga scala: 230.091 documenti distribuiti su 24 diversi tipi di dataset
Implementazione di una pipeline automatizzata di raccolta dati: Scoperta continua, acquisizione, parsing, validazione e controllo versione
Fornitura di infrastruttura dati ad accesso aperto: Dataset completamente aperti sotto licenza MIT
Supporto per applicazioni di ricerca multidisciplinare: Linguistica computazionale, analisi legale, studi sociopolitici, ecc.
Garanzia di qualità dei dati e riproducibilità: Formati standardizzati, controllo versione e tracciabilità trasparente delle fonti

Dettagli Metodologici

Composizione dei Dataset

L'articolo descrive in dettaglio 24 dataset, principalmente suddivisi nelle seguenti categorie:

1. Documenti Legali

Hansard (Verbali Parlamentari): 1.665 documenti, 17,9 GB, 2006-2025
Sentenze della Corte d'Appello: 10.164 documenti, 10,5 GB, 2012-2025
Sentenze della Corte Suprema: 2.168 documenti, 1,4 GB, 2009-2025
Testi di Legge: 3.934 documenti, 6,9 GB, 1981-2025
Progetti di Legge: 4.080 documenti, 1,9 GB, 2010-2025

2. Pubblicazioni Governative

Gazzette Straordinarie (anni 2020): 45.373 documenti, 1,3 GB
Gazzette Straordinarie (anni 2010): 56.379 documenti, 3,3 GB
Decisioni Gabinetto: 10.385 documenti, 136,4 MB
Comunicati Stampa del Ministero delle Finanze: 134 documenti, 144,5 MB

3. Notizie e Media

Documenti di Notizie: 81.155 documenti, 1,2 GB, 2021-2025
Comunicati Stampa dell'Ufficio Media Presidenziale: 2.182 documenti, 55,9 MB

4. Statistiche e Rapporti

Rapporti Statistici Turistici: 161 documenti, 405,7 MB
Rapporti Statistici sulla Pesca: 417 documenti, 101,4 MB
Rapporti Annuali della Banca Centrale: 1.137 documenti, 3,5 GB

Pipeline di Raccolta Dati

Architettura Tecnica

Orchestrazione GitHub Actions: Utilizzo di job cron per esecuzioni multiple giornaliere
Strategia Matrice: Isolamento di ogni fonte dati, consentendo tentativi indipendenti
Aggiornamenti Incrementali: Rilevamento di elementi nuovi o modificati tramite chiavi stabili (URL + data) e hash del contenuto

Implementazione del Web Scraping

Strumenti: Python + Selenium + browser Chrome headless
Gestione Contenuti Dinamici: Caricamento di contenuti dinamici tramite attese esplicite condizionali
Vincoli di Cortesia: Rispetto di robots.txt, limitazione della frequenza di richieste, randomizzazione dei ritardi

Elaborazione Dati

Parsing PDF: Estrazione di testo, metadati e blocchi di layout utilizzando PyMuPDF
Controllo Qualità: Validazione di schemi, applicazione di campi obbligatori, protezione tramite checksum
Controllo Versione: Conservazione di artefatti originali e rappresentazioni JSON analizzate

Innovazioni Tecniche

Pipeline Automatizzata: Processo completamente automatizzato di raccolta, elaborazione e aggiornamento dati
Supporto Multi-formato: Gestione simultanea di documenti in formato HTML e PDF
Meccanismo di Aggiornamento Incrementale: Rilevamento efficiente delle modifiche e controllo versione
Assicurazione Qualità: Validazione dati multi-livello e gestione degli errori
Progettazione della Trasparenza: Registrazione completa dei metadati e tracciabilità delle fonti

Configurazione Sperimentale

Statistiche dei Dati

Numero Totale di Documenti: 230.091
Dimensione Totale: 57,7 GB
Numero di Dataset: 24
Copertura Linguistica: Singalese, Tamil, Inglese
Intervallo Temporale: 1950-2025 (varia secondo i diversi dataset)

Valutazione della Qualità dei Dati

Controlli di Completezza: Validazione dei campi obbligatori
Validazione di Coerenza: Standardizzazione dei formati
Rilevamento Duplicati: Deduplicazione basata su hash del contenuto
Validità Temporale: Validazione dell'intervallo di date

Risultati Sperimentali

Analisi della Scala dei Dataset

Categoria	Numero Documenti	Dimensione Dati	Lingua Principale
Documenti Legali	62.314	36,7 GB	Principalmente Inglese
Pubblicazioni Governative	112.473	5,0 GB	Multilingue
Media e Notizie	83.337	1,3 GB	Multilingue
Rapporti Statistici	5.742	14,7 GB	Principalmente Inglese

Analisi della Copertura Temporale

Profondità Storica: I documenti più antichi risalgono al 1950 (rapporti annuali della banca centrale)
Frequenza di Aggiornamento: Aggiornamento automatico quotidiano
Freschezza dei Dati: La maggior parte dei dataset copre fino a ottobre 2025

Distribuzione Linguistica

Inglese: Lingua principale dei documenti ufficiali governativi e delle sentenze legali
Singalese: Notizie locali e alcuni documenti governativi
Tamil: Documenti in lingua minoritaria

Lavori Correlati

Corpora Globali su Larga Scala

Common Crawl: Dati di web scraping generico
Wikipedia Dumps: Dump di dati Wikipedia
OpenWebText: Corpus di testo web aperto

Iniziative Regionali

Indian Kanoon: Corpus legale indiano
OpenSubtitles: Dataset di sottotitoli multilingue
African News Corpus: Corpus di notizie africane

Situazione nell'Asia Meridionale

Gli sforzi esistenti sono dispersi e generalmente focalizzati su singole istituzioni mediatiche
Mancanza di registri di documenti unificati e leggibili da macchina
Limitazioni in scala, copertura linguistica o continuità temporale

Conclusioni e Discussione

Conclusioni Principali

Costruzione riuscita del più grande dataset di documenti multilingue dello Sri Lanka
Implementazione di un meccanismo sostenibile di raccolta e aggiornamento dati automatizzato
Fornitura di risorse preziose per la ricerca in linguistica computazionale e governance digitale
Garanzia dell'accessibilità e della riusabilità dei dati attraverso licenze aperte

Limitazioni

Precisione dell'Elaborazione Linguistica: L'accuratezza del parsing del singalese e del tamil necessita di miglioramenti
Limitazioni delle Capacità OCR: Capacità insufficiente nel gestire PDF scansionati o non strutturati
Portata della Copertura: Alcune istituzioni governative e fonti mediatiche rimangono non incluse
Variabilità della Qualità dei Dati: Differenze nella qualità dei dati tra diverse fonti

Direzioni Future

Espansione della Copertura: Aggiunta di ulteriori istituzioni governative, fonti mediatiche e archivi storici
Miglioramento dell'Elaborazione Linguistica: Miglioramento della tokenizzazione, gestione dei font e embedding multilingue per singalese e tamil
Integrazione di Pipeline OCR: Sperimentazione di pipeline OCR basate su deep learning, combinate con riconoscimento del layout e modellazione linguistica

Valutazione Approfondita

Punti di Forza

Scala e Qualità dei Dati: Dataset su larga scala di 230.091 documenti, coprendo molteplici settori importanti
Eccellente Implementazione Tecnica: Pipeline dati completamente automatizzata, garantendo tempestività e coerenza dei dati
Apertura e Trasparenza: Accesso completamente aperto sotto licenza MIT, conforme ai principi FAIR
Supporto Multilingue: Risorse preziose per la ricerca in lingue a bassa risorsa
Alto Valore Pratico: Supporto per le esigenze di applicazione pratica di molteplici campi di ricerca

Carenze

Mancanza di Valutazione: L'articolo manca di valutazione quantitativa e verifica della qualità dei dati
Insufficienza di Casi d'Uso: Mancanza di casi d'uso specifici o risultati di benchmark
Distribuzione Linguistica Squilibrata: I documenti in inglese dominano, con copertura relativamente limitata di altre lingue
Dettagli Tecnici Insufficienti: Descrizione non abbastanza dettagliata di alcuni aspetti dell'implementazione tecnica

Impatto

Contributo Accademico: Fondazione per la ricerca in digital humanities e linguistica computazionale nell'Asia meridionale
Valore Sociale: Miglioramento della trasparenza governativa, supporto alla partecipazione civica e supervisione
Dimostrazione Tecnica: Riferimento per l'implementazione di infrastrutture dati simili in altri paesi in via di sviluppo
Sostenibilità: Implementazione di un meccanismo sostenibile di raccolta e manutenzione dei dati

Scenari Applicabili

Elaborazione del Linguaggio Naturale: Addestramento e valutazione di modelli multilingue
Legal Tech: Analisi di documenti legali e ricerca di giurisprudenza
Analisi Politica: Tracciamento delle decisioni governative e dei cambiamenti politici
Ricerca Mediatica: Analisi di tendenze nelle notizie e sentiment analysis
Governance Digitale: Ricerca su e-government e trasparenza amministrativa

Bibliografia

L'articolo cita numerosi lavori importanti in campi correlati, inclusi:

Best practice nella costruzione di pipeline MLOps e dati
Framework di governance dei dati aperti
Standard etici e tecnici per il web scraping
Principi FAIR per la gestione dei dati scientifici
Letteratura correlata sulla ricerca riproducibile

Valutazione Complessiva: Questo è un articolo di dataset con importante valore pratico, che fornisce un'infrastruttura preziosa per la ricerca digitalizzata nello Sri Lanka e nell'Asia meridionale. Sebbene relativamente limitato in termini di innovazione tecnica, i suoi contributi in scala dei dati, apertura e sostenibilità meritano riconoscimento. Questo lavoro stabilisce un eccellente precedente per la ricerca in digital humanities in lingue a bassa risorsa e paesi in via di sviluppo.