2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.

academic

Conjuntos de Datos de Documentos de Sri Lanka: Un Recurso Multilingüe a Gran Escala para Derecho, Noticias y Política

Información Básica

ID del Artículo: 2510.04124
Título: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
Autor: Nuwan I. Senaratna (Investigador Independiente)
Clasificación: cs.CL (Lingüística Computacional)
Fecha de Publicación: preimpresión de arXiv, v2025-10-16-0818
Enlace del Artículo: https://arxiv.org/abs/2510.04124

Resumen

Este artículo presenta una colección de conjuntos de datos de documentos de Sri Lanka de gran escala, abierta y legible por máquina, que abarca registros parlamentarios, sentencias judiciales, publicaciones gubernamentales, noticias y estadísticas de turismo. La colección contiene actualmente 230,091 documentos (57.7 GB), distribuidos en 24 conjuntos de datos, con soporte para tres idiomas: cingalés, tamil e inglés. Los conjuntos de datos se actualizan diariamente y se replican en GitHub y Hugging Face. Estos recursos tienen como objetivo respaldar la investigación en lingüística computacional, análisis legal, investigación sociopolítica y procesamiento del lenguaje natural multilingüe.

Antecedentes de Investigación y Motivación

Definición del Problema

Los registros digitalizados de leyes, políticas y medios de Sri Lanka se encuentran dispersos en numerosas fuentes gubernamentales y privadas, con la mayoría de la información existente en forma de PDF o páginas web, careciendo de estructura legible por máquina o consistencia en archivos públicos. Esta fragmentación limita el acceso de ciudadanos, periodistas e investigadores a información sobre la gobernanza, historia y tendencias socioeconómicas del país.

Importancia

Escasez de Datos: La región de Asia Meridional, particularmente Sri Lanka, carece de registros públicos unificados y legibles por máquina
Diversidad Lingüística: Necesidad de investigación en PNL que apoye idiomas de bajos recursos (cingalés, tamil)
Requisitos de Transparencia: Mejorar la transparencia y verificabilidad para la participación ciudadana e investigación académica
Aplicaciones Multidisciplinarias: Apoyo para análisis legal, investigación de políticas, monitoreo de medios y otros campos

Limitaciones Existentes

Los grandes corpus globales (como Common Crawl, Wikipedia Dumps) están dominados principalmente por datos de idiomas de altos recursos
Las iniciativas regionales están dispersas y generalmente se centran en medios o instituciones individuales
Los conjuntos de datos anteriores tienen limitaciones en escala, cobertura lingüística o continuidad temporal

Contribuciones Principales

Construcción de una colección de documentos multilingüe a gran escala: 230,091 documentos distribuidos en 24 conjuntos de datos de diferentes tipos
Establecimiento de un pipeline de recopilación de datos automatizado: Implementación de descubrimiento continuo, ingesta, análisis, validación y control de versiones
Provisión de infraestructura de datos de acceso abierto: Conjunto de datos completamente abierto bajo licencia MIT
Apoyo a aplicaciones de investigación multidisciplinaria: Lingüística computacional, análisis legal, investigación sociopolítica, etc.
Garantía de calidad de datos y reproducibilidad: Formato estandarizado, control de versiones y fuentes de datos transparentes

Explicación Detallada de la Metodología

Composición del Conjunto de Datos

El artículo describe detalladamente 24 conjuntos de datos, clasificados principalmente en las siguientes categorías:

1. Documentos Legales

Hansard (Registros Parlamentarios): 1,665 documentos, 17.9 GB, 2006-2025
Sentencias de la Corte de Apelaciones: 10,164 documentos, 10.5 GB, 2012-2025
Sentencias de la Corte Suprema: 2,168 documentos, 1.4 GB, 2009-2025
Estatutos Legales: 3,934 documentos, 6.9 GB, 1981-2025
Proyectos de Ley: 4,080 documentos, 1.9 GB, 2010-2025

2. Publicaciones Gubernamentales

Gaceta Extraordinaria (2020s): 45,373 documentos, 1.3 GB
Gaceta Extraordinaria (2010s): 56,379 documentos, 3.3 GB
Resoluciones del Gabinete: 10,385 documentos, 136.4 MB
Comunicados de Prensa del Ministerio de Hacienda: 134 documentos, 144.5 MB

3. Noticias y Medios

Documentos de Noticias: 81,155 documentos, 1.2 GB, 2021-2025
Comunicados de Prensa de la Oficina de Medios Presidencial: 2,182 documentos, 55.9 MB

4. Estadísticas e Informes

Informes de Estadísticas de Turismo: 161 documentos, 405.7 MB
Informes de Estadísticas de Pesca: 417 documentos, 101.4 MB
Informes Anuales del Banco Central: 1,137 documentos, 3.5 GB

Pipeline de Recopilación de Datos

Arquitectura Técnica

Orquestación de GitHub Actions: Implementación de trabajos cron para múltiples ejecuciones diarias
Estrategia de Matriz: Aislamiento de cada fuente de datos, permitiendo reintentos independientes
Actualizaciones Incrementales: Detección de elementos nuevos o modificados mediante claves estables (URL + fecha) y hash de contenido

Implementación de Rastreo

Herramientas: Python + Selenium + navegador Chrome sin interfaz gráfica
Manejo de Contenido Dinámico: Carga de contenido dinámico mediante esperas explícitas condicionales
Restricciones de Cortesía: Respeto a robots.txt, limitación de frecuencia de solicitudes, aleatorización de retrasos

Procesamiento de Datos

Análisis de PDF: Extracción de texto, metadatos y bloques de diseño mediante PyMuPDF
Control de Calidad: Validación de patrones, aplicación de campos obligatorios, protección mediante sumas de verificación
Control de Versiones: Preservación de artefactos originales y representaciones JSON analizadas

Puntos de Innovación Técnica

Pipeline Automatizado: Proceso completamente automatizado de recopilación, procesamiento y actualización de datos
Soporte Multiformato: Manejo simultáneo de documentos en formatos HTML y PDF
Mecanismo de Actualización Incremental: Detección eficiente de cambios y control de versiones
Garantía de Calidad: Validación de datos multinivel y manejo de errores
Diseño de Transparencia: Registro completo de metadatos y fuentes de datos auditables

Configuración Experimental

Estadísticas de Datos

Número Total de Documentos: 230,091
Tamaño Total: 57.7 GB
Número de Conjuntos de Datos: 24
Cobertura Lingüística: Cingalés, tamil, inglés
Período de Tiempo: 1950 a 2025 (varía según el conjunto de datos)

Evaluación de Calidad de Datos

Verificación de Integridad: Validación de campos obligatorios
Validación de Consistencia: Estandarización de formato
Detección de Duplicados: Deduplicación basada en hash de contenido
Validez Temporal: Validación de rango de fechas

Resultados Experimentales

Análisis de Escala del Conjunto de Datos

Categoría	Número de Documentos	Tamaño de Datos	Idioma Principal
Documentos Legales	62,314	36.7 GB	Principalmente inglés
Publicaciones Gubernamentales	112,473	5.0 GB	Multilingüe
Medios de Comunicación	83,337	1.3 GB	Multilingüe
Informes Estadísticos	5,742	14.7 GB	Principalmente inglés

Análisis de Cobertura Temporal

Profundidad Histórica: Los documentos más antiguos se remontan a 1950 (informes anuales del banco central)
Frecuencia de Actualización: Actualización automática diaria
Actualidad de Datos: La mayoría de los conjuntos de datos cubren hasta octubre de 2025

Distribución Lingüística

Inglés: Idioma principal en documentos oficiales gubernamentales y sentencias judiciales
Cingalés: Noticias locales y algunos documentos gubernamentales
Tamil: Documentos en idioma de minorías

Trabajos Relacionados

Corpus Globales de Gran Escala

Common Crawl: Datos de rastreo web general
Wikipedia Dumps: Volcados de datos de Wikipedia
OpenWebText: Corpus de texto web abierto

Iniciativas Regionales

Indian Kanoon: Corpus legal de India
OpenSubtitles: Conjunto de datos de subtítulos multilingües
African News Corpus: Corpus de noticias africanas

Situación en Asia Meridional

Los esfuerzos existentes están dispersos y generalmente se centran en instituciones de medios individuales
Falta de registros de documentos integrales y legibles por máquina
Limitaciones en escala, cobertura lingüística o continuidad temporal

Conclusiones y Discusión

Conclusiones Principales

Construcción exitosa del conjunto de datos de documentos multilingüe más grande de Sri Lanka
Establecimiento de un mecanismo sostenible de recopilación y actualización de datos automatizado
Provisión de recursos valiosos para investigación en lingüística computacional y gobernanza digital
Garantía de accesibilidad y reutilización de datos mediante licencia abierta

Limitaciones

Precisión del Procesamiento Lingüístico: La precisión del análisis de cingalés y tamil requiere mejora
Limitaciones de Capacidad OCR: Capacidad insuficiente para manejar PDF escaneados o no estructurados
Alcance de Cobertura: Aún hay instituciones gubernamentales y fuentes de medios no incluidas
Variabilidad de Calidad de Datos: Existe variación en la calidad de datos entre diferentes fuentes

Direcciones Futuras

Expansión de Cobertura: Adición de más instituciones gubernamentales, fuentes de medios y archivos históricos
Mejora del Procesamiento Lingüístico: Mejora de la segmentación de palabras en cingalés y tamil, manejo de fuentes y embeddings multilingües
Integración de Análisis OCR: Experimentación con pipelines OCR basados en aprendizaje profundo, combinados con reconocimiento de diseño y modelado del lenguaje

Evaluación Profunda

Fortalezas

Escala y Calidad de Datos: Conjunto de datos de gran escala de 230,091 documentos, cubriendo múltiples campos importantes
Excelente Implementación Técnica: Pipeline de datos completamente automatizado, garantizando oportunidad y consistencia de datos
Apertura y Transparencia: Acceso completamente abierto bajo licencia MIT, conforme con principios FAIR
Soporte Multilingüe: Provisión de recursos valiosos para investigación en idiomas de bajos recursos
Alto Valor Práctico: Apoyo a necesidades de aplicación práctica en múltiples campos de investigación

Deficiencias

Falta de Evaluación: El artículo carece de evaluación cuantitativa y verificación de calidad de datos
Casos de Uso Insuficientes: No se proporcionan casos de uso específicos o resultados de pruebas de referencia
Distribución Lingüística Desigual: Documentos en inglés dominan, cobertura de otros idiomas relativamente limitada
Detalles Técnicos Insuficientemente Profundos: Descripción de algunos detalles de implementación técnica no suficientemente detallada

Impacto

Contribución Académica: Establecimiento de base para investigación en humanidades digitales y lingüística computacional en Asia Meridional
Valor Social: Mejora de la transparencia gubernamental, apoyo a participación ciudadana y supervisión
Demostración Técnica: Proporciona referencia para que otros países en desarrollo establezcan infraestructura de datos similar
Sostenibilidad: Establecimiento de mecanismo sostenible de recopilación y mantenimiento de datos

Escenarios Aplicables

Procesamiento del Lenguaje Natural: Entrenamiento y evaluación de modelos multilingües
Tecnología Legal: Análisis de documentos legales e investigación de jurisprudencia
Análisis de Políticas: Seguimiento de decisiones gubernamentales y cambios de políticas
Investigación de Medios: Análisis de tendencias de noticias y análisis de sentimientos
Gobernanza Digital: Investigación de gobierno electrónico y transparencia

Referencias

El artículo cita trabajos importantes en múltiples campos relacionados, incluyendo:

Mejores prácticas en construcción de MLOps y pipelines de datos
Marcos de gobernanza de datos abiertos
Estándares éticos y técnicos de rastreo web
Principios FAIR en gestión de datos científicos
Literatura relacionada con investigación reproducible

Evaluación General: Este es un artículo de conjunto de datos con importante valor práctico, que proporciona infraestructura valiosa para investigación digitalizada en Sri Lanka y la región de Asia Meridional. Aunque la innovación técnica es relativamente limitada, sus contribuciones en escala de datos, apertura y sostenibilidad merecen reconocimiento. Este trabajo establece un buen ejemplo para investigación en humanidades digitales en idiomas de bajos recursos y países en desarrollo.