2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna
We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic

Conjuntos de Datos de Documentos de Sri Lanka: Un Recurso Multilingüe a Gran Escala para Derecho, Noticias y Política

Información Básica

  • ID del Artículo: 2510.04124
  • Título: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
  • Autor: Nuwan I. Senaratna (Investigador Independiente)
  • Clasificación: cs.CL (Lingüística Computacional)
  • Fecha de Publicación: preimpresión de arXiv, v2025-10-16-0818
  • Enlace del Artículo: https://arxiv.org/abs/2510.04124

Resumen

Este artículo presenta una colección de conjuntos de datos de documentos de Sri Lanka de gran escala, abierta y legible por máquina, que abarca registros parlamentarios, sentencias judiciales, publicaciones gubernamentales, noticias y estadísticas de turismo. La colección contiene actualmente 230,091 documentos (57.7 GB), distribuidos en 24 conjuntos de datos, con soporte para tres idiomas: cingalés, tamil e inglés. Los conjuntos de datos se actualizan diariamente y se replican en GitHub y Hugging Face. Estos recursos tienen como objetivo respaldar la investigación en lingüística computacional, análisis legal, investigación sociopolítica y procesamiento del lenguaje natural multilingüe.

Antecedentes de Investigación y Motivación

Definición del Problema

Los registros digitalizados de leyes, políticas y medios de Sri Lanka se encuentran dispersos en numerosas fuentes gubernamentales y privadas, con la mayoría de la información existente en forma de PDF o páginas web, careciendo de estructura legible por máquina o consistencia en archivos públicos. Esta fragmentación limita el acceso de ciudadanos, periodistas e investigadores a información sobre la gobernanza, historia y tendencias socioeconómicas del país.

Importancia

  1. Escasez de Datos: La región de Asia Meridional, particularmente Sri Lanka, carece de registros públicos unificados y legibles por máquina
  2. Diversidad Lingüística: Necesidad de investigación en PNL que apoye idiomas de bajos recursos (cingalés, tamil)
  3. Requisitos de Transparencia: Mejorar la transparencia y verificabilidad para la participación ciudadana e investigación académica
  4. Aplicaciones Multidisciplinarias: Apoyo para análisis legal, investigación de políticas, monitoreo de medios y otros campos

Limitaciones Existentes

  • Los grandes corpus globales (como Common Crawl, Wikipedia Dumps) están dominados principalmente por datos de idiomas de altos recursos
  • Las iniciativas regionales están dispersas y generalmente se centran en medios o instituciones individuales
  • Los conjuntos de datos anteriores tienen limitaciones en escala, cobertura lingüística o continuidad temporal

Contribuciones Principales

  1. Construcción de una colección de documentos multilingüe a gran escala: 230,091 documentos distribuidos en 24 conjuntos de datos de diferentes tipos
  2. Establecimiento de un pipeline de recopilación de datos automatizado: Implementación de descubrimiento continuo, ingesta, análisis, validación y control de versiones
  3. Provisión de infraestructura de datos de acceso abierto: Conjunto de datos completamente abierto bajo licencia MIT
  4. Apoyo a aplicaciones de investigación multidisciplinaria: Lingüística computacional, análisis legal, investigación sociopolítica, etc.
  5. Garantía de calidad de datos y reproducibilidad: Formato estandarizado, control de versiones y fuentes de datos transparentes

Explicación Detallada de la Metodología

Composición del Conjunto de Datos

El artículo describe detalladamente 24 conjuntos de datos, clasificados principalmente en las siguientes categorías:

1. Documentos Legales

  • Hansard (Registros Parlamentarios): 1,665 documentos, 17.9 GB, 2006-2025
  • Sentencias de la Corte de Apelaciones: 10,164 documentos, 10.5 GB, 2012-2025
  • Sentencias de la Corte Suprema: 2,168 documentos, 1.4 GB, 2009-2025
  • Estatutos Legales: 3,934 documentos, 6.9 GB, 1981-2025
  • Proyectos de Ley: 4,080 documentos, 1.9 GB, 2010-2025

2. Publicaciones Gubernamentales

  • Gaceta Extraordinaria (2020s): 45,373 documentos, 1.3 GB
  • Gaceta Extraordinaria (2010s): 56,379 documentos, 3.3 GB
  • Resoluciones del Gabinete: 10,385 documentos, 136.4 MB
  • Comunicados de Prensa del Ministerio de Hacienda: 134 documentos, 144.5 MB

3. Noticias y Medios

  • Documentos de Noticias: 81,155 documentos, 1.2 GB, 2021-2025
  • Comunicados de Prensa de la Oficina de Medios Presidencial: 2,182 documentos, 55.9 MB

4. Estadísticas e Informes

  • Informes de Estadísticas de Turismo: 161 documentos, 405.7 MB
  • Informes de Estadísticas de Pesca: 417 documentos, 101.4 MB
  • Informes Anuales del Banco Central: 1,137 documentos, 3.5 GB

Pipeline de Recopilación de Datos

Arquitectura Técnica

  1. Orquestación de GitHub Actions: Implementación de trabajos cron para múltiples ejecuciones diarias
  2. Estrategia de Matriz: Aislamiento de cada fuente de datos, permitiendo reintentos independientes
  3. Actualizaciones Incrementales: Detección de elementos nuevos o modificados mediante claves estables (URL + fecha) y hash de contenido

Implementación de Rastreo

  • Herramientas: Python + Selenium + navegador Chrome sin interfaz gráfica
  • Manejo de Contenido Dinámico: Carga de contenido dinámico mediante esperas explícitas condicionales
  • Restricciones de Cortesía: Respeto a robots.txt, limitación de frecuencia de solicitudes, aleatorización de retrasos

Procesamiento de Datos

  1. Análisis de PDF: Extracción de texto, metadatos y bloques de diseño mediante PyMuPDF
  2. Control de Calidad: Validación de patrones, aplicación de campos obligatorios, protección mediante sumas de verificación
  3. Control de Versiones: Preservación de artefactos originales y representaciones JSON analizadas

Puntos de Innovación Técnica

  1. Pipeline Automatizado: Proceso completamente automatizado de recopilación, procesamiento y actualización de datos
  2. Soporte Multiformato: Manejo simultáneo de documentos en formatos HTML y PDF
  3. Mecanismo de Actualización Incremental: Detección eficiente de cambios y control de versiones
  4. Garantía de Calidad: Validación de datos multinivel y manejo de errores
  5. Diseño de Transparencia: Registro completo de metadatos y fuentes de datos auditables

Configuración Experimental

Estadísticas de Datos

  • Número Total de Documentos: 230,091
  • Tamaño Total: 57.7 GB
  • Número de Conjuntos de Datos: 24
  • Cobertura Lingüística: Cingalés, tamil, inglés
  • Período de Tiempo: 1950 a 2025 (varía según el conjunto de datos)

Evaluación de Calidad de Datos

  • Verificación de Integridad: Validación de campos obligatorios
  • Validación de Consistencia: Estandarización de formato
  • Detección de Duplicados: Deduplicación basada en hash de contenido
  • Validez Temporal: Validación de rango de fechas

Resultados Experimentales

Análisis de Escala del Conjunto de Datos

CategoríaNúmero de DocumentosTamaño de DatosIdioma Principal
Documentos Legales62,31436.7 GBPrincipalmente inglés
Publicaciones Gubernamentales112,4735.0 GBMultilingüe
Medios de Comunicación83,3371.3 GBMultilingüe
Informes Estadísticos5,74214.7 GBPrincipalmente inglés

Análisis de Cobertura Temporal

  • Profundidad Histórica: Los documentos más antiguos se remontan a 1950 (informes anuales del banco central)
  • Frecuencia de Actualización: Actualización automática diaria
  • Actualidad de Datos: La mayoría de los conjuntos de datos cubren hasta octubre de 2025

Distribución Lingüística

  • Inglés: Idioma principal en documentos oficiales gubernamentales y sentencias judiciales
  • Cingalés: Noticias locales y algunos documentos gubernamentales
  • Tamil: Documentos en idioma de minorías

Trabajos Relacionados

Corpus Globales de Gran Escala

  • Common Crawl: Datos de rastreo web general
  • Wikipedia Dumps: Volcados de datos de Wikipedia
  • OpenWebText: Corpus de texto web abierto

Iniciativas Regionales

  • Indian Kanoon: Corpus legal de India
  • OpenSubtitles: Conjunto de datos de subtítulos multilingües
  • African News Corpus: Corpus de noticias africanas

Situación en Asia Meridional

  • Los esfuerzos existentes están dispersos y generalmente se centran en instituciones de medios individuales
  • Falta de registros de documentos integrales y legibles por máquina
  • Limitaciones en escala, cobertura lingüística o continuidad temporal

Conclusiones y Discusión

Conclusiones Principales

  1. Construcción exitosa del conjunto de datos de documentos multilingüe más grande de Sri Lanka
  2. Establecimiento de un mecanismo sostenible de recopilación y actualización de datos automatizado
  3. Provisión de recursos valiosos para investigación en lingüística computacional y gobernanza digital
  4. Garantía de accesibilidad y reutilización de datos mediante licencia abierta

Limitaciones

  1. Precisión del Procesamiento Lingüístico: La precisión del análisis de cingalés y tamil requiere mejora
  2. Limitaciones de Capacidad OCR: Capacidad insuficiente para manejar PDF escaneados o no estructurados
  3. Alcance de Cobertura: Aún hay instituciones gubernamentales y fuentes de medios no incluidas
  4. Variabilidad de Calidad de Datos: Existe variación en la calidad de datos entre diferentes fuentes

Direcciones Futuras

  1. Expansión de Cobertura: Adición de más instituciones gubernamentales, fuentes de medios y archivos históricos
  2. Mejora del Procesamiento Lingüístico: Mejora de la segmentación de palabras en cingalés y tamil, manejo de fuentes y embeddings multilingües
  3. Integración de Análisis OCR: Experimentación con pipelines OCR basados en aprendizaje profundo, combinados con reconocimiento de diseño y modelado del lenguaje

Evaluación Profunda

Fortalezas

  1. Escala y Calidad de Datos: Conjunto de datos de gran escala de 230,091 documentos, cubriendo múltiples campos importantes
  2. Excelente Implementación Técnica: Pipeline de datos completamente automatizado, garantizando oportunidad y consistencia de datos
  3. Apertura y Transparencia: Acceso completamente abierto bajo licencia MIT, conforme con principios FAIR
  4. Soporte Multilingüe: Provisión de recursos valiosos para investigación en idiomas de bajos recursos
  5. Alto Valor Práctico: Apoyo a necesidades de aplicación práctica en múltiples campos de investigación

Deficiencias

  1. Falta de Evaluación: El artículo carece de evaluación cuantitativa y verificación de calidad de datos
  2. Casos de Uso Insuficientes: No se proporcionan casos de uso específicos o resultados de pruebas de referencia
  3. Distribución Lingüística Desigual: Documentos en inglés dominan, cobertura de otros idiomas relativamente limitada
  4. Detalles Técnicos Insuficientemente Profundos: Descripción de algunos detalles de implementación técnica no suficientemente detallada

Impacto

  1. Contribución Académica: Establecimiento de base para investigación en humanidades digitales y lingüística computacional en Asia Meridional
  2. Valor Social: Mejora de la transparencia gubernamental, apoyo a participación ciudadana y supervisión
  3. Demostración Técnica: Proporciona referencia para que otros países en desarrollo establezcan infraestructura de datos similar
  4. Sostenibilidad: Establecimiento de mecanismo sostenible de recopilación y mantenimiento de datos

Escenarios Aplicables

  1. Procesamiento del Lenguaje Natural: Entrenamiento y evaluación de modelos multilingües
  2. Tecnología Legal: Análisis de documentos legales e investigación de jurisprudencia
  3. Análisis de Políticas: Seguimiento de decisiones gubernamentales y cambios de políticas
  4. Investigación de Medios: Análisis de tendencias de noticias y análisis de sentimientos
  5. Gobernanza Digital: Investigación de gobierno electrónico y transparencia

Referencias

El artículo cita trabajos importantes en múltiples campos relacionados, incluyendo:

  • Mejores prácticas en construcción de MLOps y pipelines de datos
  • Marcos de gobernanza de datos abiertos
  • Estándares éticos y técnicos de rastreo web
  • Principios FAIR en gestión de datos científicos
  • Literatura relacionada con investigación reproducible

Evaluación General: Este es un artículo de conjunto de datos con importante valor práctico, que proporciona infraestructura valiosa para investigación digitalizada en Sri Lanka y la región de Asia Meridional. Aunque la innovación técnica es relativamente limitada, sus contribuciones en escala de datos, apertura y sostenibilidad merecen reconocimiento. Este trabajo establece un buen ejemplo para investigación en humanidades digitales en idiomas de bajos recursos y países en desarrollo.