2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.

academic

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

基本信息

论文ID: 2510.04124
标题: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
作者: Nuwan I. Senaratna (Independent Researcher)
分类: cs.CL (Computational Linguistics)
发表时间: arXiv preprint, v2025-10-16-0818
论文链接: https://arxiv.org/abs/2510.04124

摘要

本文介绍了一个大规模的开放式、机器可读的斯里兰卡文档数据集合，涵盖议会记录、法律判决、政府出版物、新闻和旅游统计等内容。该集合目前包含230,091个文档（57.7 GB），跨越24个数据集，支持僧伽罗语、泰米尔语和英语三种语言。数据集每日更新，并在GitHub和Hugging Face上进行镜像。这些资源旨在支持计算语言学、法律分析、社会政治研究和多语言自然语言处理的研究。

研究背景与动机

问题定义

斯里兰卡的数字化法律、政策和媒体记录分散在众多政府和私人来源中，大部分信息以PDF或网页形式存在，缺乏机器可读的结构或公共存档的一致性。这种碎片化限制了公民、记者和研究人员对该国治理、历史和社会经济趋势的访问。

重要性

数据稀缺性：南亚地区，特别是斯里兰卡，缺乏统一且机器可读的公共记录文档
语言多样性：支持低资源语言（僧伽罗语、泰米尔语）的NLP研究需求
透明度需求：增强公民参与和学术研究的透明度和可验证性
跨领域应用：支持法律分析、政策研究、媒体监控等多个领域

现有局限性

全球大型语料库（如Common Crawl、Wikipedia Dumps）主要由高资源语言数据主导
区域性倡议分散且通常关注单个媒体或机构
先前数据集在规模、语言覆盖或时间连续性方面存在限制

核心贡献

构建了大规模多语言文档集合：230,091个文档，涵盖24个不同类型的数据集
建立了自动化数据收集管道：实现连续发现、摄取、解析、验证和版本控制
提供了开放访问的数据基础设施：MIT许可证下的完全开放数据集
支持多领域研究应用：计算语言学、法律分析、社会政治研究等
确保数据质量和可重现性：标准化格式、版本控制和透明的数据来源

方法详解

数据集构成

论文详细描述了24个数据集，主要分为以下几类：

1. 法律文档类

Hansard（议会记录）：1,665个文档，17.9 GB，2006-2025年
上诉法院判决：10,164个文档，10.5 GB，2012-2025年
最高法院判决：2,168个文档，1.4 GB，2009-2025年
法律条文：3,934个文档，6.9 GB，1981-2025年
法案：4,080个文档，1.9 GB，2010-2025年

2. 政府出版物类

特别公报（2020s）：45,373个文档，1.3 GB
特别公报（2010s）：56,379个文档，3.3 GB
内阁决议：10,385个文档，136.4 MB
财政部新闻稿：134个文档，144.5 MB

3. 新闻和媒体类

新闻文档：81,155个文档，1.2 GB，2021-2025年
总统媒体司新闻稿：2,182个文档，55.9 MB

4. 统计和报告类

旅游统计报告：161个文档，405.7 MB
渔业统计报告：417个文档，101.4 MB
央行年度报告：1,137个文档，3.5 GB

数据收集管道

技术架构

GitHub Actions编排：使用cron作业实现每日多次运行
矩阵策略：隔离每个数据源，允许独立重试
增量更新：通过稳定键（URL+日期）和内容哈希检测新项目或更改项目

爬取实现

工具：Python + Selenium + 无头Chrome浏览器
动态内容处理：通过显式条件等待动态内容加载
礼貌性约束：遵守robots.txt，限制请求频率，随机化延迟

数据处理

PDF解析：使用PyMuPDF提取文本、元数据和布局块
质量控制：模式验证、必填字段强制执行、校验和防护
版本控制：保存原始工件和解析后的JSON表示

技术创新点

自动化管道：完全自动化的数据收集、处理和更新流程
多格式支持：同时处理HTML和PDF格式的文档
增量更新机制：高效的变更检测和版本控制
质量保证：多层次的数据验证和错误处理
透明性设计：完整的元数据记录和可审计的数据来源

实验设置

数据统计

总文档数：230,091个
总大小：57.7 GB
数据集数量：24个
语言覆盖：僧伽罗语、泰米尔语、英语
时间跨度：1950年至2025年（根据不同数据集变化）

数据质量评估

完整性检查：必填字段验证
一致性验证：格式标准化
重复检测：基于内容哈希的去重
时间有效性：日期范围验证

实验结果

数据集规模分析

类别	文档数量	数据大小	主要语言
法律文档	62,314	36.7 GB	英语为主
政府出版物	112,473	5.0 GB	多语言
新闻媒体	83,337	1.3 GB	多语言
统计报告	5,742	14.7 GB	英语为主

时间覆盖分析

历史深度：最早文档可追溯至1950年（央行年度报告）
更新频率：每日自动更新
数据新鲜度：大部分数据集覆盖至2025年10月

语言分布

英语：政府官方文档、法律判决的主要语言
僧伽罗语：本地新闻、部分政府文档
泰米尔语：少数民族语言文档

相关工作

全球大型语料库

Common Crawl：通用网络爬取数据
Wikipedia Dumps：维基百科数据转储
OpenWebText：开放网络文本语料库

区域性倡议

Indian Kanoon：印度法律语料库
OpenSubtitles：多语言字幕数据集
African News Corpus：非洲新闻语料库

南亚地区现状

现有努力分散且通常关注个别媒体机构
缺乏综合性和机器可读的文档记录
在规模、语言覆盖或时间连续性方面存在限制

结论与讨论

主要结论

成功构建了斯里兰卡最大规模的多语言文档数据集
建立了可持续的自动化数据收集和更新机制
为计算语言学和数字治理研究提供了宝贵资源
通过开放许可证确保了数据的可访问性和可重用性

局限性

语言处理精度：僧伽罗语和泰米尔语的解析准确性有待提高
OCR能力限制：对于扫描或非结构化PDF的处理能力不足
覆盖范围：仍有部分政府机构和媒体来源未包含
数据质量差异：不同来源的数据质量存在差异

未来方向

扩展覆盖范围：添加更多政府机构、媒体来源和历史档案
提升语言处理：改进僧伽罗语和泰米尔语的分词、字体处理和多语言嵌入
集成OCR解析：实验基于深度学习的OCR管道，结合布局识别和语言建模

深度评价

优点

数据规模和质量：230,091个文档的大规模数据集，覆盖多个重要领域
技术实现优秀：完全自动化的数据管道，确保数据的及时性和一致性
开放性和透明度：MIT许可证下的完全开放访问，符合FAIR原则
多语言支持：为低资源语言研究提供了宝贵资源
实用价值高：支持多个研究领域的实际应用需求

不足

评估缺乏：论文缺乏对数据质量的定量评估和验证
应用案例不足：未提供具体的使用案例或基准测试结果
语言分布不均：英语文档占主导，其他语言覆盖相对有限
技术细节不够深入：某些技术实现细节描述不够详细

影响力

学术贡献：为南亚地区数字人文和计算语言学研究奠定基础
社会价值：提高政府透明度，支持公民参与和监督
技术示范：为其他发展中国家建立类似数据基础设施提供参考
可持续性：建立了可持续的数据收集和维护机制

适用场景

自然语言处理：多语言模型训练和评估
法律科技：法律文档分析和判例研究
政策分析：政府决策和政策变化追踪
媒体研究：新闻趋势和舆情分析
数字治理：电子政务和透明度研究

参考文献

论文引用了多个相关领域的重要工作，包括：

MLOps和数据管道构建的最佳实践
开放数据治理框架
网络爬取的伦理和技术标准
科学数据管理的FAIR原则
可重现性研究的相关文献

总体评价：这是一篇具有重要实用价值的数据集论文，为斯里兰卡乃至南亚地区的数字化研究提供了宝贵的基础设施。虽然在技术创新性方面相对有限，但其在数据规模、开放性和可持续性方面的贡献值得肯定。该工作为低资源语言和发展中国家的数字人文研究树立了良好的范例。