2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.

academic

Датасеты документов Шри-Ланки: крупномасштабный многоязычный ресурс для права, новостей и политики

Основная информация

ID статьи: 2510.04124
Название: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
Автор: Nuwan I. Senaratna (независимый исследователь)
Категория: cs.CL (Компьютерная лингвистика)
Дата публикации: препринт arXiv, v2025-10-16-0818
Ссылка на статью: https://arxiv.org/abs/2510.04124

Аннотация

В данной статье представлен крупномасштабный открытый машиночитаемый набор документов Шри-Ланки, охватывающий парламентские записи, судебные решения, государственные публикации, новости и туристическую статистику. Коллекция в настоящее время содержит 230 091 документ (57,7 ГБ) в составе 24 датасетов и поддерживает три языка: сингальский, тамильский и английский. Датасеты обновляются ежедневно и зеркалируются на GitHub и Hugging Face. Эти ресурсы предназначены для поддержки исследований в области компьютерной лингвистики, правового анализа, социально-политических исследований и многоязычной обработки естественного языка.

Исследовательский контекст и мотивация

Определение проблемы

Оцифрованные юридические, политические и медийные записи Шри-Ланки разбросаны по многочисленным государственным и частным источникам, большинство информации существует в формате PDF или веб-страниц, лишены машиночитаемой структуры или согласованности в общественных архивах. Такая фрагментация ограничивает доступ граждан, журналистов и исследователей к информации об управлении страной, истории и социально-экономических тенденциях.

Значимость

Дефицит данных: Южная Азия, в частности Шри-Ланка, испытывает нехватку унифицированных и машиночитаемых документов общественных записей
Языковое разнообразие: Необходимость поддержки исследований НОП для языков с ограниченными ресурсами (сингальский, тамильский)
Требования прозрачности: Повышение прозрачности и проверяемости для гражданского участия и академических исследований
Межотраслевые приложения: Поддержка правового анализа, политических исследований, мониторинга СМИ и других областей

Существующие ограничения

Глобальные крупные корпусы (такие как Common Crawl, Wikipedia Dumps) в основном доминируются данными на языках с высокими ресурсами
Региональные инициативы разрозненны и обычно сосредоточены на отдельных СМИ или учреждениях
Предыдущие датасеты имели ограничения в масштабе, языковом охвате или временной непрерывности

Основные вклады

Построение крупномасштабной многоязычной коллекции документов: 230 091 документ, охватывающий 24 различных типа датасетов
Создание автоматизированного конвейера сбора данных: реализация непрерывного обнаружения, приема, парсинга, валидации и контроля версий
Предоставление открытой инфраструктуры доступа к данным: полностью открытый датасет под лицензией MIT
Поддержка многодисциплинарных исследовательских приложений: компьютерная лингвистика, правовой анализ, социально-политические исследования и т.д.
Обеспечение качества данных и воспроизводимости: стандартизированные форматы, контроль версий и прозрачные источники данных

Подробное описание методологии

Состав датасета

В статье подробно описаны 24 датасета, в основном разделенные на следующие категории:

1. Юридические документы

Hansard (парламентские записи): 1 665 документов, 17,9 ГБ, 2006-2025 гг.
Решения апелляционного суда: 10 164 документа, 10,5 ГБ, 2012-2025 гг.
Решения Верховного суда: 2 168 документов, 1,4 ГБ, 2009-2025 гг.
Статуты: 3 934 документа, 6,9 ГБ, 1981-2025 гг.
Законопроекты: 4 080 документов, 1,9 ГБ, 2010-2025 гг.

2. Государственные публикации

Специальные бюллетени (2020-е): 45 373 документа, 1,3 ГБ
Специальные бюллетени (2010-е): 56 379 документов, 3,3 ГБ
Решения кабинета министров: 10 385 документов, 136,4 МБ
Пресс-релизы Министерства финансов: 134 документа, 144,5 МБ

3. Новости и медиа

Новостные документы: 81 155 документов, 1,2 ГБ, 2021-2025 гг.
Пресс-релизы Президентского медиа-офиса: 2 182 документа, 55,9 МБ

4. Статистика и отчеты

Отчеты туристической статистики: 161 документ, 405,7 МБ
Отчеты рыболовной статистики: 417 документов, 101,4 МБ
Годовые отчеты центрального банка: 1 137 документов, 3,5 ГБ

Конвейер сбора данных

Техническая архитектура

Оркестровка GitHub Actions: использование cron-заданий для многократного ежедневного запуска
Матричная стратегия: изоляция каждого источника данных, позволяющая независимые повторные попытки
Инкрементальные обновления: обнаружение новых или измененных элементов через стабильные ключи (URL + дата) и хеши содержимого

Реализация веб-скрейпинга

Инструменты: Python + Selenium + безголовый браузер Chrome
Обработка динамического содержимого: явное ожидание загрузки динамического содержимого
Вежливые ограничения: соблюдение robots.txt, ограничение частоты запросов, рандомизация задержек

Обработка данных

Парсинг PDF: использование PyMuPDF для извлечения текста, метаданных и блоков макета
Контроль качества: валидация схемы, принудительное применение обязательных полей, защита контрольной суммой
Контроль версий: сохранение исходных артефактов и разобранных представлений JSON

Технические инновации

Автоматизированный конвейер: полностью автоматизированный процесс сбора, обработки и обновления данных
Поддержка нескольких форматов: одновременная обработка документов в формате HTML и PDF
Механизм инкрементального обновления: эффективное обнаружение изменений и контроль версий
Гарантия качества: многоуровневая валидация данных и обработка ошибок
Дизайн прозрачности: полная запись метаданных и проверяемые источники данных

Экспериментальная установка

Статистика данных

Общее количество документов: 230 091
Общий размер: 57,7 ГБ
Количество датасетов: 24
Языковое покрытие: сингальский, тамильский, английский
Временной диапазон: 1950-2025 гг. (варьируется в зависимости от датасета)

Оценка качества данных

Проверка полноты: валидация обязательных полей
Проверка согласованности: стандартизация формата
Обнаружение дубликатов: дедупликация на основе хеша содержимого
Проверка временной валидности: валидация диапазона дат

Результаты экспериментов

Анализ масштаба датасета

Категория	Количество документов	Размер данных	Основной язык
Юридические документы	62 314	36,7 ГБ	Английский
Государственные публикации	112 473	5,0 ГБ	Многоязычный
Новостные медиа	83 337	1,3 ГБ	Многоязычный
Статистические отчеты	5 742	14,7 ГБ	Английский

Анализ временного охвата

Историческая глубина: самые ранние документы восходят к 1950 году (годовые отчеты центрального банка)
Частота обновления: автоматическое ежедневное обновление
Свежесть данных: большинство датасетов охватывают период до октября 2025 года

Распределение по языкам

Английский: основной язык официальных государственных документов и судебных решений
Сингальский: местные новости, некоторые государственные документы
Тамильский: документы на языке национального меньшинства

Связанные работы

Глобальные крупные корпусы

Common Crawl: данные общего веб-скрейпинга
Wikipedia Dumps: дампы данных Википедии
OpenWebText: корпус открытого веб-текста

Региональные инициативы

Indian Kanoon: корпус индийского права
OpenSubtitles: многоязычный датасет субтитров
African News Corpus: корпус африканских новостей

Ситуация в Южной Азии

Существующие усилия разрозненны и обычно сосредоточены на отдельных медиа-учреждениях
Отсутствие комплексных и машиночитаемых записей документов
Ограничения в масштабе, языковом охвате или временной непрерывности

Заключение и обсуждение

Основные выводы

Успешно построен крупнейший многоязычный датасет документов Шри-Ланки
Установлен устойчивый механизм автоматизированного сбора и обновления данных
Предоставлены ценные ресурсы для исследований в области компьютерной лингвистики и цифрового управления
Обеспечена доступность и переиспользуемость данных через открытую лицензию

Ограничения

Точность обработки языка: точность парсинга сингальского и тамильского языков требует улучшения
Ограничения OCR: недостаточные возможности обработки отсканированных или неструктурированных PDF
Охват: некоторые государственные учреждения и источники СМИ еще не включены
Различия в качестве данных: вариативность качества данных из разных источников

Будущие направления

Расширение охвата: добавление большего количества государственных учреждений, источников СМИ и исторических архивов
Улучшение обработки языка: совершенствование сегментации сингальского и тамильского языков, обработки шрифтов и многоязычных встраиваний
Интеграция OCR-парсинга: экспериментирование с конвейерами OCR на основе глубокого обучения в сочетании с распознаванием макета и языковым моделированием

Глубокая оценка

Преимущества

Масштаб и качество данных: крупномасштабный датасет из 230 091 документа, охватывающий несколько важных областей
Отличная техническая реализация: полностью автоматизированный конвейер данных, обеспечивающий своевременность и согласованность
Открытость и прозрачность: полностью открытый доступ под лицензией MIT, соответствует принципам FAIR
Многоязычная поддержка: ценные ресурсы для исследований языков с ограниченными ресурсами
Высокая практическая ценность: поддержка реальных потребностей приложений в нескольких исследовательских областях

Недостатки

Отсутствие оценки: статья не содержит количественной оценки и верификации качества данных
Недостаточно примеров применения: отсутствуют конкретные примеры использования или результаты тестирования
Неравномерное распределение по языкам: английский язык доминирует, охват других языков относительно ограничен
Недостаточная глубина технических деталей: описание некоторых технических деталей реализации недостаточно подробно

Влияние

Академический вклад: создание основы для исследований в области цифровых гуманитарных наук и компьютерной лингвистики в Южной Азии
Социальная ценность: повышение государственной прозрачности, поддержка гражданского участия и надзора
Технологический пример: справочный материал для других развивающихся стран при создании аналогичной инфраструктуры данных
Устойчивость: установление устойчивого механизма сбора и поддержки данных

Сценарии применения

Обработка естественного языка: обучение и оценка многоязычных моделей
Правовые технологии: анализ юридических документов и исследование судебной практики
Анализ политики: отслеживание государственных решений и изменений политики
Исследования СМИ: анализ тенденций новостей и анализ общественного мнения
Цифровое управление: исследования электронного правительства и прозрачности

Библиография

В статье цитируются важные работы из смежных областей, включая:

Лучшие практики MLOps и построения конвейеров данных
Рамки открытого управления данными
Этические и технические стандарты веб-скрейпинга
Принципы FAIR управления научными данными
Литература по воспроизводимости исследований

Общая оценка: Это статья с важной практической ценностью, предоставляющая ценную инфраструктуру для цифровых исследований в Шри-Ланке и Южной Азии. Хотя технологические инновации относительно ограничены, вклад в масштаб данных, открытость и устойчивость заслуживает признания. Данная работа служит хорошим примером для исследований цифровых гуманитарных наук в языках с ограниченными ресурсами и развивающихся странах.