We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic- ID статьи: 2510.04124
- Название: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
- Автор: Nuwan I. Senaratna (независимый исследователь)
- Категория: cs.CL (Компьютерная лингвистика)
- Дата публикации: препринт arXiv, v2025-10-16-0818
- Ссылка на статью: https://arxiv.org/abs/2510.04124
В данной статье представлен крупномасштабный открытый машиночитаемый набор документов Шри-Ланки, охватывающий парламентские записи, судебные решения, государственные публикации, новости и туристическую статистику. Коллекция в настоящее время содержит 230 091 документ (57,7 ГБ) в составе 24 датасетов и поддерживает три языка: сингальский, тамильский и английский. Датасеты обновляются ежедневно и зеркалируются на GitHub и Hugging Face. Эти ресурсы предназначены для поддержки исследований в области компьютерной лингвистики, правового анализа, социально-политических исследований и многоязычной обработки естественного языка.
Оцифрованные юридические, политические и медийные записи Шри-Ланки разбросаны по многочисленным государственным и частным источникам, большинство информации существует в формате PDF или веб-страниц, лишены машиночитаемой структуры или согласованности в общественных архивах. Такая фрагментация ограничивает доступ граждан, журналистов и исследователей к информации об управлении страной, истории и социально-экономических тенденциях.
- Дефицит данных: Южная Азия, в частности Шри-Ланка, испытывает нехватку унифицированных и машиночитаемых документов общественных записей
- Языковое разнообразие: Необходимость поддержки исследований НОП для языков с ограниченными ресурсами (сингальский, тамильский)
- Требования прозрачности: Повышение прозрачности и проверяемости для гражданского участия и академических исследований
- Межотраслевые приложения: Поддержка правового анализа, политических исследований, мониторинга СМИ и других областей
- Глобальные крупные корпусы (такие как Common Crawl, Wikipedia Dumps) в основном доминируются данными на языках с высокими ресурсами
- Региональные инициативы разрозненны и обычно сосредоточены на отдельных СМИ или учреждениях
- Предыдущие датасеты имели ограничения в масштабе, языковом охвате или временной непрерывности
- Построение крупномасштабной многоязычной коллекции документов: 230 091 документ, охватывающий 24 различных типа датасетов
- Создание автоматизированного конвейера сбора данных: реализация непрерывного обнаружения, приема, парсинга, валидации и контроля версий
- Предоставление открытой инфраструктуры доступа к данным: полностью открытый датасет под лицензией MIT
- Поддержка многодисциплинарных исследовательских приложений: компьютерная лингвистика, правовой анализ, социально-политические исследования и т.д.
- Обеспечение качества данных и воспроизводимости: стандартизированные форматы, контроль версий и прозрачные источники данных
В статье подробно описаны 24 датасета, в основном разделенные на следующие категории:
- Hansard (парламентские записи): 1 665 документов, 17,9 ГБ, 2006-2025 гг.
- Решения апелляционного суда: 10 164 документа, 10,5 ГБ, 2012-2025 гг.
- Решения Верховного суда: 2 168 документов, 1,4 ГБ, 2009-2025 гг.
- Статуты: 3 934 документа, 6,9 ГБ, 1981-2025 гг.
- Законопроекты: 4 080 документов, 1,9 ГБ, 2010-2025 гг.
- Специальные бюллетени (2020-е): 45 373 документа, 1,3 ГБ
- Специальные бюллетени (2010-е): 56 379 документов, 3,3 ГБ
- Решения кабинета министров: 10 385 документов, 136,4 МБ
- Пресс-релизы Министерства финансов: 134 документа, 144,5 МБ
- Новостные документы: 81 155 документов, 1,2 ГБ, 2021-2025 гг.
- Пресс-релизы Президентского медиа-офиса: 2 182 документа, 55,9 МБ
- Отчеты туристической статистики: 161 документ, 405,7 МБ
- Отчеты рыболовной статистики: 417 документов, 101,4 МБ
- Годовые отчеты центрального банка: 1 137 документов, 3,5 ГБ
- Оркестровка GitHub Actions: использование cron-заданий для многократного ежедневного запуска
- Матричная стратегия: изоляция каждого источника данных, позволяющая независимые повторные попытки
- Инкрементальные обновления: обнаружение новых или измененных элементов через стабильные ключи (URL + дата) и хеши содержимого
- Инструменты: Python + Selenium + безголовый браузер Chrome
- Обработка динамического содержимого: явное ожидание загрузки динамического содержимого
- Вежливые ограничения: соблюдение robots.txt, ограничение частоты запросов, рандомизация задержек
- Парсинг PDF: использование PyMuPDF для извлечения текста, метаданных и блоков макета
- Контроль качества: валидация схемы, принудительное применение обязательных полей, защита контрольной суммой
- Контроль версий: сохранение исходных артефактов и разобранных представлений JSON
- Автоматизированный конвейер: полностью автоматизированный процесс сбора, обработки и обновления данных
- Поддержка нескольких форматов: одновременная обработка документов в формате HTML и PDF
- Механизм инкрементального обновления: эффективное обнаружение изменений и контроль версий
- Гарантия качества: многоуровневая валидация данных и обработка ошибок
- Дизайн прозрачности: полная запись метаданных и проверяемые источники данных
- Общее количество документов: 230 091
- Общий размер: 57,7 ГБ
- Количество датасетов: 24
- Языковое покрытие: сингальский, тамильский, английский
- Временной диапазон: 1950-2025 гг. (варьируется в зависимости от датасета)
- Проверка полноты: валидация обязательных полей
- Проверка согласованности: стандартизация формата
- Обнаружение дубликатов: дедупликация на основе хеша содержимого
- Проверка временной валидности: валидация диапазона дат
| Категория | Количество документов | Размер данных | Основной язык |
|---|
| Юридические документы | 62 314 | 36,7 ГБ | Английский |
| Государственные публикации | 112 473 | 5,0 ГБ | Многоязычный |
| Новостные медиа | 83 337 | 1,3 ГБ | Многоязычный |
| Статистические отчеты | 5 742 | 14,7 ГБ | Английский |
- Историческая глубина: самые ранние документы восходят к 1950 году (годовые отчеты центрального банка)
- Частота обновления: автоматическое ежедневное обновление
- Свежесть данных: большинство датасетов охватывают период до октября 2025 года
- Английский: основной язык официальных государственных документов и судебных решений
- Сингальский: местные новости, некоторые государственные документы
- Тамильский: документы на языке национального меньшинства
- Common Crawl: данные общего веб-скрейпинга
- Wikipedia Dumps: дампы данных Википедии
- OpenWebText: корпус открытого веб-текста
- Indian Kanoon: корпус индийского права
- OpenSubtitles: многоязычный датасет субтитров
- African News Corpus: корпус африканских новостей
- Существующие усилия разрозненны и обычно сосредоточены на отдельных медиа-учреждениях
- Отсутствие комплексных и машиночитаемых записей документов
- Ограничения в масштабе, языковом охвате или временной непрерывности
- Успешно построен крупнейший многоязычный датасет документов Шри-Ланки
- Установлен устойчивый механизм автоматизированного сбора и обновления данных
- Предоставлены ценные ресурсы для исследований в области компьютерной лингвистики и цифрового управления
- Обеспечена доступность и переиспользуемость данных через открытую лицензию
- Точность обработки языка: точность парсинга сингальского и тамильского языков требует улучшения
- Ограничения OCR: недостаточные возможности обработки отсканированных или неструктурированных PDF
- Охват: некоторые государственные учреждения и источники СМИ еще не включены
- Различия в качестве данных: вариативность качества данных из разных источников
- Расширение охвата: добавление большего количества государственных учреждений, источников СМИ и исторических архивов
- Улучшение обработки языка: совершенствование сегментации сингальского и тамильского языков, обработки шрифтов и многоязычных встраиваний
- Интеграция OCR-парсинга: экспериментирование с конвейерами OCR на основе глубокого обучения в сочетании с распознаванием макета и языковым моделированием
- Масштаб и качество данных: крупномасштабный датасет из 230 091 документа, охватывающий несколько важных областей
- Отличная техническая реализация: полностью автоматизированный конвейер данных, обеспечивающий своевременность и согласованность
- Открытость и прозрачность: полностью открытый доступ под лицензией MIT, соответствует принципам FAIR
- Многоязычная поддержка: ценные ресурсы для исследований языков с ограниченными ресурсами
- Высокая практическая ценность: поддержка реальных потребностей приложений в нескольких исследовательских областях
- Отсутствие оценки: статья не содержит количественной оценки и верификации качества данных
- Недостаточно примеров применения: отсутствуют конкретные примеры использования или результаты тестирования
- Неравномерное распределение по языкам: английский язык доминирует, охват других языков относительно ограничен
- Недостаточная глубина технических деталей: описание некоторых технических деталей реализации недостаточно подробно
- Академический вклад: создание основы для исследований в области цифровых гуманитарных наук и компьютерной лингвистики в Южной Азии
- Социальная ценность: повышение государственной прозрачности, поддержка гражданского участия и надзора
- Технологический пример: справочный материал для других развивающихся стран при создании аналогичной инфраструктуры данных
- Устойчивость: установление устойчивого механизма сбора и поддержки данных
- Обработка естественного языка: обучение и оценка многоязычных моделей
- Правовые технологии: анализ юридических документов и исследование судебной практики
- Анализ политики: отслеживание государственных решений и изменений политики
- Исследования СМИ: анализ тенденций новостей и анализ общественного мнения
- Цифровое управление: исследования электронного правительства и прозрачности
В статье цитируются важные работы из смежных областей, включая:
- Лучшие практики MLOps и построения конвейеров данных
- Рамки открытого управления данными
- Этические и технические стандарты веб-скрейпинга
- Принципы FAIR управления научными данными
- Литература по воспроизводимости исследований
Общая оценка: Это статья с важной практической ценностью, предоставляющая ценную инфраструктуру для цифровых исследований в Шри-Ланке и Южной Азии. Хотя технологические инновации относительно ограничены, вклад в масштаб данных, открытость и устойчивость заслуживает признания. Данная работа служит хорошим примером для исследований цифровых гуманитарных наук в языках с ограниченными ресурсами и развивающихся странах.