2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.

academic

مجموعات بيانات سريلانكا: مورد واسع النطاق ومتعدد اللغات للقانون والأخبار والسياسة

المعلومات الأساسية

معرّف الورقة: 2510.04124
العنوان: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
المؤلف: نوان آي. سيناراتنا (باحث مستقل)
التصنيف: cs.CL (اللسانيات الحاسوبية)
تاريخ النشر: ورقة arXiv، الإصدار v2025-10-16-0818
رابط الورقة: https://arxiv.org/abs/2510.04124

الملخص

تقدم هذه الورقة مجموعة بيانات وثائق سريلانكية كبيرة الحجم ومفتوحة وقابلة للقراءة الآلية، تغطي السجلات البرلمانية والأحكام القانونية والمنشورات الحكومية والأخبار والإحصائيات السياحية. تحتوي المجموعة حالياً على 230,091 وثيقة (57.7 جيجابايت) عبر 24 مجموعة بيانات، وتدعم ثلاث لغات: السنهالية والتاميلية والإنجليزية. يتم تحديث مجموعات البيانات يومياً وتتم مرآتها على GitHub و Hugging Face. تهدف هذه الموارد إلى دعم البحث في اللسانيات الحاسوبية وتحليل القانون والدراسات الاجتماعية والسياسية ومعالجة اللغات الطبيعية متعددة اللغات.

السياق البحثي والدافع

تعريف المشكلة

السجلات الرقمية للقانون والسياسة والإعلام في سريلانكا موزعة عبر عدد كبير من المصادر الحكومية والخاصة، معظم المعلومات موجودة في شكل ملفات PDF أو صفحات ويب، وتفتقر إلى البنية القابلة للقراءة الآلية أو الاتساق في الأرشيفات العامة. يحد هذا التجزؤ من وصول المواطنين والصحفيين والباحثين إلى المعلومات المتعلقة بحكم الدولة والتاريخ والاتجاهات الاجتماعية والاقتصادية.

الأهمية

ندرة البيانات: منطقة جنوب آسيا، وخاصة سريلانكا، تفتقر إلى سجلات عامة موحدة وقابلة للقراءة الآلية
التنوع اللغوي: الحاجة إلى دعم أبحاث معالجة اللغات الطبيعية للغات منخفضة الموارد (السنهالية والتاميلية)
متطلبات الشفافية: تعزيز الشفافية والقابلية للتحقق من المشاركة المدنية والبحث الأكاديمي
التطبيقات عبر المجالات: دعم تحليل القانون وأبحاث السياسة ومراقبة الإعلام والمجالات الأخرى

القيود الحالية

المجموعات اللغوية الكبيرة العالمية (مثل Common Crawl و Wikipedia Dumps) يهيمن عليها بيانات اللغات عالية الموارد
المبادرات الإقليمية موزعة وعادة ما تركز على وسائط أو مؤسسات فردية
مجموعات البيانات السابقة لها قيود في الحجم أو تغطية اللغات أو الاستمرارية الزمنية

المساهمات الأساسية

بناء مجموعة وثائق متعددة اللغات كبيرة الحجم: 230,091 وثيقة تغطي 24 نوع مجموعة بيانات مختلفة
إنشاء خط أنابيب جمع بيانات آلي: يحقق الاكتشاف المستمر والاستيعاب والتحليل والتحقق والتحكم في الإصدارات
توفير بنية تحتية بيانات مفتوحة الوصول: مجموعة بيانات مفتوحة تماماً بموجب ترخيص MIT
دعم تطبيقات البحث متعددة المجالات: اللسانيات الحاسوبية وتحليل القانون والدراسات الاجتماعية والسياسية وغيرها
ضمان جودة البيانات والقابلية للتكرار: تنسيقات موحدة والتحكم في الإصدارات ومصادر بيانات شفافة

شرح المنهجية

تكوين مجموعات البيانات

تصف الورقة بالتفصيل 24 مجموعة بيانات، موزعة بشكل أساسي على الفئات التالية:

1. فئة الوثائق القانونية

Hansard (السجلات البرلمانية): 1,665 وثيقة، 17.9 جيجابايت، 2006-2025
أحكام محكمة الاستئناف: 10,164 وثيقة، 10.5 جيجابايت، 2012-2025
أحكام المحكمة العليا: 2,168 وثيقة، 1.4 جيجابايت، 2009-2025
النصوص القانونية: 3,934 وثيقة، 6.9 جيجابايت، 1981-2025
مشاريع القوانين: 4,080 وثيقة، 1.9 جيجابايت، 2010-2025

2. فئة المنشورات الحكومية

النشرات الرسمية الخاصة (2020s): 45,373 وثيقة، 1.3 جيجابايت
النشرات الرسمية الخاصة (2010s): 56,379 وثيقة، 3.3 جيجابايت
قرارات مجلس الوزراء: 10,385 وثيقة، 136.4 ميجابايت
بيانات صحفية من وزارة المالية: 134 وثيقة، 144.5 ميجابايت

3. فئة الأخبار والإعلام

وثائق الأخبار: 81,155 وثيقة، 1.2 جيجابايت، 2021-2025
بيانات صحفية من مكتب الرئاسة الإعلامي: 2,182 وثيقة، 55.9 ميجابايت

4. فئة الإحصائيات والتقارير

تقارير الإحصائيات السياحية: 161 وثيقة، 405.7 ميجابايت
تقارير إحصائيات الصيد: 417 وثيقة، 101.4 ميجابايت
التقارير السنوية للبنك المركزي: 1,137 وثيقة، 3.5 جيجابايت

خط أنابيب جمع البيانات

البنية التقنية

تنسيق GitHub Actions: استخدام وظائف cron لتنفيذ متعدد يومي
استراتيجية المصفوفة: عزل كل مصدر بيانات، مما يسمح بإعادة محاولة مستقلة
التحديثات الإضافية: اكتشاف العناصر الجديدة أو المعدلة من خلال مفاتيح مستقرة (URL + التاريخ) وتجزئة المحتوى

تنفيذ الزحف

الأدوات: Python + Selenium + متصفح Chrome بدون رأس
معالجة المحتوى الديناميكي: من خلال انتظار شروط صريحة لتحميل المحتوى الديناميكي
قيود الأدب: الامتثال لـ robots.txt، تحديد تكرار الطلبات، عشوائية التأخيرات

معالجة البيانات

تحليل PDF: استخدام PyMuPDF لاستخراج النص والبيانات الوصفية وكتل التخطيط
مراقبة الجودة: التحقق من الأنماط وفرض الحقول المطلوبة وحماية المجموع الاختباري
التحكم في الإصدارات: حفظ الأعمال الأصلية والتمثيلات المحللة بصيغة JSON

نقاط الابتكار التقني

خط أنابيب آلي: عملية جمع بيانات ومعالجة وتحديث مؤتمتة بالكامل
دعم تنسيقات متعددة: معالجة متزامنة لوثائق HTML و PDF
آلية التحديث الإضافي: كشف التغييرات والتحكم في الإصدارات بكفاءة
ضمان الجودة: التحقق من البيانات متعدد المستويات ومعالجة الأخطاء
تصميم الشفافية: تسجيل البيانات الوصفية الكاملة ومصادر البيانات القابلة للتدقيق

إعداد التجارب

إحصائيات البيانات

إجمالي عدد الوثائق: 230,091 وثيقة
الحجم الإجمالي: 57.7 جيجابايت
عدد مجموعات البيانات: 24 مجموعة
تغطية اللغات: السنهالية والتاميلية والإنجليزية
النطاق الزمني: 1950 إلى 2025 (يختلف حسب مجموعة البيانات)

تقييم جودة البيانات

فحوصات الاكتمال: التحقق من الحقول المطلوبة
التحقق من الاتساق: توحيد التنسيق
كشف التكرار: إزالة التكرار بناءً على تجزئة المحتوى
صحة التاريخ: التحقق من نطاق التاريخ

نتائج التجارب

تحليل حجم مجموعات البيانات

الفئة	عدد الوثائق	حجم البيانات	اللغة الرئيسية
الوثائق القانونية	62,314	36.7 جيجابايت	الإنجليزية بشكل أساسي
المنشورات الحكومية	112,473	5.0 جيجابايت	متعددة اللغات
وسائط الأخبار	83,337	1.3 جيجابايت	متعددة اللغات
التقارير الإحصائية	5,742	14.7 جيجابايت	الإنجليزية بشكل أساسي

تحليل التغطية الزمنية

العمق التاريخي: يمكن تتبع أقدم الوثائق إلى عام 1950 (التقارير السنوية للبنك المركزي)
تكرار التحديث: تحديث آلي يومي
حداثة البيانات: تغطي معظم مجموعات البيانات حتى أكتوبر 2025

توزيع اللغات

الإنجليزية: اللغة الرئيسية للوثائق الحكومية الرسمية والأحكام القانونية
السنهالية: الأخبار المحلية وأجزاء من الوثائق الحكومية
التاميلية: وثائق لغات الأقليات

الأعمال ذات الصلة

المجموعات اللغوية الكبيرة العالمية

Common Crawl: بيانات الزحف على الويب العام
Wikipedia Dumps: تفريغات بيانات ويكيبيديا
OpenWebText: مجموعة نصوص الويب المفتوحة

المبادرات الإقليمية

Indian Kanoon: مجموعة القانون الهندي
OpenSubtitles: مجموعة بيانات الترجمات متعددة اللغات
African News Corpus: مجموعة الأخبار الأفريقية

الوضع الحالي في جنوب آسيا

الجهود الحالية موزعة وعادة ما تركز على مؤسسات إعلامية فردية
نقص السجلات الشاملة والقابلة للقراءة الآلية
قيود في الحجم أو تغطية اللغات أو الاستمرارية الزمنية

الخلاصة والمناقشة

الاستنتاجات الرئيسية

تم بناء أكبر مجموعة بيانات وثائق متعددة اللغات في سريلانكا بنجاح
تم إنشاء آلية جمع بيانات آلية وقابلة للاستدامة وتحديث
توفير مورد قيم لأبحاث اللسانيات الحاسوبية والحكومة الرقمية
ضمان إمكانية الوصول إلى البيانات وإعادة استخدامها من خلال ترخيص مفتوح

القيود

دقة معالجة اللغات: دقة التحليل للسنهالية والتاميلية تحتاج إلى تحسين
قيود القدرات البصرية: قدرات معالجة ملفات PDF الممسوحة ضوئياً أو غير المنظمة غير كافية
نطاق التغطية: لا تزال هناك أجزاء من المؤسسات الحكومية ومصادر الإعلام غير مدرجة
اختلاف جودة البيانات: توجد اختلافات في جودة البيانات بين المصادر المختلفة

الاتجاهات المستقبلية

توسيع النطاق: إضافة المزيد من المؤسسات الحكومية ومصادر الإعلام والأرشيفات التاريخية
تحسين معالجة اللغات: تحسين التقسيم والمعالجة الخطية والتضمينات متعددة اللغات للسنهالية والتاميلية
دمج OCR: تجربة خطوط أنابيب OCR المستندة إلى التعلم العميق، مع الجمع بين التعرف على التخطيط والنمذجة اللغوية

التقييم المتعمق

المزايا

حجم البيانات والجودة: مجموعة بيانات كبيرة الحجم من 230,091 وثيقة تغطي مجالات متعددة مهمة
التنفيذ التقني الممتاز: خط أنابيب بيانات مؤتمت بالكامل يضمن التحديث والاتساق
الانفتاح والشفافية: وصول مفتوح تماماً بموجب ترخيص MIT، يتوافق مع مبادئ FAIR
دعم متعدد اللغات: توفير مورد قيم لأبحاث اللغات منخفضة الموارد
قيمة عملية عالية: دعم احتياجات التطبيقات الفعلية في مجالات بحثية متعددة

أوجه القصور

نقص التقييم: تفتقر الورقة إلى تقييم كمي والتحقق من جودة البيانات
عدم كفاية حالات الاستخدام: لم تقدم حالات استخدام محددة أو نتائج اختبار معيارية
عدم التوازن في توزيع اللغات: الوثائق الإنجليزية تهيمن، والتغطية اللغوية الأخرى محدودة نسبياً
التفاصيل التقنية غير كافية: بعض تفاصيل التنفيذ التقني لم يتم وصفها بتفصيل كافٍ

التأثير

المساهمة الأكاديمية: وضع الأساس لأبحاث العلوم الإنسانية الرقمية واللسانيات الحاسوبية في جنوب آسيا
القيمة الاجتماعية: تحسين شفافية الحكومة ودعم المشاركة المدنية والإشراف
التوضيح التقني: توفير مرجع لدول نامية أخرى لبناء بنية تحتية بيانات مماثلة
الاستدامة: إنشاء آلية جمع بيانات وصيانة مستدامة

السيناريوهات القابلة للتطبيق

معالجة اللغات الطبيعية: تدريب وتقييم نماذج متعددة اللغات
تكنولوجيا القانون: تحليل الوثائق القانونية وأبحاث الأحكام السابقة
تحليل السياسة: تتبع قرارات الحكومة وتغييرات السياسة
أبحاث الإعلام: تحليل اتجاهات الأخبار والرأي العام
الحكومة الرقمية: أبحاث الحكومة الإلكترونية والشفافية

المراجع

تستشهد الورقة بأعمال مهمة من مجالات ذات صلة، بما في ذلك:

أفضل الممارسات في MLOps وبناء خطوط أنابيب البيانات
أطر عمل حكومة البيانات المفتوحة
معايير الأخلاقيات والتقنيات لزحف الويب
مبادئ FAIR لإدارة البيانات العلمية
الأدبيات ذات الصلة بأبحاث القابلية للتكرار

التقييم الإجمالي: هذه ورقة ذات قيمة عملية مهمة، توفر بنية تحتية قيمة للبحث الرقمي في سريلانكا وجنوب آسيا. على الرغم من أن الابتكار التقني محدود نسبياً، فإن مساهماتها في حجم البيانات والانفتاح والاستدامة تستحق الإشادة. يضع هذا العمل مثالاً جيداً لأبحاث العلوم الإنسانية الرقمية للغات منخفضة الموارد والدول النامية.