We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic- معرّف الورقة: 2510.04124
- العنوان: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
- المؤلف: نوان آي. سيناراتنا (باحث مستقل)
- التصنيف: cs.CL (اللسانيات الحاسوبية)
- تاريخ النشر: ورقة arXiv، الإصدار v2025-10-16-0818
- رابط الورقة: https://arxiv.org/abs/2510.04124
تقدم هذه الورقة مجموعة بيانات وثائق سريلانكية كبيرة الحجم ومفتوحة وقابلة للقراءة الآلية، تغطي السجلات البرلمانية والأحكام القانونية والمنشورات الحكومية والأخبار والإحصائيات السياحية. تحتوي المجموعة حالياً على 230,091 وثيقة (57.7 جيجابايت) عبر 24 مجموعة بيانات، وتدعم ثلاث لغات: السنهالية والتاميلية والإنجليزية. يتم تحديث مجموعات البيانات يومياً وتتم مرآتها على GitHub و Hugging Face. تهدف هذه الموارد إلى دعم البحث في اللسانيات الحاسوبية وتحليل القانون والدراسات الاجتماعية والسياسية ومعالجة اللغات الطبيعية متعددة اللغات.
السجلات الرقمية للقانون والسياسة والإعلام في سريلانكا موزعة عبر عدد كبير من المصادر الحكومية والخاصة، معظم المعلومات موجودة في شكل ملفات PDF أو صفحات ويب، وتفتقر إلى البنية القابلة للقراءة الآلية أو الاتساق في الأرشيفات العامة. يحد هذا التجزؤ من وصول المواطنين والصحفيين والباحثين إلى المعلومات المتعلقة بحكم الدولة والتاريخ والاتجاهات الاجتماعية والاقتصادية.
- ندرة البيانات: منطقة جنوب آسيا، وخاصة سريلانكا، تفتقر إلى سجلات عامة موحدة وقابلة للقراءة الآلية
- التنوع اللغوي: الحاجة إلى دعم أبحاث معالجة اللغات الطبيعية للغات منخفضة الموارد (السنهالية والتاميلية)
- متطلبات الشفافية: تعزيز الشفافية والقابلية للتحقق من المشاركة المدنية والبحث الأكاديمي
- التطبيقات عبر المجالات: دعم تحليل القانون وأبحاث السياسة ومراقبة الإعلام والمجالات الأخرى
- المجموعات اللغوية الكبيرة العالمية (مثل Common Crawl و Wikipedia Dumps) يهيمن عليها بيانات اللغات عالية الموارد
- المبادرات الإقليمية موزعة وعادة ما تركز على وسائط أو مؤسسات فردية
- مجموعات البيانات السابقة لها قيود في الحجم أو تغطية اللغات أو الاستمرارية الزمنية
- بناء مجموعة وثائق متعددة اللغات كبيرة الحجم: 230,091 وثيقة تغطي 24 نوع مجموعة بيانات مختلفة
- إنشاء خط أنابيب جمع بيانات آلي: يحقق الاكتشاف المستمر والاستيعاب والتحليل والتحقق والتحكم في الإصدارات
- توفير بنية تحتية بيانات مفتوحة الوصول: مجموعة بيانات مفتوحة تماماً بموجب ترخيص MIT
- دعم تطبيقات البحث متعددة المجالات: اللسانيات الحاسوبية وتحليل القانون والدراسات الاجتماعية والسياسية وغيرها
- ضمان جودة البيانات والقابلية للتكرار: تنسيقات موحدة والتحكم في الإصدارات ومصادر بيانات شفافة
تصف الورقة بالتفصيل 24 مجموعة بيانات، موزعة بشكل أساسي على الفئات التالية:
- Hansard (السجلات البرلمانية): 1,665 وثيقة، 17.9 جيجابايت، 2006-2025
- أحكام محكمة الاستئناف: 10,164 وثيقة، 10.5 جيجابايت، 2012-2025
- أحكام المحكمة العليا: 2,168 وثيقة، 1.4 جيجابايت، 2009-2025
- النصوص القانونية: 3,934 وثيقة، 6.9 جيجابايت، 1981-2025
- مشاريع القوانين: 4,080 وثيقة، 1.9 جيجابايت، 2010-2025
- النشرات الرسمية الخاصة (2020s): 45,373 وثيقة، 1.3 جيجابايت
- النشرات الرسمية الخاصة (2010s): 56,379 وثيقة، 3.3 جيجابايت
- قرارات مجلس الوزراء: 10,385 وثيقة، 136.4 ميجابايت
- بيانات صحفية من وزارة المالية: 134 وثيقة، 144.5 ميجابايت
- وثائق الأخبار: 81,155 وثيقة، 1.2 جيجابايت، 2021-2025
- بيانات صحفية من مكتب الرئاسة الإعلامي: 2,182 وثيقة، 55.9 ميجابايت
- تقارير الإحصائيات السياحية: 161 وثيقة، 405.7 ميجابايت
- تقارير إحصائيات الصيد: 417 وثيقة، 101.4 ميجابايت
- التقارير السنوية للبنك المركزي: 1,137 وثيقة، 3.5 جيجابايت
- تنسيق GitHub Actions: استخدام وظائف cron لتنفيذ متعدد يومي
- استراتيجية المصفوفة: عزل كل مصدر بيانات، مما يسمح بإعادة محاولة مستقلة
- التحديثات الإضافية: اكتشاف العناصر الجديدة أو المعدلة من خلال مفاتيح مستقرة (URL + التاريخ) وتجزئة المحتوى
- الأدوات: Python + Selenium + متصفح Chrome بدون رأس
- معالجة المحتوى الديناميكي: من خلال انتظار شروط صريحة لتحميل المحتوى الديناميكي
- قيود الأدب: الامتثال لـ robots.txt، تحديد تكرار الطلبات، عشوائية التأخيرات
- تحليل PDF: استخدام PyMuPDF لاستخراج النص والبيانات الوصفية وكتل التخطيط
- مراقبة الجودة: التحقق من الأنماط وفرض الحقول المطلوبة وحماية المجموع الاختباري
- التحكم في الإصدارات: حفظ الأعمال الأصلية والتمثيلات المحللة بصيغة JSON
- خط أنابيب آلي: عملية جمع بيانات ومعالجة وتحديث مؤتمتة بالكامل
- دعم تنسيقات متعددة: معالجة متزامنة لوثائق HTML و PDF
- آلية التحديث الإضافي: كشف التغييرات والتحكم في الإصدارات بكفاءة
- ضمان الجودة: التحقق من البيانات متعدد المستويات ومعالجة الأخطاء
- تصميم الشفافية: تسجيل البيانات الوصفية الكاملة ومصادر البيانات القابلة للتدقيق
- إجمالي عدد الوثائق: 230,091 وثيقة
- الحجم الإجمالي: 57.7 جيجابايت
- عدد مجموعات البيانات: 24 مجموعة
- تغطية اللغات: السنهالية والتاميلية والإنجليزية
- النطاق الزمني: 1950 إلى 2025 (يختلف حسب مجموعة البيانات)
- فحوصات الاكتمال: التحقق من الحقول المطلوبة
- التحقق من الاتساق: توحيد التنسيق
- كشف التكرار: إزالة التكرار بناءً على تجزئة المحتوى
- صحة التاريخ: التحقق من نطاق التاريخ
| الفئة | عدد الوثائق | حجم البيانات | اللغة الرئيسية |
|---|
| الوثائق القانونية | 62,314 | 36.7 جيجابايت | الإنجليزية بشكل أساسي |
| المنشورات الحكومية | 112,473 | 5.0 جيجابايت | متعددة اللغات |
| وسائط الأخبار | 83,337 | 1.3 جيجابايت | متعددة اللغات |
| التقارير الإحصائية | 5,742 | 14.7 جيجابايت | الإنجليزية بشكل أساسي |
- العمق التاريخي: يمكن تتبع أقدم الوثائق إلى عام 1950 (التقارير السنوية للبنك المركزي)
- تكرار التحديث: تحديث آلي يومي
- حداثة البيانات: تغطي معظم مجموعات البيانات حتى أكتوبر 2025
- الإنجليزية: اللغة الرئيسية للوثائق الحكومية الرسمية والأحكام القانونية
- السنهالية: الأخبار المحلية وأجزاء من الوثائق الحكومية
- التاميلية: وثائق لغات الأقليات
- Common Crawl: بيانات الزحف على الويب العام
- Wikipedia Dumps: تفريغات بيانات ويكيبيديا
- OpenWebText: مجموعة نصوص الويب المفتوحة
- Indian Kanoon: مجموعة القانون الهندي
- OpenSubtitles: مجموعة بيانات الترجمات متعددة اللغات
- African News Corpus: مجموعة الأخبار الأفريقية
- الجهود الحالية موزعة وعادة ما تركز على مؤسسات إعلامية فردية
- نقص السجلات الشاملة والقابلة للقراءة الآلية
- قيود في الحجم أو تغطية اللغات أو الاستمرارية الزمنية
- تم بناء أكبر مجموعة بيانات وثائق متعددة اللغات في سريلانكا بنجاح
- تم إنشاء آلية جمع بيانات آلية وقابلة للاستدامة وتحديث
- توفير مورد قيم لأبحاث اللسانيات الحاسوبية والحكومة الرقمية
- ضمان إمكانية الوصول إلى البيانات وإعادة استخدامها من خلال ترخيص مفتوح
- دقة معالجة اللغات: دقة التحليل للسنهالية والتاميلية تحتاج إلى تحسين
- قيود القدرات البصرية: قدرات معالجة ملفات PDF الممسوحة ضوئياً أو غير المنظمة غير كافية
- نطاق التغطية: لا تزال هناك أجزاء من المؤسسات الحكومية ومصادر الإعلام غير مدرجة
- اختلاف جودة البيانات: توجد اختلافات في جودة البيانات بين المصادر المختلفة
- توسيع النطاق: إضافة المزيد من المؤسسات الحكومية ومصادر الإعلام والأرشيفات التاريخية
- تحسين معالجة اللغات: تحسين التقسيم والمعالجة الخطية والتضمينات متعددة اللغات للسنهالية والتاميلية
- دمج OCR: تجربة خطوط أنابيب OCR المستندة إلى التعلم العميق، مع الجمع بين التعرف على التخطيط والنمذجة اللغوية
- حجم البيانات والجودة: مجموعة بيانات كبيرة الحجم من 230,091 وثيقة تغطي مجالات متعددة مهمة
- التنفيذ التقني الممتاز: خط أنابيب بيانات مؤتمت بالكامل يضمن التحديث والاتساق
- الانفتاح والشفافية: وصول مفتوح تماماً بموجب ترخيص MIT، يتوافق مع مبادئ FAIR
- دعم متعدد اللغات: توفير مورد قيم لأبحاث اللغات منخفضة الموارد
- قيمة عملية عالية: دعم احتياجات التطبيقات الفعلية في مجالات بحثية متعددة
- نقص التقييم: تفتقر الورقة إلى تقييم كمي والتحقق من جودة البيانات
- عدم كفاية حالات الاستخدام: لم تقدم حالات استخدام محددة أو نتائج اختبار معيارية
- عدم التوازن في توزيع اللغات: الوثائق الإنجليزية تهيمن، والتغطية اللغوية الأخرى محدودة نسبياً
- التفاصيل التقنية غير كافية: بعض تفاصيل التنفيذ التقني لم يتم وصفها بتفصيل كافٍ
- المساهمة الأكاديمية: وضع الأساس لأبحاث العلوم الإنسانية الرقمية واللسانيات الحاسوبية في جنوب آسيا
- القيمة الاجتماعية: تحسين شفافية الحكومة ودعم المشاركة المدنية والإشراف
- التوضيح التقني: توفير مرجع لدول نامية أخرى لبناء بنية تحتية بيانات مماثلة
- الاستدامة: إنشاء آلية جمع بيانات وصيانة مستدامة
- معالجة اللغات الطبيعية: تدريب وتقييم نماذج متعددة اللغات
- تكنولوجيا القانون: تحليل الوثائق القانونية وأبحاث الأحكام السابقة
- تحليل السياسة: تتبع قرارات الحكومة وتغييرات السياسة
- أبحاث الإعلام: تحليل اتجاهات الأخبار والرأي العام
- الحكومة الرقمية: أبحاث الحكومة الإلكترونية والشفافية
تستشهد الورقة بأعمال مهمة من مجالات ذات صلة، بما في ذلك:
- أفضل الممارسات في MLOps وبناء خطوط أنابيب البيانات
- أطر عمل حكومة البيانات المفتوحة
- معايير الأخلاقيات والتقنيات لزحف الويب
- مبادئ FAIR لإدارة البيانات العلمية
- الأدبيات ذات الصلة بأبحاث القابلية للتكرار
التقييم الإجمالي: هذه ورقة ذات قيمة عملية مهمة، توفر بنية تحتية قيمة للبحث الرقمي في سريلانكا وجنوب آسيا. على الرغم من أن الابتكار التقني محدود نسبياً، فإن مساهماتها في حجم البيانات والانفتاح والاستدامة تستحق الإشادة. يضع هذا العمل مثالاً جيداً لأبحاث العلوم الإنسانية الرقمية للغات منخفضة الموارد والدول النامية.