We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
- পেপার আইডি: 2510.04124
- শিরোনাম: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
- লেখক: Nuwan I. Senaratna (স্বাধীন গবেষক)
- শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
- প্রকাশনার সময়: arXiv প্রিপ্রিন্ট, v2025-10-16-0818
- পেপার লিঙ্ক: https://arxiv.org/abs/2510.04124
এই পেপারটি শ্রীলঙ্কার একটি বৃহৎ-স্কেল, উন্মুক্ত এবং মেশিন-পাঠযোগ্য ডকুমেন্ট ডেটাসেট সংগ্রহ উপস্থাপন করে, যা সংসদীয় রেকর্ড, আইনি রায়, সরকারি প্রকাশনা, সংবাদ এবং পর্যটন পরিসংখ্যান অন্তর্ভুক্ত করে। এই সংগ্রহে বর্তমানে ২৩০,০৯১টি ডকুমেন্ট (৫৭.৭ জিবি) রয়েছে, যা ২৪টি ডেটাসেট জুড়ে বিস্তৃত এবং সিংহলি, তামিল এবং ইংরেজি তিনটি ভাষা সমর্থন করে। ডেটাসেটটি প্রতিদিন আপডেট হয় এবং GitHub এবং Hugging Face-এ মিরর করা হয়। এই সম্পদগুলি কম্পিউটেশনাল লিঙ্গুইস্টিক্স, আইনি বিশ্লেষণ, সামাজিক-রাজনৈতিক গবেষণা এবং বহুভাষিক প্রাকৃতিক ভাষা প্রক্রিয়াকরণের গবেষণা সমর্থন করার জন্য ডিজাইন করা হয়েছে।
শ্রীলঙ্কার ডিজিটালকৃত আইনি, নীতি এবং মিডিয়া রেকর্ডগুলি অসংখ্য সরকারি এবং ব্যক্তিগত উৎসে ছড়িয়ে আছে, বেশিরভাগ তথ্য পিডিএফ বা ওয়েবপেজ আকারে বিদ্যমান, যা মেশিন-পাঠযোগ্য কাঠামো বা জনসাধারণের আর্কাইভের সামঞ্জস্যের অভাব রয়েছে। এই খণ্ডিতকরণ নাগরিক, সাংবাদিক এবং গবেষকদের দেশের শাসন, ইতিহাস এবং সামাজিক-অর্থনৈতিক প্রবণতা সম্পর্কে অ্যাক্সেস সীমিত করে।
- ডেটা স্বল্পতা: দক্ষিণ এশিয়া অঞ্চল, বিশেষত শ্রীলঙ্কা, একীভূত এবং মেশিন-পাঠযোগ্য জনসাধারণের রেকর্ড ডকুমেন্টের অভাব রয়েছে
- ভাষাগত বৈচিত্র্য: কম-সম্পদ ভাষা (সিংহলি, তামিল) এর এনএলপি গবেষণার চাহিদা
- স্বচ্ছতার প্রয়োজনীয়তা: নাগরিক অংশগ্রহণ এবং একাডেমিক গবেষণার স্বচ্ছতা এবং যাচাইযোগ্যতা বৃদ্ধি
- ক্রস-ডোমেইন প্রয়োগ: আইনি বিশ্লেষণ, নীতি গবেষণা, মিডিয়া পর্যবেক্ষণ এবং অন্যান্য একাধিক ক্ষেত্র সমর্থন করা
- বৈশ্বিক বৃহৎ কর্পাস (যেমন Common Crawl, Wikipedia Dumps) প্রধানত উচ্চ-সম্পদ ভাষার ডেটা দ্বারা আধিপত্যশীল
- আঞ্চলিক উদ্যোগ বিক্ষিপ্ত এবং সাধারণত একক মিডিয়া বা প্রতিষ্ঠানের উপর দৃষ্টি নিবদ্ধ করে
- পূর্ববর্তী ডেটাসেটগুলি স্কেল, ভাষা কভারেজ বা সময়গত ধারাবাহিকতার ক্ষেত্রে সীমাবদ্ধতা রয়েছে
- বৃহৎ-স্কেল বহুভাষিক ডকুমেন্ট সংগ্রহ নির্মাণ: ২৩০,০৯১টি ডকুমেন্ট, ২৪টি বিভিন্ন ধরনের ডেটাসেট জুড়ে
- স্বয়ংক্রিয় ডেটা সংগ্রহ পাইপলাইন প্রতিষ্ঠা: ক্রমাগত আবিষ্কার, গ্রহণ, বিশ্লেষণ, যাচাইকরণ এবং সংস্করণ নিয়ন্ত্রণ বাস্তবায়ন
- উন্মুক্ত অ্যাক্সেস ডেটা অবকাঠামো প্রদান: এমআইটি লাইসেন্সের অধীনে সম্পূর্ণ উন্মুক্ত ডেটাসেট
- বহু-ডোমেইন গবেষণা প্রয়োগ সমর্থন: কম্পিউটেশনাল লিঙ্গুইস্টিক্স, আইনি বিশ্লেষণ, সামাজিক-রাজনৈতিক গবেষণা ইত্যাদি
- ডেটা গুণমান এবং পুনরুৎপাদনযোগ্যতা নিশ্চিত করা: মানক বিন্যাস, সংস্করণ নিয়ন্ত্রণ এবং স্বচ্ছ ডেটা উৎস
পেপারটি ২৪টি ডেটাসেট বিস্তারিতভাবে বর্ণনা করে, যা প্রধানত নিম্নলিখিত বিভাগে বিভক্ত:
- Hansard (সংসদীয় রেকর্ড): ১,৬৬৫টি ডকুমেন্ট, ১৭.৯ জিবি, ২০০৬-২০২৫
- আপিল কোর্টের রায়: ১০,১৬৪টি ডকুমেন্ট, ১০.৫ জিবি, ২০১২-২০২৫
- সর্বোচ্চ আদালতের রায়: ২,১৬৮টি ডকুমেন্ট, ১.৪ জিবি, ২০০৯-২০২৫
- আইনি বিধান: ৩,৯৩৪টি ডকুমেন্ট, ৬.৯ জিবি, ১৯৮১-২০২৫
- বিল: ৪,০৮০টি ডকুমেন্ট, ১.৯ জিবি, ২০১০-২০২৫
- বিশেষ গেজেট (২০২০s): ৪৫,৩৭৩টি ডকুমেন্ট, ১.৩ জিবি
- বিশেষ গেজেট (২০১০s): ৫৬,৩৭৯টি ডকুমেন্ট, ৩.৩ জিবি
- মন্ত্রিসভার সিদ্ধান্ত: ১০,৩৮৫টি ডকুমেন্ট, ১৩৬.৪ এমবি
- অর্থ মন্ত্রণালয়ের প্রেস রিলিজ: ১৩৪টি ডকুমেন্ট, ১৪৪.৫ এমবি
- সংবাদ ডকুমেন্ট: ৮১,১৫৫টি ডকুমেন্ট, ১.২ জিবি, ২০২১-২০২৫
- রাষ্ট্রপতি মিডিয়া বিভাগের প্রেস রিলিজ: ২,১৮২টি ডকুমেন্ট, ৫৫.৯ এমবি
- পর্যটন পরিসংখ্যান প্রতিবেদন: ১৬১টি ডকুমেন্ট, ৪০৫.৭ এমবি
- মৎস্য পরিসংখ্যান প্রতিবেদন: ৪১৭টি ডকুমেন্ট, ১০১.৪ এমবি
- কেন্দ্রীয় ব্যাংকের বার্ষিক প্রতিবেদন: ১,১৩৭টি ডকুমেন্ট, ৩.৫ জিবি
- GitHub Actions অর্কেস্ট্রেশন: cron কাজ ব্যবহার করে প্রতিদিন একাধিক চালানো
- ম্যাট্রিক্স কৌশল: প্রতিটি ডেটা উৎস বিচ্ছিন্ন করা, স্বাধীন পুনরায় চেষ্টা অনুমতি দেওয়া
- বর্ধিত আপডেট: স্থিতিশীল কী (URL + তারিখ) এবং বিষয়বস্তু হ্যাশের মাধ্যমে নতুন বা পরিবর্তিত আইটেম সনাক্ত করা
- সরঞ্জাম: Python + Selenium + হেডলেস Chrome ব্রাউজার
- গতিশীল বিষয়বস্তু পরিচালনা: স্পষ্ট শর্তাধীন অপেক্ষার মাধ্যমে গতিশীল বিষয়বস্তু লোডিং
- শিষ্টাচার সীমাবদ্ধতা: robots.txt মেনে চলা, অনুরোধ ফ্রিকোয়েন্সি সীমাবদ্ধতা, বিলম্ব র্যান্ডমাইজেশন
- পিডিএফ বিশ্লেষণ: PyMuPDF ব্যবহার করে পাঠ্য, মেটাডেটা এবং লেআউট ব্লক নিষ্কাশন
- গুণমান নিয়ন্ত্রণ: প্যাটার্ন যাচাইকরণ, বাধ্যতামূলক ক্ষেত্র প্রয়োগ, চেকসাম সুরক্ষা
- সংস্করণ নিয়ন্ত্রণ: মূল নিদর্শন এবং বিশ্লেষিত JSON প্রতিনিধিত্ব সংরক্ষণ
- স্বয়ংক্রিয় পাইপলাইন: সম্পূর্ণ স্বয়ংক্রিয় ডেটা সংগ্রহ, প্রক্রিয়াকরণ এবং আপডেট প্রবাহ
- বহু-বিন্যাস সমর্থন: এইচটিএমএল এবং পিডিএফ বিন্যাসের ডকুমেন্ট একযোগে প্রক্রিয়াকরণ
- বর্ধিত আপডেট প্রক্রিয়া: দক্ষ পরিবর্তন সনাক্তকরণ এবং সংস্করণ নিয়ন্ত্রণ
- গুণমান নিশ্চিতকরণ: বহু-স্তরের ডেটা যাচাইকরণ এবং ত্রুটি পরিচালনা
- স্বচ্ছতা ডিজাইন: সম্পূর্ণ মেটাডেটা রেকর্ডিং এবং নিরীক্ষণযোগ্য ডেটা উৎস
- মোট ডকুমেন্ট সংখ্যা: ২৩০,০৯১টি
- মোট আকার: ৫৭.৭ জিবি
- ডেটাসেট সংখ্যা: ২৪টি
- ভাষা কভারেজ: সিংহলি, তামিল, ইংরেজি
- সময়কাল: ১৯৫০ থেকে ২০২৫ (বিভিন্ন ডেটাসেট অনুযায়ী পরিবর্তনশীল)
- সম্পূর্ণতা পরীক্ষা: বাধ্যতামূলক ক্ষেত্র যাচাইকরণ
- সামঞ্জস্য যাচাইকরণ: বিন্যাস মানকীকরণ
- সদৃশ সনাক্তকরণ: বিষয়বস্তু হ্যাশ-ভিত্তিক ডি-ডুপ্লিকেশন
- সময়গত বৈধতা: তারিখ পরিসীমা যাচাইকরণ
| বিভাগ | ডকুমেন্ট সংখ্যা | ডেটা আকার | প্রধান ভাষা |
|---|
| আইনি ডকুমেন্ট | ৬২,৩১৪ | ৩৬.৭ জিবি | প্রধানত ইংরেজি |
| সরকারি প্রকাশনা | ১১২,৪৭৩ | ৫.০ জিবি | বহুভাষিক |
| সংবাদ মিডিয়া | ৮৩,৩৩৭ | ১.৩ জিবি | বহুভাষিক |
| পরিসংখ্যান প্রতিবেদন | ৫,৭৪২ | ১৪.৭ জিবি | প্রধানত ইংরেজি |
- ঐতিহাসিক গভীরতা: সবচেয়ে পুরানো ডকুমেন্ট ১৯৫০ সালে ফিরে যায় (কেন্দ্রীয় ব্যাংকের বার্ষিক প্রতিবেদন)
- আপডেট ফ্রিকোয়েন্সি: প্রতিদিন স্বয়ংক্রিয় আপডেট
- ডেটা তাজা: বেশিরভাগ ডেটাসেট ২০২৫ সালের অক্টোবর পর্যন্ত কভার করে
- ইংরেজি: সরকারি অফিসিয়াল ডকুমেন্ট, আইনি রায়ের প্রধান ভাষা
- সিংহলি: স্থানীয় সংবাদ, অংশ সরকারি ডকুমেন্ট
- তামিল: সংখ্যালঘু ভাষার ডকুমেন্ট
- Common Crawl: সাধারণ ওয়েব ক্রলিং ডেটা
- Wikipedia Dumps: উইকিপিডিয়া ডেটা ডাম্প
- OpenWebText: উন্মুক্ত ওয়েব পাঠ্য কর্পাস
- Indian Kanoon: ভারতীয় আইনি কর্পাস
- OpenSubtitles: বহুভাষিক সাবটাইটেল ডেটাসেট
- African News Corpus: আফ্রিকান সংবাদ কর্পাস
- বিদ্যমান প্রচেষ্টা বিক্ষিপ্ত এবং সাধারণত স্বতন্ত্র মিডিয়া প্রতিষ্ঠানের উপর দৃষ্টি নিবদ্ধ করে
- ব্যাপক এবং মেশিন-পাঠযোগ্য ডকুমেন্ট রেকর্ডের অভাব
- স্কেল, ভাষা কভারেজ বা সময়গত ধারাবাহিকতার ক্ষেত্রে সীমাবদ্ধতা
- শ্রীলঙ্কার বৃহত্তম স্কেলের বহুভাষিক ডকুমেন্ট ডেটাসেট সফলভাবে নির্মাণ করা হয়েছে
- টেকসই স্বয়ংক্রিয় ডেটা সংগ্রহ এবং আপডেট প্রক্রিয়া প্রতিষ্ঠা করা হয়েছে
- কম্পিউটেশনাল লিঙ্গুইস্টিক্স এবং ডিজিটাল শাসন গবেষণার জন্য মূল্যবান সম্পদ প্রদান করা হয়েছে
- উন্মুক্ত লাইসেন্সের মাধ্যমে ডেটার অ্যাক্সেসযোগ্যতা এবং পুনঃব্যবহারযোগ্যতা নিশ্চিত করা হয়েছে
- ভাষা প্রক্রিয়াকরণ নির্ভুলতা: সিংহলি এবং তামিল বিশ্লেষণের নির্ভুলতা উন্নত করার অবকাশ রয়েছে
- ওসিআর ক্ষমতা সীমাবদ্ধতা: স্ক্যান করা বা অ-কাঠামোগত পিডিএফ পরিচালনার ক্ষমতা অপর্যাপ্ত
- কভারেজ পরিসীমা: এখনও কিছু সরকারি প্রতিষ্ঠান এবং মিডিয়া উৎস অন্তর্ভুক্ত নয়
- ডেটা গুণমান পার্থক্য: বিভিন্ন উৎসের ডেটা গুণমানে পার্থক্য রয়েছে
- কভারেজ সম্প্রসারণ: আরও সরকারি প্রতিষ্ঠান, মিডিয়া উৎস এবং ঐতিহাসিক আর্কাইভ যোগ করা
- ভাষা প্রক্রিয়াকরণ উন্নতি: সিংহলি এবং তামিল টোকেনাইজেশন, ফন্ট প্রক্রিয়াকরণ এবং বহুভাষিক এম্বেডিং উন্নত করা
- ওসিআর পার্সিং একীকরণ: গভীর শিক্ষা-ভিত্তিক ওসিআর পাইপলাইন পরীক্ষা করা, লেআউট স্বীকৃতি এবং ভাষা মডেলিং সহ
- ডেটা স্কেল এবং গুণমান: ২৩০,০৯১টি ডকুমেন্টের বৃহৎ-স্কেল ডেটাসেট, একাধিক গুরুত্বপূর্ণ ক্ষেত্র জুড়ে কভারেজ
- প্রযুক্তিগত বাস্তবায়ন উৎকর্ষ: সম্পূর্ণ স্বয়ংক্রিয় ডেটা পাইপলাইন, ডেটার সময়োপযোগীতা এবং সামঞ্জস্য নিশ্চিত করা
- উন্মুক্তা এবং স্বচ্ছতা: এমআইটি লাইসেন্সের অধীনে সম্পূর্ণ উন্মুক্ত অ্যাক্সেস, FAIR নীতি মেনে চলা
- বহুভাষিক সমর্থন: কম-সম্পদ ভাষা গবেষণার জন্য মূল্যবান সম্পদ প্রদান করা
- উচ্চ ব্যবহারিক মূল্য: একাধিক গবেষণা ক্ষেত্রের বাস্তব প্রয়োগ চাহিদা সমর্থন করা
- মূল্যায়নের অভাব: ডেটা গুণমানের পরিমাণগত মূল্যায়ন এবং যাচাইকরণের অভাব
- প্রয়োগ কেস অপর্যাপ্ত: নির্দিষ্ট ব্যবহার কেস বা বেঞ্চমার্ক পরীক্ষার ফলাফল প্রদান করা হয়নি
- ভাষা বিতরণ অসমতা: ইংরেজি ডকুমেন্ট প্রভাবশালী, অন্যান্য ভাষা কভারেজ তুলনামূলকভাবে সীমিত
- প্রযুক্তিগত বিবরণ অপর্যাপ্ত: কিছু প্রযুক্তিগত বাস্তবায়ন বিবরণ যথেষ্ট বিস্তারিত নয়
- একাডেমিক অবদান: দক্ষিণ এশিয়া অঞ্চলের ডিজিটাল মানবিকী এবং কম্পিউটেশনাল লিঙ্গুইস্টিক্স গবেষণার ভিত্তি স্থাপন
- সামাজিক মূল্য: সরকারি স্বচ্ছতা বৃদ্ধি, নাগরিক অংশগ্রহণ এবং তদারকি সমর্থন করা
- প্রযুক্তিগত প্রদর্শন: অন্যান্য উন্নয়নশীল দেশগুলির জন্য অনুরূপ ডেটা অবকাঠামো প্রতিষ্ঠার জন্য রেফারেন্স প্রদান করা
- স্থায়িত্ব: টেকসই ডেটা সংগ্রহ এবং রক্ষণাবেক্ষণ প্রক্রিয়া প্রতিষ্ঠা করা
- প্রাকৃতিক ভাষা প্রক্রিয়াকরণ: বহুভাষিক মডেল প্রশিক্ষণ এবং মূল্যায়ন
- আইনি প্রযুক্তি: আইনি ডকুমেন্ট বিশ্লেষণ এবং রায় গবেষণা
- নীতি বিশ্লেষণ: সরকারি সিদ্ধান্ত এবং নীতি পরিবর্তন ট্র্যাকিং
- মিডিয়া গবেষণা: সংবাদ প্রবণতা এবং জনমত বিশ্লেষণ
- ডিজিটাল শাসন: ই-গভর্নমেন্ট এবং স্বচ্ছতা গবেষণা
পেপারটি সম্পর্কিত ক্ষেত্রের একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:
- MLOps এবং ডেটা পাইপলাইন নির্মাণের সর্বোত্তম অনুশীলন
- উন্মুক্ত ডেটা শাসন কাঠামো
- ওয়েব ক্রলিংয়ের নৈতিকতা এবং প্রযুক্তিগত মান
- বৈজ্ঞানিক ডেটা ব্যবস্থাপনার FAIR নীতি
- পুনরুৎপাদনযোগ্যতা গবেষণার সম্পর্কিত সাহিত্য
সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ ব্যবহারিক মূল্যের ডেটাসেট পেপার, যা শ্রীলঙ্কা এবং দক্ষিণ এশিয়া অঞ্চলের ডিজিটাল গবেষণার জন্য মূল্যবান অবকাঠামো প্রদান করে। যদিও প্রযুক্তিগত উদ্ভাবনের ক্ষেত্রে তুলনামূলকভাবে সীমিত, তবে ডেটা স্কেল, উন্মুক্তা এবং স্থায়িত্বের ক্ষেত্রে এর অবদান স্বীকৃতির যোগ্য। এই কাজটি কম-সম্পদ ভাষা এবং উন্নয়নশীল দেশের ডিজিটাল মানবিকী গবেষণার জন্য একটি চমৎকার উদাহরণ স্থাপন করেছে।