2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna
We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic

শ্রীলঙ্কা ডকুমেন্ট ডেটাসেট: আইন, সংবাদ এবং নীতির জন্য একটি বৃহৎ-স্কেল, বহুভাষিক সম্পদ

মৌলিক তথ্য

  • পেপার আইডি: 2510.04124
  • শিরোনাম: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
  • লেখক: Nuwan I. Senaratna (স্বাধীন গবেষক)
  • শ্রেণীবিভাগ: cs.CL (কম্পিউটেশনাল লিঙ্গুইস্টিক্স)
  • প্রকাশনার সময়: arXiv প্রিপ্রিন্ট, v2025-10-16-0818
  • পেপার লিঙ্ক: https://arxiv.org/abs/2510.04124

সারসংক্ষেপ

এই পেপারটি শ্রীলঙ্কার একটি বৃহৎ-স্কেল, উন্মুক্ত এবং মেশিন-পাঠযোগ্য ডকুমেন্ট ডেটাসেট সংগ্রহ উপস্থাপন করে, যা সংসদীয় রেকর্ড, আইনি রায়, সরকারি প্রকাশনা, সংবাদ এবং পর্যটন পরিসংখ্যান অন্তর্ভুক্ত করে। এই সংগ্রহে বর্তমানে ২৩০,০৯১টি ডকুমেন্ট (৫৭.৭ জিবি) রয়েছে, যা ২৪টি ডেটাসেট জুড়ে বিস্তৃত এবং সিংহলি, তামিল এবং ইংরেজি তিনটি ভাষা সমর্থন করে। ডেটাসেটটি প্রতিদিন আপডেট হয় এবং GitHub এবং Hugging Face-এ মিরর করা হয়। এই সম্পদগুলি কম্পিউটেশনাল লিঙ্গুইস্টিক্স, আইনি বিশ্লেষণ, সামাজিক-রাজনৈতিক গবেষণা এবং বহুভাষিক প্রাকৃতিক ভাষা প্রক্রিয়াকরণের গবেষণা সমর্থন করার জন্য ডিজাইন করা হয়েছে।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যার সংজ্ঞা

শ্রীলঙ্কার ডিজিটালকৃত আইনি, নীতি এবং মিডিয়া রেকর্ডগুলি অসংখ্য সরকারি এবং ব্যক্তিগত উৎসে ছড়িয়ে আছে, বেশিরভাগ তথ্য পিডিএফ বা ওয়েবপেজ আকারে বিদ্যমান, যা মেশিন-পাঠযোগ্য কাঠামো বা জনসাধারণের আর্কাইভের সামঞ্জস্যের অভাব রয়েছে। এই খণ্ডিতকরণ নাগরিক, সাংবাদিক এবং গবেষকদের দেশের শাসন, ইতিহাস এবং সামাজিক-অর্থনৈতিক প্রবণতা সম্পর্কে অ্যাক্সেস সীমিত করে।

গুরুত্ব

  1. ডেটা স্বল্পতা: দক্ষিণ এশিয়া অঞ্চল, বিশেষত শ্রীলঙ্কা, একীভূত এবং মেশিন-পাঠযোগ্য জনসাধারণের রেকর্ড ডকুমেন্টের অভাব রয়েছে
  2. ভাষাগত বৈচিত্র্য: কম-সম্পদ ভাষা (সিংহলি, তামিল) এর এনএলপি গবেষণার চাহিদা
  3. স্বচ্ছতার প্রয়োজনীয়তা: নাগরিক অংশগ্রহণ এবং একাডেমিক গবেষণার স্বচ্ছতা এবং যাচাইযোগ্যতা বৃদ্ধি
  4. ক্রস-ডোমেইন প্রয়োগ: আইনি বিশ্লেষণ, নীতি গবেষণা, মিডিয়া পর্যবেক্ষণ এবং অন্যান্য একাধিক ক্ষেত্র সমর্থন করা

বিদ্যমান সীমাবদ্ধতা

  • বৈশ্বিক বৃহৎ কর্পাস (যেমন Common Crawl, Wikipedia Dumps) প্রধানত উচ্চ-সম্পদ ভাষার ডেটা দ্বারা আধিপত্যশীল
  • আঞ্চলিক উদ্যোগ বিক্ষিপ্ত এবং সাধারণত একক মিডিয়া বা প্রতিষ্ঠানের উপর দৃষ্টি নিবদ্ধ করে
  • পূর্ববর্তী ডেটাসেটগুলি স্কেল, ভাষা কভারেজ বা সময়গত ধারাবাহিকতার ক্ষেত্রে সীমাবদ্ধতা রয়েছে

মূল অবদান

  1. বৃহৎ-স্কেল বহুভাষিক ডকুমেন্ট সংগ্রহ নির্মাণ: ২৩০,০৯১টি ডকুমেন্ট, ২৪টি বিভিন্ন ধরনের ডেটাসেট জুড়ে
  2. স্বয়ংক্রিয় ডেটা সংগ্রহ পাইপলাইন প্রতিষ্ঠা: ক্রমাগত আবিষ্কার, গ্রহণ, বিশ্লেষণ, যাচাইকরণ এবং সংস্করণ নিয়ন্ত্রণ বাস্তবায়ন
  3. উন্মুক্ত অ্যাক্সেস ডেটা অবকাঠামো প্রদান: এমআইটি লাইসেন্সের অধীনে সম্পূর্ণ উন্মুক্ত ডেটাসেট
  4. বহু-ডোমেইন গবেষণা প্রয়োগ সমর্থন: কম্পিউটেশনাল লিঙ্গুইস্টিক্স, আইনি বিশ্লেষণ, সামাজিক-রাজনৈতিক গবেষণা ইত্যাদি
  5. ডেটা গুণমান এবং পুনরুৎপাদনযোগ্যতা নিশ্চিত করা: মানক বিন্যাস, সংস্করণ নিয়ন্ত্রণ এবং স্বচ্ছ ডেটা উৎস

পদ্ধতির বিস্তারিত বর্ণনা

ডেটাসেট গঠন

পেপারটি ২৪টি ডেটাসেট বিস্তারিতভাবে বর্ণনা করে, যা প্রধানত নিম্নলিখিত বিভাগে বিভক্ত:

১. আইনি ডকুমেন্ট শ্রেণী

  • Hansard (সংসদীয় রেকর্ড): ১,৬৬৫টি ডকুমেন্ট, ১৭.৯ জিবি, ২০০৬-২০২৫
  • আপিল কোর্টের রায়: ১০,১৬৪টি ডকুমেন্ট, ১০.৫ জিবি, ২০১২-২০২৫
  • সর্বোচ্চ আদালতের রায়: ২,১৬৮টি ডকুমেন্ট, ১.৪ জিবি, ২০০৯-২০২৫
  • আইনি বিধান: ৩,৯৩৪টি ডকুমেন্ট, ৬.৯ জিবি, ১৯৮১-২০২৫
  • বিল: ৪,০৮০টি ডকুমেন্ট, ১.৯ জিবি, ২০১০-২০২৫

২. সরকারি প্রকাশনা শ্রেণী

  • বিশেষ গেজেট (২০২০s): ৪৫,৩৭৩টি ডকুমেন্ট, ১.৩ জিবি
  • বিশেষ গেজেট (২০১০s): ৫৬,৩৭৯টি ডকুমেন্ট, ৩.৩ জিবি
  • মন্ত্রিসভার সিদ্ধান্ত: ১০,৩৮৫টি ডকুমেন্ট, ১৩৬.৪ এমবি
  • অর্থ মন্ত্রণালয়ের প্রেস রিলিজ: ১৩৪টি ডকুমেন্ট, ১৪৪.৫ এমবি

৩. সংবাদ এবং মিডিয়া শ্রেণী

  • সংবাদ ডকুমেন্ট: ৮১,১৫৫টি ডকুমেন্ট, ১.২ জিবি, ২০২১-২০২৫
  • রাষ্ট্রপতি মিডিয়া বিভাগের প্রেস রিলিজ: ২,১৮২টি ডকুমেন্ট, ৫৫.৯ এমবি

৪. পরিসংখ্যান এবং প্রতিবেদন শ্রেণী

  • পর্যটন পরিসংখ্যান প্রতিবেদন: ১৬১টি ডকুমেন্ট, ৪০৫.৭ এমবি
  • মৎস্য পরিসংখ্যান প্রতিবেদন: ৪১৭টি ডকুমেন্ট, ১০১.৪ এমবি
  • কেন্দ্রীয় ব্যাংকের বার্ষিক প্রতিবেদন: ১,১৩৭টি ডকুমেন্ট, ৩.৫ জিবি

ডেটা সংগ্রহ পাইপলাইন

প্রযুক্তিগত আর্কিটেকচার

  1. GitHub Actions অর্কেস্ট্রেশন: cron কাজ ব্যবহার করে প্রতিদিন একাধিক চালানো
  2. ম্যাট্রিক্স কৌশল: প্রতিটি ডেটা উৎস বিচ্ছিন্ন করা, স্বাধীন পুনরায় চেষ্টা অনুমতি দেওয়া
  3. বর্ধিত আপডেট: স্থিতিশীল কী (URL + তারিখ) এবং বিষয়বস্তু হ্যাশের মাধ্যমে নতুন বা পরিবর্তিত আইটেম সনাক্ত করা

ক্রলিং বাস্তবায়ন

  • সরঞ্জাম: Python + Selenium + হেডলেস Chrome ব্রাউজার
  • গতিশীল বিষয়বস্তু পরিচালনা: স্পষ্ট শর্তাধীন অপেক্ষার মাধ্যমে গতিশীল বিষয়বস্তু লোডিং
  • শিষ্টাচার সীমাবদ্ধতা: robots.txt মেনে চলা, অনুরোধ ফ্রিকোয়েন্সি সীমাবদ্ধতা, বিলম্ব র্যান্ডমাইজেশন

ডেটা প্রক্রিয়াকরণ

  1. পিডিএফ বিশ্লেষণ: PyMuPDF ব্যবহার করে পাঠ্য, মেটাডেটা এবং লেআউট ব্লক নিষ্কাশন
  2. গুণমান নিয়ন্ত্রণ: প্যাটার্ন যাচাইকরণ, বাধ্যতামূলক ক্ষেত্র প্রয়োগ, চেকসাম সুরক্ষা
  3. সংস্করণ নিয়ন্ত্রণ: মূল নিদর্শন এবং বিশ্লেষিত JSON প্রতিনিধিত্ব সংরক্ষণ

প্রযুক্তিগত উদ্ভাবন পয়েন্ট

  1. স্বয়ংক্রিয় পাইপলাইন: সম্পূর্ণ স্বয়ংক্রিয় ডেটা সংগ্রহ, প্রক্রিয়াকরণ এবং আপডেট প্রবাহ
  2. বহু-বিন্যাস সমর্থন: এইচটিএমএল এবং পিডিএফ বিন্যাসের ডকুমেন্ট একযোগে প্রক্রিয়াকরণ
  3. বর্ধিত আপডেট প্রক্রিয়া: দক্ষ পরিবর্তন সনাক্তকরণ এবং সংস্করণ নিয়ন্ত্রণ
  4. গুণমান নিশ্চিতকরণ: বহু-স্তরের ডেটা যাচাইকরণ এবং ত্রুটি পরিচালনা
  5. স্বচ্ছতা ডিজাইন: সম্পূর্ণ মেটাডেটা রেকর্ডিং এবং নিরীক্ষণযোগ্য ডেটা উৎস

পরীক্ষামূলক সেটআপ

ডেটা পরিসংখ্যান

  • মোট ডকুমেন্ট সংখ্যা: ২৩০,০৯১টি
  • মোট আকার: ৫৭.৭ জিবি
  • ডেটাসেট সংখ্যা: ২৪টি
  • ভাষা কভারেজ: সিংহলি, তামিল, ইংরেজি
  • সময়কাল: ১৯৫০ থেকে ২০২৫ (বিভিন্ন ডেটাসেট অনুযায়ী পরিবর্তনশীল)

ডেটা গুণমান মূল্যায়ন

  • সম্পূর্ণতা পরীক্ষা: বাধ্যতামূলক ক্ষেত্র যাচাইকরণ
  • সামঞ্জস্য যাচাইকরণ: বিন্যাস মানকীকরণ
  • সদৃশ সনাক্তকরণ: বিষয়বস্তু হ্যাশ-ভিত্তিক ডি-ডুপ্লিকেশন
  • সময়গত বৈধতা: তারিখ পরিসীমা যাচাইকরণ

পরীক্ষামূলক ফলাফল

ডেটাসেট স্কেল বিশ্লেষণ

বিভাগডকুমেন্ট সংখ্যাডেটা আকারপ্রধান ভাষা
আইনি ডকুমেন্ট৬২,৩১৪৩৬.৭ জিবিপ্রধানত ইংরেজি
সরকারি প্রকাশনা১১২,৪৭৩৫.০ জিবিবহুভাষিক
সংবাদ মিডিয়া৮৩,৩৩৭১.৩ জিবিবহুভাষিক
পরিসংখ্যান প্রতিবেদন৫,৭৪২১৪.৭ জিবিপ্রধানত ইংরেজি

সময়গত কভারেজ বিশ্লেষণ

  • ঐতিহাসিক গভীরতা: সবচেয়ে পুরানো ডকুমেন্ট ১৯৫০ সালে ফিরে যায় (কেন্দ্রীয় ব্যাংকের বার্ষিক প্রতিবেদন)
  • আপডেট ফ্রিকোয়েন্সি: প্রতিদিন স্বয়ংক্রিয় আপডেট
  • ডেটা তাজা: বেশিরভাগ ডেটাসেট ২০২৫ সালের অক্টোবর পর্যন্ত কভার করে

ভাষা বিতরণ

  • ইংরেজি: সরকারি অফিসিয়াল ডকুমেন্ট, আইনি রায়ের প্রধান ভাষা
  • সিংহলি: স্থানীয় সংবাদ, অংশ সরকারি ডকুমেন্ট
  • তামিল: সংখ্যালঘু ভাষার ডকুমেন্ট

সম্পর্কিত কাজ

বৈশ্বিক বৃহৎ কর্পাস

  • Common Crawl: সাধারণ ওয়েব ক্রলিং ডেটা
  • Wikipedia Dumps: উইকিপিডিয়া ডেটা ডাম্প
  • OpenWebText: উন্মুক্ত ওয়েব পাঠ্য কর্পাস

আঞ্চলিক উদ্যোগ

  • Indian Kanoon: ভারতীয় আইনি কর্পাস
  • OpenSubtitles: বহুভাষিক সাবটাইটেল ডেটাসেট
  • African News Corpus: আফ্রিকান সংবাদ কর্পাস

দক্ষিণ এশিয়া অঞ্চলের বর্তমান অবস্থা

  • বিদ্যমান প্রচেষ্টা বিক্ষিপ্ত এবং সাধারণত স্বতন্ত্র মিডিয়া প্রতিষ্ঠানের উপর দৃষ্টি নিবদ্ধ করে
  • ব্যাপক এবং মেশিন-পাঠযোগ্য ডকুমেন্ট রেকর্ডের অভাব
  • স্কেল, ভাষা কভারেজ বা সময়গত ধারাবাহিকতার ক্ষেত্রে সীমাবদ্ধতা

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. শ্রীলঙ্কার বৃহত্তম স্কেলের বহুভাষিক ডকুমেন্ট ডেটাসেট সফলভাবে নির্মাণ করা হয়েছে
  2. টেকসই স্বয়ংক্রিয় ডেটা সংগ্রহ এবং আপডেট প্রক্রিয়া প্রতিষ্ঠা করা হয়েছে
  3. কম্পিউটেশনাল লিঙ্গুইস্টিক্স এবং ডিজিটাল শাসন গবেষণার জন্য মূল্যবান সম্পদ প্রদান করা হয়েছে
  4. উন্মুক্ত লাইসেন্সের মাধ্যমে ডেটার অ্যাক্সেসযোগ্যতা এবং পুনঃব্যবহারযোগ্যতা নিশ্চিত করা হয়েছে

সীমাবদ্ধতা

  1. ভাষা প্রক্রিয়াকরণ নির্ভুলতা: সিংহলি এবং তামিল বিশ্লেষণের নির্ভুলতা উন্নত করার অবকাশ রয়েছে
  2. ওসিআর ক্ষমতা সীমাবদ্ধতা: স্ক্যান করা বা অ-কাঠামোগত পিডিএফ পরিচালনার ক্ষমতা অপর্যাপ্ত
  3. কভারেজ পরিসীমা: এখনও কিছু সরকারি প্রতিষ্ঠান এবং মিডিয়া উৎস অন্তর্ভুক্ত নয়
  4. ডেটা গুণমান পার্থক্য: বিভিন্ন উৎসের ডেটা গুণমানে পার্থক্য রয়েছে

ভবিষ্যত দিকনির্দেশনা

  1. কভারেজ সম্প্রসারণ: আরও সরকারি প্রতিষ্ঠান, মিডিয়া উৎস এবং ঐতিহাসিক আর্কাইভ যোগ করা
  2. ভাষা প্রক্রিয়াকরণ উন্নতি: সিংহলি এবং তামিল টোকেনাইজেশন, ফন্ট প্রক্রিয়াকরণ এবং বহুভাষিক এম্বেডিং উন্নত করা
  3. ওসিআর পার্সিং একীকরণ: গভীর শিক্ষা-ভিত্তিক ওসিআর পাইপলাইন পরীক্ষা করা, লেআউট স্বীকৃতি এবং ভাষা মডেলিং সহ

গভীর মূল্যায়ন

শক্তিশালী দিক

  1. ডেটা স্কেল এবং গুণমান: ২৩০,০৯১টি ডকুমেন্টের বৃহৎ-স্কেল ডেটাসেট, একাধিক গুরুত্বপূর্ণ ক্ষেত্র জুড়ে কভারেজ
  2. প্রযুক্তিগত বাস্তবায়ন উৎকর্ষ: সম্পূর্ণ স্বয়ংক্রিয় ডেটা পাইপলাইন, ডেটার সময়োপযোগীতা এবং সামঞ্জস্য নিশ্চিত করা
  3. উন্মুক্তা এবং স্বচ্ছতা: এমআইটি লাইসেন্সের অধীনে সম্পূর্ণ উন্মুক্ত অ্যাক্সেস, FAIR নীতি মেনে চলা
  4. বহুভাষিক সমর্থন: কম-সম্পদ ভাষা গবেষণার জন্য মূল্যবান সম্পদ প্রদান করা
  5. উচ্চ ব্যবহারিক মূল্য: একাধিক গবেষণা ক্ষেত্রের বাস্তব প্রয়োগ চাহিদা সমর্থন করা

অপর্যাপ্ততা

  1. মূল্যায়নের অভাব: ডেটা গুণমানের পরিমাণগত মূল্যায়ন এবং যাচাইকরণের অভাব
  2. প্রয়োগ কেস অপর্যাপ্ত: নির্দিষ্ট ব্যবহার কেস বা বেঞ্চমার্ক পরীক্ষার ফলাফল প্রদান করা হয়নি
  3. ভাষা বিতরণ অসমতা: ইংরেজি ডকুমেন্ট প্রভাবশালী, অন্যান্য ভাষা কভারেজ তুলনামূলকভাবে সীমিত
  4. প্রযুক্তিগত বিবরণ অপর্যাপ্ত: কিছু প্রযুক্তিগত বাস্তবায়ন বিবরণ যথেষ্ট বিস্তারিত নয়

প্রভাব

  1. একাডেমিক অবদান: দক্ষিণ এশিয়া অঞ্চলের ডিজিটাল মানবিকী এবং কম্পিউটেশনাল লিঙ্গুইস্টিক্স গবেষণার ভিত্তি স্থাপন
  2. সামাজিক মূল্য: সরকারি স্বচ্ছতা বৃদ্ধি, নাগরিক অংশগ্রহণ এবং তদারকি সমর্থন করা
  3. প্রযুক্তিগত প্রদর্শন: অন্যান্য উন্নয়নশীল দেশগুলির জন্য অনুরূপ ডেটা অবকাঠামো প্রতিষ্ঠার জন্য রেফারেন্স প্রদান করা
  4. স্থায়িত্ব: টেকসই ডেটা সংগ্রহ এবং রক্ষণাবেক্ষণ প্রক্রিয়া প্রতিষ্ঠা করা

প্রযোজ্য পরিস্থিতি

  1. প্রাকৃতিক ভাষা প্রক্রিয়াকরণ: বহুভাষিক মডেল প্রশিক্ষণ এবং মূল্যায়ন
  2. আইনি প্রযুক্তি: আইনি ডকুমেন্ট বিশ্লেষণ এবং রায় গবেষণা
  3. নীতি বিশ্লেষণ: সরকারি সিদ্ধান্ত এবং নীতি পরিবর্তন ট্র্যাকিং
  4. মিডিয়া গবেষণা: সংবাদ প্রবণতা এবং জনমত বিশ্লেষণ
  5. ডিজিটাল শাসন: ই-গভর্নমেন্ট এবং স্বচ্ছতা গবেষণা

সংদর্ভ

পেপারটি সম্পর্কিত ক্ষেত্রের একাধিক গুরুত্বপূর্ণ কাজ উদ্ধৃত করে, যার মধ্যে রয়েছে:

  • MLOps এবং ডেটা পাইপলাইন নির্মাণের সর্বোত্তম অনুশীলন
  • উন্মুক্ত ডেটা শাসন কাঠামো
  • ওয়েব ক্রলিংয়ের নৈতিকতা এবং প্রযুক্তিগত মান
  • বৈজ্ঞানিক ডেটা ব্যবস্থাপনার FAIR নীতি
  • পুনরুৎপাদনযোগ্যতা গবেষণার সম্পর্কিত সাহিত্য

সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ ব্যবহারিক মূল্যের ডেটাসেট পেপার, যা শ্রীলঙ্কা এবং দক্ষিণ এশিয়া অঞ্চলের ডিজিটাল গবেষণার জন্য মূল্যবান অবকাঠামো প্রদান করে। যদিও প্রযুক্তিগত উদ্ভাবনের ক্ষেত্রে তুলনামূলকভাবে সীমিত, তবে ডেটা স্কেল, উন্মুক্তা এবং স্থায়িত্বের ক্ষেত্রে এর অবদান স্বীকৃতির যোগ্য। এই কাজটি কম-সম্পদ ভাষা এবং উন্নয়নশীল দেশের ডিজিটাল মানবিকী গবেষণার জন্য একটি চমৎকার উদাহরণ স্থাপন করেছে।