2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna
We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic

श्रीलंका दस्तावेज़ डेटासेट: कानून, समाचार और नीति के लिए एक बड़े पैमाने पर बहुभाषी संसाधन

बुनियादी जानकारी

  • पेपर आईडी: 2510.04124
  • शीर्षक: श्रीलंका दस्तावेज़ डेटासेट: कानून, समाचार और नीति के लिए एक बड़े पैमाने पर बहुभाषी संसाधन
  • लेखक: नुवान आई. सेनारत्न (स्वतंत्र शोधकर्ता)
  • वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
  • प्रकाशन समय: arXiv प्रीप्रिंट, v2025-10-16-0818
  • पेपर लिंक: https://arxiv.org/abs/2510.04124

सारांश

यह पेपर श्रीलंका के दस्तावेज़ों का एक बड़े पैमाने पर खुला, मशीन-पठनीय डेटासेट संग्रह प्रस्तुत करता है, जिसमें संसदीय रिकॉर्ड, कानूनी निर्णय, सरकारी प्रकाशन, समाचार और पर्यटन आंकड़े शामिल हैं। यह संग्रह वर्तमान में 230,091 दस्तावेज़ (57.7 GB) को शामिल करता है, जो 24 डेटासेट में विस्तृत है और सिंहली, तमिल और अंग्रेजी तीन भाषाओं का समर्थन करता है। डेटासेट दैनिक अपडेट होता है और GitHub तथा Hugging Face पर मिरर किया जाता है। ये संसाधन कम्प्यूटेशनल भाषाविज्ञान, कानूनी विश्लेषण, सामाजिक-राजनीतिक अनुसंधान और बहुभाषी प्राकृतिक भाषा प्रसंस्करण के अनुसंधान का समर्थन करने के लिए डिज़ाइन किए गए हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

श्रीलंका के डिजिटल कानूनी, नीति और मीडिया रिकॉर्ड कई सरकारी और निजी स्रोतों में बिखरे हुए हैं, अधिकांश जानकारी PDF या वेब पेज के रूप में मौजूद है, जिसमें मशीन-पठनीय संरचना या सार्वजनिक संग्रह की सुसंगतता का अभाव है। यह विखंडन नागरिकों, पत्रकारों और शोधकर्ताओं के लिए देश के शासन, इतिहास और सामाजिक-आर्थिक प्रवृत्तियों तक पहुंच को सीमित करता है।

महत्व

  1. डेटा की कमी: दक्षिण एशिया क्षेत्र, विशेष रूप से श्रीलंका, में एकीकृत और मशीन-पठनीय सार्वजनिक रिकॉर्ड दस्तावेज़ों की कमी है
  2. भाषाई विविधता: कम संसाधन वाली भाषाओं (सिंहली, तमिल) के लिए NLP अनुसंधान की आवश्यकता
  3. पारदर्शिता की आवश्यकता: नागरिक भागीदारी और शैक्षणिक अनुसंधान के लिए पारदर्शिता और सत्यापनीयता में वृद्धि
  4. क्रॉस-डोमेन अनुप्रयोग: कानूनी विश्लेषण, नीति अनुसंधान, मीडिया निगरानी आदि कई क्षेत्रों का समर्थन

मौजूदा सीमाएं

  • वैश्विक बड़े कॉर्पस (जैसे Common Crawl, Wikipedia Dumps) मुख्य रूप से उच्च संसाधन वाली भाषा डेटा द्वारा प्रभुत्व रखते हैं
  • क्षेत्रीय पहल बिखरे हुए हैं और आमतौर पर एकल मीडिया या संस्थान पर केंद्रित हैं
  • पूर्व डेटासेट स्केल, भाषा कवरेज या समय निरंतरता के मामले में सीमाएं हैं

मुख्य योगदान

  1. बड़े पैमाने पर बहुभाषी दस्तावेज़ संग्रह का निर्माण: 230,091 दस्तावेज़, 24 विभिन्न प्रकार के डेटासेट को कवर करते हुए
  2. स्वचालित डेटा संग्रह पाइपलाइन की स्थापना: निरंतर खोज, सेवन, पार्सिंग, सत्यापन और संस्करण नियंत्रण को लागू करना
  3. खुली पहुंच डेटा बुनियादी ढांचा प्रदान करना: MIT लाइसेंस के तहत पूरी तरह से खुला डेटासेट
  4. बहु-डोमेन अनुसंधान अनुप्रयोगों का समर्थन: कम्प्यूटेशनल भाषाविज्ञान, कानूनी विश्लेषण, सामाजिक-राजनीतिक अनुसंधान आदि
  5. डेटा गुणवत्ता और पुनरुत्पादनीयता सुनिश्चित करना: मानकीकृत प्रारूप, संस्करण नियंत्रण और पारदर्शी डेटा स्रोत

विधि विवरण

डेटासेट संरचना

पेपर 24 डेटासेट का विस्तार से वर्णन करता है, जो मुख्य रूप से निम्नलिखित श्रेणियों में विभाजित हैं:

1. कानूनी दस्तावेज़ श्रेणी

  • हैनसार्ड (संसदीय रिकॉर्ड): 1,665 दस्तावेज़, 17.9 GB, 2006-2025
  • अपील न्यायालय के निर्णय: 10,164 दस्तावेज़, 10.5 GB, 2012-2025
  • सर्वोच्च न्यायालय के निर्णय: 2,168 दस्तावेज़, 1.4 GB, 2009-2025
  • कानूनी अधिनियम: 3,934 दस्तावेज़, 6.9 GB, 1981-2025
  • विधेयक: 4,080 दस्तावेज़, 1.9 GB, 2010-2025

2. सरकारी प्रकाशन श्रेणी

  • विशेष राजपत्र (2020s): 45,373 दस्तावेज़, 1.3 GB
  • विशेष राजपत्र (2010s): 56,379 दस्तावेज़, 3.3 GB
  • मंत्रिमंडल संकल्प: 10,385 दस्तावेज़, 136.4 MB
  • वित्त मंत्रालय प्रेस विज्ञप्ति: 134 दस्तावेज़, 144.5 MB

3. समाचार और मीडिया श्रेणी

  • समाचार दस्तावेज़: 81,155 दस्तावेज़, 1.2 GB, 2021-2025
  • राष्ट्रपति मीडिया विभाग प्रेस विज्ञप्ति: 2,182 दस्तावेज़, 55.9 MB

4. सांख्यिकी और रिपोर्ट श्रेणी

  • पर्यटन सांख्यिकी रिपोर्ट: 161 दस्तावेज़, 405.7 MB
  • मत्स्य पालन सांख्यिकी रिपोर्ट: 417 दस्तावेज़, 101.4 MB
  • केंद्रीय बैंक वार्षिक रिपोर्ट: 1,137 दस्तावेज़, 3.5 GB

डेटा संग्रह पाइपलाइन

तकनीकी आर्किटेक्चर

  1. GitHub Actions ऑर्केस्ट्रेशन: cron कार्यों का उपयोग करके दैनिक कई बार चलाना
  2. मैट्रिक्स रणनीति: प्रत्येक डेटा स्रोत को अलग करना, स्वतंत्र पुनः प्रयास की अनुमति देना
  3. वृद्धिशील अपडेट: स्थिर कुंजियों (URL + तारीख) और सामग्री हैश के माध्यम से नई या परिवर्तित वस्तुओं का पता लगाना

क्रॉलिंग कार्यान्वयन

  • उपकरण: Python + Selenium + हेडलेस Chrome ब्राउज़र
  • गतिशील सामग्री हैंडलिंग: स्पष्ट शर्त प्रतीक्षा के माध्यम से गतिशील सामग्री लोडिंग
  • शिष्टाचार बाधाएं: robots.txt का पालन, अनुरोध आवृत्ति को सीमित करना, देरी को यादृच्छिक बनाना

डेटा प्रसंस्करण

  1. PDF पार्सिंग: PyMuPDF का उपयोग करके पाठ, मेटाडेटा और लेआउट ब्लॉक निकालना
  2. गुणवत्ता नियंत्रण: पैटर्न सत्यापन, अनिवार्य क्षेत्र प्रवर्तन, चेकसम सुरक्षा
  3. संस्करण नियंत्रण: मूल कलाकृतियों और पार्स किए गए JSON प्रतिनिधित्व को सहेजना

तकनीकी नवाचार बिंदु

  1. स्वचालित पाइपलाइन: डेटा संग्रह, प्रसंस्करण और अपडेट की पूरी तरह से स्वचालित प्रक्रिया
  2. बहु-प्रारूप समर्थन: HTML और PDF प्रारूप दोनों के दस्तावेज़ों को संभालना
  3. वृद्धिशील अपडेट तंत्र: कुशल परिवर्तन पहचान और संस्करण नियंत्रण
  4. गुणवत्ता आश्वासन: डेटा सत्यापन और त्रुटि हैंडलिंग की कई परतें
  5. पारदर्शिता डिज़ाइन: संपूर्ण मेटाडेटा रिकॉर्डिंग और ऑडिट योग्य डेटा स्रोत

प्रायोगिक सेटअप

डेटा सांख्यिकी

  • कुल दस्तावेज़ संख्या: 230,091
  • कुल आकार: 57.7 GB
  • डेटासेट संख्या: 24
  • भाषा कवरेज: सिंहली, तमिल, अंग्रेजी
  • समय अवधि: 1950 से 2025 (विभिन्न डेटासेट के अनुसार भिन्न)

डेटा गुणवत्ता मूल्यांकन

  • पूर्णता जांच: अनिवार्य क्षेत्र सत्यापन
  • सुसंगतता सत्यापन: प्रारूप मानकीकरण
  • डुप्लिकेट पहचान: सामग्री हैश-आधारित डीडुप्लिकेशन
  • समय वैधता: तारीख सीमा सत्यापन

प्रायोगिक परिणाम

डेटासेट स्केल विश्लेषण

श्रेणीदस्तावेज़ संख्याडेटा आकारमुख्य भाषा
कानूनी दस्तावेज़62,31436.7 GBमुख्य रूप से अंग्रेजी
सरकारी प्रकाशन112,4735.0 GBबहुभाषी
समाचार मीडिया83,3371.3 GBबहुभाषी
सांख्यिकी रिपोर्ट5,74214.7 GBमुख्य रूप से अंग्रेजी

समय कवरेज विश्लेषण

  • ऐतिहासिक गहराई: सबसे पुराने दस्तावेज़ 1950 तक (केंद्रीय बैंक वार्षिक रिपोर्ट)
  • अपडेट आवृत्ति: दैनिक स्वचालित अपडेट
  • डेटा ताज़ापन: अधिकांश डेटासेट अक्टूबर 2025 तक कवर करते हैं

भाषा वितरण

  • अंग्रेजी: सरकारी आधिकारिक दस्तावेज़, कानूनी निर्णयों की मुख्य भाषा
  • सिंहली: स्थानीय समाचार, कुछ सरकारी दस्तावेज़
  • तमिल: अल्पसंख्यक भाषा दस्तावेज़

संबंधित कार्य

वैश्विक बड़े कॉर्पस

  • Common Crawl: सामान्य वेब क्रॉलिंग डेटा
  • Wikipedia Dumps: विकिपीडिया डेटा डंप
  • OpenWebText: खुली वेब पाठ कॉर्पस

क्षेत्रीय पहल

  • Indian Kanoon: भारतीय कानूनी कॉर्पस
  • OpenSubtitles: बहुभाषी सबटाइटल डेटासेट
  • African News Corpus: अफ्रीकी समाचार कॉर्पस

दक्षिण एशिया क्षेत्र की स्थिति

  • मौजूदा प्रयास बिखरे हुए हैं और आमतौर पर व्यक्तिगत मीडिया संस्थानों पर केंद्रित हैं
  • एकीकृत और मशीन-पठनीय दस्तावेज़ रिकॉर्ड की कमी
  • स्केल, भाषा कवरेज या समय निरंतरता के मामले में सीमाएं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. श्रीलंका के सबसे बड़े पैमाने के बहुभाषी दस्तावेज़ डेटासेट का सफल निर्माण
  2. डेटा संग्रह और अपडेट के लिए एक टिकाऊ स्वचालित तंत्र की स्थापना
  3. कम्प्यूटेशनल भाषाविज्ञान और डिजिटल शासन अनुसंधान के लिए मूल्यवान संसाधन
  4. खुली लाइसेंस के माध्यम से डेटा की पहुंच और पुन: उपयोग क्षमता सुनिश्चित करना

सीमाएं

  1. भाषा प्रसंस्करण सटीकता: सिंहली और तमिल पार्सिंग सटीकता में सुधार की आवश्यकता
  2. OCR क्षमता सीमाएं: स्कैन किए गए या असंरचित PDF को संभालने की क्षमता अपर्याप्त
  3. कवरेज सीमा: अभी भी कुछ सरकारी संस्थान और मीडिया स्रोत शामिल नहीं हैं
  4. डेटा गुणवत्ता भिन्नता: विभिन्न स्रोतों की डेटा गुणवत्ता में अंतर

भविष्य की दिशाएं

  1. कवरेज विस्तार: अधिक सरकारी संस्थान, मीडिया स्रोत और ऐतिहासिक संग्रह जोड़ना
  2. भाषा प्रसंस्करण में सुधार: सिंहली और तमिल के लिए टोकनाइजेशन, फ़ॉन्ट हैंडलिंग और बहुभाषी एम्बेडिंग में सुधार
  3. OCR पार्सिंग एकीकरण: गहन शिक्षा-आधारित OCR पाइपलाइन का प्रयोग, लेआउट पहचान और भाषा मॉडलिंग के साथ

गहन मूल्यांकन

शक्तियां

  1. डेटा स्केल और गुणवत्ता: 230,091 दस्तावेज़ों का बड़े पैमाने पर डेटासेट, कई महत्वपूर्ण क्षेत्रों को कवर करता है
  2. उत्कृष्ट तकनीकी कार्यान्वयन: पूरी तरह से स्वचालित डेटा पाइपलाइन, डेटा की समयोचितता और सुसंगतता सुनिश्चित करता है
  3. खुलापन और पारदर्शिता: MIT लाइसेंस के तहत पूरी तरह से खुली पहुंच, FAIR सिद्धांतों के अनुरूप
  4. बहुभाषी समर्थन: कम संसाधन वाली भाषा अनुसंधान के लिए मूल्यवान संसाधन
  5. उच्च व्यावहारिक मूल्य: कई अनुसंधान क्षेत्रों की वास्तविक आवेदन आवश्यकताओं का समर्थन करता है

कमियां

  1. मूल्यांकन की कमी: पेपर में डेटा गुणवत्ता का मात्रात्मक मूल्यांकन और सत्यापन की कमी
  2. अनुप्रयोग केस अपर्याप्त: विशिष्ट उपयोग केस या बेंचमार्क परीक्षण परिणाम प्रदान नहीं किए गए
  3. भाषा वितरण असंतुलन: अंग्रेजी दस्तावेज़ प्रमुख हैं, अन्य भाषाओं का कवरेज अपेक्षाकृत सीमित है
  4. तकनीकी विवरण अधूरे: कुछ तकनीकी कार्यान्वयन विवरण पर्याप्त विस्तार से वर्णित नहीं हैं

प्रभाव

  1. शैक्षणिक योगदान: दक्षिण एशिया क्षेत्र के डिजिटल मानविकी और कम्प्यूटेशनल भाषाविज्ञान अनुसंधान के लिए आधार स्थापित करता है
  2. सामाजिक मूल्य: सरकारी पारदर्शिता में वृद्धि, नागरिक भागीदारी और निगरानी का समर्थन करता है
  3. तकनीकी प्रदर्शन: अन्य विकासशील देशों के लिए समान डेटा बुनियादी ढांचा स्थापित करने के लिए संदर्भ प्रदान करता है
  4. स्थायित्व: डेटा संग्रह और रखरखाव के लिए एक टिकाऊ तंत्र स्थापित करता है

लागू परिदृश्य

  1. प्राकृतिक भाषा प्रसंस्करण: बहुभाषी मॉडल प्रशिक्षण और मूल्यांकन
  2. कानूनी प्रौद्योगिकी: कानूनी दस्तावेज़ विश्लेषण और निर्णय अनुसंधान
  3. नीति विश्लेषण: सरकारी निर्णय और नीति परिवर्तन ट्रैकिंग
  4. मीडिया अनुसंधान: समाचार प्रवृत्तियां और जनमत विश्लेषण
  5. डिजिटल शासन: ई-गवर्नेंस और पारदर्शिता अनुसंधान

संदर्भ

पेपर संबंधित क्षेत्रों के कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:

  • MLOps और डेटा पाइपलाइन निर्माण की सर्वोत्तम प्रथाएं
  • खुली डेटा शासन ढांचे
  • वेब क्रॉलिंग की नैतिकता और तकनीकी मानक
  • वैज्ञानिक डेटा प्रबंधन के FAIR सिद्धांत
  • पुनरुत्पादनीय अनुसंधान से संबंधित साहित्य

समग्र मूल्यांकन: यह एक महत्वपूर्ण व्यावहारिक मूल्य वाला डेटासेट पेपर है, जो श्रीलंका और दक्षिण एशिया क्षेत्र के डिजिटल अनुसंधान के लिए मूल्यवान बुनियादी ढांचा प्रदान करता है। हालांकि तकनीकी नवाचार के मामले में अपेक्षाकृत सीमित है, लेकिन डेटा स्केल, खुलापन और स्थायित्व के मामले में इसका योगदान सराहनीय है। यह कार्य कम संसाधन वाली भाषाओं और विकासशील देशों के डिजिटल मानविकी अनुसंधान के लिए एक अच्छा उदाहरण स्थापित करता है।