We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
- पेपर आईडी: 2510.04124
- शीर्षक: श्रीलंका दस्तावेज़ डेटासेट: कानून, समाचार और नीति के लिए एक बड़े पैमाने पर बहुभाषी संसाधन
- लेखक: नुवान आई. सेनारत्न (स्वतंत्र शोधकर्ता)
- वर्गीकरण: cs.CL (कम्प्यूटेशनल भाषाविज्ञान)
- प्रकाशन समय: arXiv प्रीप्रिंट, v2025-10-16-0818
- पेपर लिंक: https://arxiv.org/abs/2510.04124
यह पेपर श्रीलंका के दस्तावेज़ों का एक बड़े पैमाने पर खुला, मशीन-पठनीय डेटासेट संग्रह प्रस्तुत करता है, जिसमें संसदीय रिकॉर्ड, कानूनी निर्णय, सरकारी प्रकाशन, समाचार और पर्यटन आंकड़े शामिल हैं। यह संग्रह वर्तमान में 230,091 दस्तावेज़ (57.7 GB) को शामिल करता है, जो 24 डेटासेट में विस्तृत है और सिंहली, तमिल और अंग्रेजी तीन भाषाओं का समर्थन करता है। डेटासेट दैनिक अपडेट होता है और GitHub तथा Hugging Face पर मिरर किया जाता है। ये संसाधन कम्प्यूटेशनल भाषाविज्ञान, कानूनी विश्लेषण, सामाजिक-राजनीतिक अनुसंधान और बहुभाषी प्राकृतिक भाषा प्रसंस्करण के अनुसंधान का समर्थन करने के लिए डिज़ाइन किए गए हैं।
श्रीलंका के डिजिटल कानूनी, नीति और मीडिया रिकॉर्ड कई सरकारी और निजी स्रोतों में बिखरे हुए हैं, अधिकांश जानकारी PDF या वेब पेज के रूप में मौजूद है, जिसमें मशीन-पठनीय संरचना या सार्वजनिक संग्रह की सुसंगतता का अभाव है। यह विखंडन नागरिकों, पत्रकारों और शोधकर्ताओं के लिए देश के शासन, इतिहास और सामाजिक-आर्थिक प्रवृत्तियों तक पहुंच को सीमित करता है।
- डेटा की कमी: दक्षिण एशिया क्षेत्र, विशेष रूप से श्रीलंका, में एकीकृत और मशीन-पठनीय सार्वजनिक रिकॉर्ड दस्तावेज़ों की कमी है
- भाषाई विविधता: कम संसाधन वाली भाषाओं (सिंहली, तमिल) के लिए NLP अनुसंधान की आवश्यकता
- पारदर्शिता की आवश्यकता: नागरिक भागीदारी और शैक्षणिक अनुसंधान के लिए पारदर्शिता और सत्यापनीयता में वृद्धि
- क्रॉस-डोमेन अनुप्रयोग: कानूनी विश्लेषण, नीति अनुसंधान, मीडिया निगरानी आदि कई क्षेत्रों का समर्थन
- वैश्विक बड़े कॉर्पस (जैसे Common Crawl, Wikipedia Dumps) मुख्य रूप से उच्च संसाधन वाली भाषा डेटा द्वारा प्रभुत्व रखते हैं
- क्षेत्रीय पहल बिखरे हुए हैं और आमतौर पर एकल मीडिया या संस्थान पर केंद्रित हैं
- पूर्व डेटासेट स्केल, भाषा कवरेज या समय निरंतरता के मामले में सीमाएं हैं
- बड़े पैमाने पर बहुभाषी दस्तावेज़ संग्रह का निर्माण: 230,091 दस्तावेज़, 24 विभिन्न प्रकार के डेटासेट को कवर करते हुए
- स्वचालित डेटा संग्रह पाइपलाइन की स्थापना: निरंतर खोज, सेवन, पार्सिंग, सत्यापन और संस्करण नियंत्रण को लागू करना
- खुली पहुंच डेटा बुनियादी ढांचा प्रदान करना: MIT लाइसेंस के तहत पूरी तरह से खुला डेटासेट
- बहु-डोमेन अनुसंधान अनुप्रयोगों का समर्थन: कम्प्यूटेशनल भाषाविज्ञान, कानूनी विश्लेषण, सामाजिक-राजनीतिक अनुसंधान आदि
- डेटा गुणवत्ता और पुनरुत्पादनीयता सुनिश्चित करना: मानकीकृत प्रारूप, संस्करण नियंत्रण और पारदर्शी डेटा स्रोत
पेपर 24 डेटासेट का विस्तार से वर्णन करता है, जो मुख्य रूप से निम्नलिखित श्रेणियों में विभाजित हैं:
- हैनसार्ड (संसदीय रिकॉर्ड): 1,665 दस्तावेज़, 17.9 GB, 2006-2025
- अपील न्यायालय के निर्णय: 10,164 दस्तावेज़, 10.5 GB, 2012-2025
- सर्वोच्च न्यायालय के निर्णय: 2,168 दस्तावेज़, 1.4 GB, 2009-2025
- कानूनी अधिनियम: 3,934 दस्तावेज़, 6.9 GB, 1981-2025
- विधेयक: 4,080 दस्तावेज़, 1.9 GB, 2010-2025
- विशेष राजपत्र (2020s): 45,373 दस्तावेज़, 1.3 GB
- विशेष राजपत्र (2010s): 56,379 दस्तावेज़, 3.3 GB
- मंत्रिमंडल संकल्प: 10,385 दस्तावेज़, 136.4 MB
- वित्त मंत्रालय प्रेस विज्ञप्ति: 134 दस्तावेज़, 144.5 MB
- समाचार दस्तावेज़: 81,155 दस्तावेज़, 1.2 GB, 2021-2025
- राष्ट्रपति मीडिया विभाग प्रेस विज्ञप्ति: 2,182 दस्तावेज़, 55.9 MB
- पर्यटन सांख्यिकी रिपोर्ट: 161 दस्तावेज़, 405.7 MB
- मत्स्य पालन सांख्यिकी रिपोर्ट: 417 दस्तावेज़, 101.4 MB
- केंद्रीय बैंक वार्षिक रिपोर्ट: 1,137 दस्तावेज़, 3.5 GB
- GitHub Actions ऑर्केस्ट्रेशन: cron कार्यों का उपयोग करके दैनिक कई बार चलाना
- मैट्रिक्स रणनीति: प्रत्येक डेटा स्रोत को अलग करना, स्वतंत्र पुनः प्रयास की अनुमति देना
- वृद्धिशील अपडेट: स्थिर कुंजियों (URL + तारीख) और सामग्री हैश के माध्यम से नई या परिवर्तित वस्तुओं का पता लगाना
- उपकरण: Python + Selenium + हेडलेस Chrome ब्राउज़र
- गतिशील सामग्री हैंडलिंग: स्पष्ट शर्त प्रतीक्षा के माध्यम से गतिशील सामग्री लोडिंग
- शिष्टाचार बाधाएं: robots.txt का पालन, अनुरोध आवृत्ति को सीमित करना, देरी को यादृच्छिक बनाना
- PDF पार्सिंग: PyMuPDF का उपयोग करके पाठ, मेटाडेटा और लेआउट ब्लॉक निकालना
- गुणवत्ता नियंत्रण: पैटर्न सत्यापन, अनिवार्य क्षेत्र प्रवर्तन, चेकसम सुरक्षा
- संस्करण नियंत्रण: मूल कलाकृतियों और पार्स किए गए JSON प्रतिनिधित्व को सहेजना
- स्वचालित पाइपलाइन: डेटा संग्रह, प्रसंस्करण और अपडेट की पूरी तरह से स्वचालित प्रक्रिया
- बहु-प्रारूप समर्थन: HTML और PDF प्रारूप दोनों के दस्तावेज़ों को संभालना
- वृद्धिशील अपडेट तंत्र: कुशल परिवर्तन पहचान और संस्करण नियंत्रण
- गुणवत्ता आश्वासन: डेटा सत्यापन और त्रुटि हैंडलिंग की कई परतें
- पारदर्शिता डिज़ाइन: संपूर्ण मेटाडेटा रिकॉर्डिंग और ऑडिट योग्य डेटा स्रोत
- कुल दस्तावेज़ संख्या: 230,091
- कुल आकार: 57.7 GB
- डेटासेट संख्या: 24
- भाषा कवरेज: सिंहली, तमिल, अंग्रेजी
- समय अवधि: 1950 से 2025 (विभिन्न डेटासेट के अनुसार भिन्न)
- पूर्णता जांच: अनिवार्य क्षेत्र सत्यापन
- सुसंगतता सत्यापन: प्रारूप मानकीकरण
- डुप्लिकेट पहचान: सामग्री हैश-आधारित डीडुप्लिकेशन
- समय वैधता: तारीख सीमा सत्यापन
| श्रेणी | दस्तावेज़ संख्या | डेटा आकार | मुख्य भाषा |
|---|
| कानूनी दस्तावेज़ | 62,314 | 36.7 GB | मुख्य रूप से अंग्रेजी |
| सरकारी प्रकाशन | 112,473 | 5.0 GB | बहुभाषी |
| समाचार मीडिया | 83,337 | 1.3 GB | बहुभाषी |
| सांख्यिकी रिपोर्ट | 5,742 | 14.7 GB | मुख्य रूप से अंग्रेजी |
- ऐतिहासिक गहराई: सबसे पुराने दस्तावेज़ 1950 तक (केंद्रीय बैंक वार्षिक रिपोर्ट)
- अपडेट आवृत्ति: दैनिक स्वचालित अपडेट
- डेटा ताज़ापन: अधिकांश डेटासेट अक्टूबर 2025 तक कवर करते हैं
- अंग्रेजी: सरकारी आधिकारिक दस्तावेज़, कानूनी निर्णयों की मुख्य भाषा
- सिंहली: स्थानीय समाचार, कुछ सरकारी दस्तावेज़
- तमिल: अल्पसंख्यक भाषा दस्तावेज़
- Common Crawl: सामान्य वेब क्रॉलिंग डेटा
- Wikipedia Dumps: विकिपीडिया डेटा डंप
- OpenWebText: खुली वेब पाठ कॉर्पस
- Indian Kanoon: भारतीय कानूनी कॉर्पस
- OpenSubtitles: बहुभाषी सबटाइटल डेटासेट
- African News Corpus: अफ्रीकी समाचार कॉर्पस
- मौजूदा प्रयास बिखरे हुए हैं और आमतौर पर व्यक्तिगत मीडिया संस्थानों पर केंद्रित हैं
- एकीकृत और मशीन-पठनीय दस्तावेज़ रिकॉर्ड की कमी
- स्केल, भाषा कवरेज या समय निरंतरता के मामले में सीमाएं
- श्रीलंका के सबसे बड़े पैमाने के बहुभाषी दस्तावेज़ डेटासेट का सफल निर्माण
- डेटा संग्रह और अपडेट के लिए एक टिकाऊ स्वचालित तंत्र की स्थापना
- कम्प्यूटेशनल भाषाविज्ञान और डिजिटल शासन अनुसंधान के लिए मूल्यवान संसाधन
- खुली लाइसेंस के माध्यम से डेटा की पहुंच और पुन: उपयोग क्षमता सुनिश्चित करना
- भाषा प्रसंस्करण सटीकता: सिंहली और तमिल पार्सिंग सटीकता में सुधार की आवश्यकता
- OCR क्षमता सीमाएं: स्कैन किए गए या असंरचित PDF को संभालने की क्षमता अपर्याप्त
- कवरेज सीमा: अभी भी कुछ सरकारी संस्थान और मीडिया स्रोत शामिल नहीं हैं
- डेटा गुणवत्ता भिन्नता: विभिन्न स्रोतों की डेटा गुणवत्ता में अंतर
- कवरेज विस्तार: अधिक सरकारी संस्थान, मीडिया स्रोत और ऐतिहासिक संग्रह जोड़ना
- भाषा प्रसंस्करण में सुधार: सिंहली और तमिल के लिए टोकनाइजेशन, फ़ॉन्ट हैंडलिंग और बहुभाषी एम्बेडिंग में सुधार
- OCR पार्सिंग एकीकरण: गहन शिक्षा-आधारित OCR पाइपलाइन का प्रयोग, लेआउट पहचान और भाषा मॉडलिंग के साथ
- डेटा स्केल और गुणवत्ता: 230,091 दस्तावेज़ों का बड़े पैमाने पर डेटासेट, कई महत्वपूर्ण क्षेत्रों को कवर करता है
- उत्कृष्ट तकनीकी कार्यान्वयन: पूरी तरह से स्वचालित डेटा पाइपलाइन, डेटा की समयोचितता और सुसंगतता सुनिश्चित करता है
- खुलापन और पारदर्शिता: MIT लाइसेंस के तहत पूरी तरह से खुली पहुंच, FAIR सिद्धांतों के अनुरूप
- बहुभाषी समर्थन: कम संसाधन वाली भाषा अनुसंधान के लिए मूल्यवान संसाधन
- उच्च व्यावहारिक मूल्य: कई अनुसंधान क्षेत्रों की वास्तविक आवेदन आवश्यकताओं का समर्थन करता है
- मूल्यांकन की कमी: पेपर में डेटा गुणवत्ता का मात्रात्मक मूल्यांकन और सत्यापन की कमी
- अनुप्रयोग केस अपर्याप्त: विशिष्ट उपयोग केस या बेंचमार्क परीक्षण परिणाम प्रदान नहीं किए गए
- भाषा वितरण असंतुलन: अंग्रेजी दस्तावेज़ प्रमुख हैं, अन्य भाषाओं का कवरेज अपेक्षाकृत सीमित है
- तकनीकी विवरण अधूरे: कुछ तकनीकी कार्यान्वयन विवरण पर्याप्त विस्तार से वर्णित नहीं हैं
- शैक्षणिक योगदान: दक्षिण एशिया क्षेत्र के डिजिटल मानविकी और कम्प्यूटेशनल भाषाविज्ञान अनुसंधान के लिए आधार स्थापित करता है
- सामाजिक मूल्य: सरकारी पारदर्शिता में वृद्धि, नागरिक भागीदारी और निगरानी का समर्थन करता है
- तकनीकी प्रदर्शन: अन्य विकासशील देशों के लिए समान डेटा बुनियादी ढांचा स्थापित करने के लिए संदर्भ प्रदान करता है
- स्थायित्व: डेटा संग्रह और रखरखाव के लिए एक टिकाऊ तंत्र स्थापित करता है
- प्राकृतिक भाषा प्रसंस्करण: बहुभाषी मॉडल प्रशिक्षण और मूल्यांकन
- कानूनी प्रौद्योगिकी: कानूनी दस्तावेज़ विश्लेषण और निर्णय अनुसंधान
- नीति विश्लेषण: सरकारी निर्णय और नीति परिवर्तन ट्रैकिंग
- मीडिया अनुसंधान: समाचार प्रवृत्तियां और जनमत विश्लेषण
- डिजिटल शासन: ई-गवर्नेंस और पारदर्शिता अनुसंधान
पेपर संबंधित क्षेत्रों के कई महत्वपूर्ण कार्यों का हवाला देता है, जिनमें शामिल हैं:
- MLOps और डेटा पाइपलाइन निर्माण की सर्वोत्तम प्रथाएं
- खुली डेटा शासन ढांचे
- वेब क्रॉलिंग की नैतिकता और तकनीकी मानक
- वैज्ञानिक डेटा प्रबंधन के FAIR सिद्धांत
- पुनरुत्पादनीय अनुसंधान से संबंधित साहित्य
समग्र मूल्यांकन: यह एक महत्वपूर्ण व्यावहारिक मूल्य वाला डेटासेट पेपर है, जो श्रीलंका और दक्षिण एशिया क्षेत्र के डिजिटल अनुसंधान के लिए मूल्यवान बुनियादी ढांचा प्रदान करता है। हालांकि तकनीकी नवाचार के मामले में अपेक्षाकृत सीमित है, लेकिन डेटा स्केल, खुलापन और स्थायित्व के मामले में इसका योगदान सराहनीय है। यह कार्य कम संसाधन वाली भाषाओं और विकासशील देशों के डिजिटल मानविकी अनुसंधान के लिए एक अच्छा उदाहरण स्थापित करता है।