We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic- 논문 ID: 2510.04124
- 제목: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
- 저자: Nuwan I. Senaratna (독립 연구자)
- 분류: cs.CL (계산언어학)
- 발표 시간: arXiv preprint, v2025-10-16-0818
- 논문 링크: https://arxiv.org/abs/2510.04124
본 논문은 의회 기록, 법률 판결, 정부 출판물, 뉴스 및 관광 통계 등을 포함하는 대규모의 개방형, 기계 가독성 스리랑카 문서 데이터셋을 소개한다. 현재 이 컬렉션은 230,091개의 문서(57.7 GB)를 포함하며, 24개의 데이터셋에 걸쳐 싱할라어, 타밀어, 영어 3개 언어를 지원한다. 데이터셋은 매일 업데이트되며 GitHub 및 Hugging Face에서 미러링된다. 이러한 자원은 계산언어학, 법률 분석, 사회정치 연구 및 다국어 자연언어처리 연구를 지원하기 위해 설계되었다.
스리랑카의 디지털화된 법률, 정책 및 미디어 기록은 수많은 정부 및 민간 출처에 분산되어 있으며, 대부분의 정보는 PDF 또는 웹페이지 형식으로 존재하여 기계 가독성 구조나 공공 아카이브의 일관성이 부족하다. 이러한 단편화는 시민, 기자 및 연구자들이 해당 국가의 거버넌스, 역사 및 사회경제적 추세에 접근하는 것을 제한한다.
- 데이터 부족: 남아시아 지역, 특히 스리랑카에서 통일되고 기계 가독성인 공공 기록 문서의 부족
- 언어 다양성: 저자원 언어(싱할라어, 타밀어)의 자연언어처리 연구 필요성
- 투명성 요구: 시민 참여 및 학술 연구의 투명성과 검증 가능성 강화
- 교차 분야 응용: 법률 분석, 정책 연구, 미디어 모니터링 등 다양한 분야 지원
- 전 지구적 대규모 코퍼스(예: Common Crawl, Wikipedia Dumps)는 주로 고자원 언어 데이터로 지배됨
- 지역 이니셔티브는 분산되어 있으며 일반적으로 단일 미디어 또는 기관에 초점
- 이전 데이터셋은 규모, 언어 커버리지 또는 시간적 연속성 측면에서 제한적
- 대규모 다국어 문서 컬렉션 구축: 24개의 서로 다른 데이터셋에 걸친 230,091개의 문서
- 자동화된 데이터 수집 파이프라인 구축: 지속적인 발견, 수집, 파싱, 검증 및 버전 관리 실현
- 개방 접근 데이터 인프라 제공: MIT 라이선스 하의 완전 개방 데이터셋
- 다중 분야 연구 응용 지원: 계산언어학, 법률 분석, 사회정치 연구 등
- 데이터 품질 및 재현성 보장: 표준화된 형식, 버전 관리 및 투명한 데이터 출처
논문은 24개의 데이터셋을 상세히 설명하며, 주로 다음 범주로 분류된다:
- Hansard(의회 기록): 1,665개 문서, 17.9 GB, 2006-2025년
- 항소법원 판결: 10,164개 문서, 10.5 GB, 2012-2025년
- 대법원 판결: 2,168개 문서, 1.4 GB, 2009-2025년
- 법률 조항: 3,934개 문서, 6.9 GB, 1981-2025년
- 법안: 4,080개 문서, 1.9 GB, 2010-2025년
- 특별 공보(2020년대): 45,373개 문서, 1.3 GB
- 특별 공보(2010년대): 56,379개 문서, 3.3 GB
- 내각 결의: 10,385개 문서, 136.4 MB
- 재무부 보도자료: 134개 문서, 144.5 MB
- 뉴스 문서: 81,155개 문서, 1.2 GB, 2021-2025년
- 대통령 미디어실 보도자료: 2,182개 문서, 55.9 MB
- 관광 통계 보고서: 161개 문서, 405.7 MB
- 어업 통계 보고서: 417개 문서, 101.4 MB
- 중앙은행 연간 보고서: 1,137개 문서, 3.5 GB
- GitHub Actions 오케스트레이션: cron 작업을 사용한 일일 다중 실행
- 매트릭스 전략: 각 데이터 소스 격리로 독립적 재시도 허용
- 증분 업데이트: 안정적 키(URL+날짜) 및 콘텐츠 해시를 통한 새로운 또는 변경된 항목 감지
- 도구: Python + Selenium + 헤드리스 Chrome 브라우저
- 동적 콘텐츠 처리: 명시적 조건 대기를 통한 동적 콘텐츠 로딩
- 예의 있는 제약: robots.txt 준수, 요청 빈도 제한, 지연 무작위화
- PDF 파싱: PyMuPDF를 사용한 텍스트, 메타데이터 및 레이아웃 블록 추출
- 품질 관리: 패턴 검증, 필수 필드 강제 실행, 체크섬 보호
- 버전 관리: 원본 아티팩트 및 파싱된 JSON 표현 저장
- 자동화 파이프라인: 완전 자동화된 데이터 수집, 처리 및 업데이트 프로세스
- 다중 형식 지원: HTML 및 PDF 형식 문서의 동시 처리
- 증분 업데이트 메커니즘: 효율적인 변경 감지 및 버전 관리
- 품질 보증: 다층적 데이터 검증 및 오류 처리
- 투명성 설계: 완전한 메타데이터 기록 및 감사 가능한 데이터 출처
- 총 문서 수: 230,091개
- 총 크기: 57.7 GB
- 데이터셋 수: 24개
- 언어 커버리지: 싱할라어, 타밀어, 영어
- 시간 범위: 1950년~2025년(데이터셋에 따라 변동)
- 완전성 검사: 필수 필드 검증
- 일관성 검증: 형식 표준화
- 중복 감지: 콘텐츠 해시 기반 중복 제거
- 시간 유효성: 날짜 범위 검증
| 범주 | 문서 수 | 데이터 크기 | 주요 언어 |
|---|
| 법률 문서 | 62,314 | 36.7 GB | 영어 중심 |
| 정부 출판물 | 112,473 | 5.0 GB | 다국어 |
| 뉴스 미디어 | 83,337 | 1.3 GB | 다국어 |
| 통계 보고서 | 5,742 | 14.7 GB | 영어 중심 |
- 역사적 깊이: 가장 오래된 문서는 1950년까지 거슬러 올라감(중앙은행 연간 보고서)
- 업데이트 빈도: 매일 자동 업데이트
- 데이터 신선도: 대부분의 데이터셋은 2025년 10월까지 커버
- 영어: 정부 공식 문서, 법률 판결의 주요 언어
- 싱할라어: 지역 뉴스, 일부 정부 문서
- 타밀어: 소수민족 언어 문서
- Common Crawl: 범용 웹 크롤링 데이터
- Wikipedia Dumps: 위키백과 데이터 덤프
- OpenWebText: 개방형 웹 텍스트 코퍼스
- Indian Kanoon: 인도 법률 코퍼스
- OpenSubtitles: 다국어 자막 데이터셋
- African News Corpus: 아프리카 뉴스 코퍼스
- 기존 노력은 분산되어 있으며 일반적으로 개별 미디어 기관에 초점
- 포괄적이고 기계 가독성인 문서 기록 부족
- 규모, 언어 커버리지 또는 시간적 연속성 측면에서 제한적
- 스리랑카 최대 규모의 다국어 문서 데이터셋 구축 성공
- 지속 가능한 자동화된 데이터 수집 및 업데이트 메커니즘 구축
- 계산언어학 및 디지털 거버넌스 연구를 위한 귀중한 자원 제공
- 개방 라이선스를 통한 데이터의 접근성 및 재사용성 보장
- 언어 처리 정확도: 싱할라어 및 타밀어 파싱 정확도 개선 필요
- OCR 능력 제한: 스캔 또는 비구조화된 PDF 처리 능력 부족
- 커버리지 범위: 일부 정부 기관 및 미디어 출처 미포함
- 데이터 품질 편차: 서로 다른 출처의 데이터 품질 편차 존재
- 커버리지 확장: 더 많은 정부 기관, 미디어 출처 및 역사 아카이브 추가
- 언어 처리 개선: 싱할라어 및 타밀어의 토큰화, 글꼴 처리 및 다국어 임베딩 개선
- OCR 파싱 통합: 레이아웃 인식 및 언어 모델링과 결합된 심층학습 기반 OCR 파이프라인 실험
- 데이터 규모 및 품질: 230,091개 문서의 대규모 데이터셋으로 여러 중요 분야 커버
- 우수한 기술 구현: 완전 자동화된 데이터 파이프라인으로 데이터의 적시성 및 일관성 보장
- 개방성 및 투명성: MIT 라이선스 하의 완전 개방 접근으로 FAIR 원칙 준수
- 다국어 지원: 저자원 언어 연구를 위한 귀중한 자원 제공
- 높은 실용 가치: 다양한 연구 분야의 실제 응용 수요 지원
- 평가 부족: 데이터 품질에 대한 정량적 평가 및 검증 부족
- 응용 사례 부족: 구체적인 사용 사례 또는 벤치마크 테스트 결과 미제공
- 언어 분포 불균형: 영어 문서가 주도적이며 다른 언어 커버리지 상대적으로 제한적
- 기술 세부사항 부족: 일부 기술 구현 세부사항 설명 부족
- 학술 기여: 남아시아 지역 디지털 인문학 및 계산언어학 연구의 기초 마련
- 사회적 가치: 정부 투명성 향상, 시민 참여 및 감시 지원
- 기술 시범: 다른 개발도상국의 유사 데이터 인프라 구축을 위한 참고 자료 제공
- 지속 가능성: 지속 가능한 데이터 수집 및 유지 관리 메커니즘 구축
- 자연언어처리: 다국어 모델 훈련 및 평가
- 법률 기술: 법률 문서 분석 및 판례 연구
- 정책 분석: 정부 결정 및 정책 변화 추적
- 미디어 연구: 뉴스 트렌드 및 여론 분석
- 디지털 거버넌스: 전자정부 및 투명성 연구
논문은 다음을 포함한 관련 분야의 중요한 연구를 인용한다:
- MLOps 및 데이터 파이프라인 구축 모범 사례
- 개방 데이터 거버넌스 프레임워크
- 웹 크롤링의 윤리 및 기술 표준
- 과학 데이터 관리의 FAIR 원칙
- 재현 가능성 연구 관련 문헌
종합 평가: 이는 스리랑카 및 남아시아 지역의 디지털 연구를 위한 귀중한 기초 인프라를 제공하는 실용적 가치가 높은 데이터셋 논문이다. 기술 혁신성 측면에서는 상대적으로 제한적이지만, 데이터 규모, 개방성 및 지속 가능성 측면에서의 기여는 인정할 만하다. 이 연구는 저자원 언어 및 개발도상국의 디지털 인문학 연구를 위한 좋은 사례를 제시한다.