2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna
We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic

スリランカ文書データセット:法律、ニュース、政策のための大規模多言語リソース

基本情報

  • 論文ID: 2510.04124
  • タイトル: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
  • 著者: Nuwan I. Senaratna(独立研究者)
  • 分類: cs.CL(計算言語学)
  • 発表日時: arXivプレプリント、v2025-10-16-0818
  • 論文リンク: https://arxiv.org/abs/2510.04124

要旨

本論文は、議会記録、法律判決、政府出版物、ニュース、観光統計などを含む大規模なオープンで機械可読なスリランカ文書データセット集合を紹介している。このコレクションは現在230,091個の文書(57.7 GB)を含み、24個のデータセットにまたがり、シンハラ語、タミル語、英語の3言語をサポートしている。データセットは毎日更新され、GitHubとHugging Faceでミラーリングされている。これらのリソースは、計算言語学、法律分析、社会政治研究、および多言語自然言語処理の研究をサポートすることを目的としている。

研究背景と動機

問題の定義

スリランカのデジタル化された法律、政策、メディア記録は多数の政府および民間ソースに分散しており、ほとんどの情報はPDFまたはウェブページ形式で存在し、機械可読の構造や公開アーカイブの一貫性に欠けている。この断片化により、市民、ジャーナリスト、研究者が同国の統治、歴史、社会経済的傾向にアクセスすることが制限されている。

重要性

  1. データの希少性:南アジア地域、特にスリランカでは、統一された機械可読の公開記録文書が不足している
  2. 言語の多様性:低リソース言語(シンハラ語、タミル語)のNLP研究の必要性
  3. 透明性の必要性:市民参加と学術研究の透明性と検証可能性の向上
  4. 分野横断的応用:法律分析、政策研究、メディア監視など複数の分野をサポート

既存の制限事項

  • グローバルな大規模コーパス(Common Crawlなど)は主に高リソース言語データが支配的
  • 地域的イニシアティブは分散しており、通常は単一のメディアまたは機関に焦点を当てている
  • 先行研究のデータセットは規模、言語カバレッジ、または時間的連続性の面で制限がある

主要な貢献

  1. 大規模多言語文書コレクションの構築:230,091個の文書、24個の異なるタイプのデータセットをカバー
  2. 自動化データ収集パイプラインの確立:継続的な発見、取り込み、解析、検証、バージョン管理を実現
  3. オープンアクセスデータインフラストラクチャの提供:MITライセンス下の完全にオープンなデータセット
  4. 多分野研究応用のサポート:計算言語学、法律分析、社会政治研究など
  5. データ品質と再現性の確保:標準化形式、バージョン管理、透明なデータソース

方法の詳細

データセットの構成

論文は24個のデータセットを詳細に説明し、主に以下のカテゴリに分類される:

1. 法律文書カテゴリ

  • ハンサード(議会記録):1,665個の文書、17.9 GB、2006-2025年
  • 控訴裁判所判決:10,164個の文書、10.5 GB、2012-2025年
  • 最高裁判所判決:2,168個の文書、1.4 GB、2009-2025年
  • 法律条文:3,934個の文書、6.9 GB、1981-2025年
  • 法案:4,080個の文書、1.9 GB、2010-2025年

2. 政府出版物カテゴリ

  • 官報(2020年代):45,373個の文書、1.3 GB
  • 官報(2010年代):56,379個の文書、3.3 GB
  • 内閣決議:10,385個の文書、136.4 MB
  • 財務省プレスリリース:134個の文書、144.5 MB

3. ニュースとメディアカテゴリ

  • ニュース文書:81,155個の文書、1.2 GB、2021-2025年
  • 大統領メディア局プレスリリース:2,182個の文書、55.9 MB

4. 統計とレポートカテゴリ

  • 観光統計レポート:161個の文書、405.7 MB
  • 漁業統計レポート:417個の文書、101.4 MB
  • 中央銀行年次報告書:1,137個の文書、3.5 GB

データ収集パイプライン

技術アーキテクチャ

  1. GitHub Actionsオーケストレーション:cronジョブを使用して毎日複数回実行
  2. マトリックス戦略:各データソースを分離し、独立した再試行を可能にする
  3. 増分更新:安定キー(URL+日付)とコンテンツハッシュを通じて新規または変更項目を検出

クローリング実装

  • ツール:Python + Selenium + ヘッドレスChromeブラウザ
  • 動的コンテンツ処理:明示的な条件待機を通じて動的コンテンツの読み込みを処理
  • 礼儀的制約:robots.txtを遵守、リクエスト頻度を制限、遅延をランダム化

データ処理

  1. PDF解析:PyMuPDFを使用してテキスト、メタデータ、レイアウトブロックを抽出
  2. 品質管理:パターン検証、必須フィールドの強制、チェックサム保護
  3. バージョン管理:元のアーティファクトと解析済みJSON表現を保存

技術的革新点

  1. 自動化パイプライン:完全に自動化されたデータ収集、処理、更新プロセス
  2. 複数形式サポート:HTMLおよびPDF形式の文書を同時に処理
  3. 増分更新メカニズム:効率的な変更検出とバージョン管理
  4. 品質保証:多層的なデータ検証とエラー処理
  5. 透明性設計:完全なメタデータ記録と監査可能なデータソース

実験設定

データ統計

  • 総文書数:230,091個
  • 総サイズ:57.7 GB
  • データセット数:24個
  • 言語カバレッジ:シンハラ語、タミル語、英語
  • 時間範囲:1950年から2025年(データセットにより異なる)

データ品質評価

  • 完全性チェック:必須フィールド検証
  • 一貫性検証:形式の標準化
  • 重複検出:コンテンツハッシュベースの重複排除
  • 時間的有効性:日付範囲検証

実験結果

データセット規模分析

カテゴリ文書数データサイズ主要言語
法律文書62,31436.7 GB主に英語
政府出版物112,4735.0 GB多言語
ニュースメディア83,3371.3 GB多言語
統計レポート5,74214.7 GB主に英語

時間カバレッジ分析

  • 歴史的深さ:最古の文書は1950年まで遡る(中央銀行年次報告書)
  • 更新頻度:毎日自動更新
  • データの新鮮度:ほとんどのデータセットは2025年10月までカバー

言語分布

  • 英語:政府公式文書、法律判決の主要言語
  • シンハラ語:地元ニュース、一部の政府文書
  • タミル語:少数民族言語文書

関連研究

グローバル大規模コーパス

  • Common Crawl:一般的なウェブクローリングデータ
  • Wikipedia Dumps:ウィキペディアデータダンプ
  • OpenWebText:オープンウェブテキストコーパス

地域的イニシアティブ

  • Indian Kanoon:インド法律コーパス
  • OpenSubtitles:多言語字幕データセット
  • African News Corpus:アフリカニュースコーパス

南アジア地域の現状

  • 既存の取り組みは分散しており、通常は個別のメディア機関に焦点を当てている
  • 包括的で機械可読の文書記録が不足している
  • 規模、言語カバレッジ、または時間的連続性の面で制限がある

結論と考察

主要な結論

  1. スリランカ最大規模の多言語文書データセットの構築に成功
  2. 持続可能な自動化データ収集および更新メカニズムの確立
  3. 計算言語学とデジタルガバナンス研究への貴重なリソースの提供
  4. オープンライセンスを通じたデータのアクセス可能性と再利用可能性の確保

制限事項

  1. 言語処理精度:シンハラ語とタミル語の解析精度の改善が必要
  2. OCR機能の制限:スキャンされた非構造化PDFの処理能力が不足
  3. カバレッジ範囲:一部の政府機関とメディアソースがまだ含まれていない
  4. データ品質の差異:異なるソース間でデータ品質にばらつきがある

今後の方向性

  1. カバレッジの拡張:より多くの政府機関、メディアソース、歴史アーカイブの追加
  2. 言語処理の向上:シンハラ語とタミル語の分かち書き、フォント処理、多言語埋め込みの改善
  3. OCR解析の統合:深層学習ベースのOCRパイプラインの実験、レイアウト認識と言語モデリングの組み合わせ

深い評価

利点

  1. データ規模と品質:230,091個の文書の大規模データセット、複数の重要な分野をカバー
  2. 優れた技術実装:完全に自動化されたデータパイプライン、データの時間性と一貫性を確保
  3. 開放性と透明性:MITライセンス下の完全なオープンアクセス、FAIR原則に準拠
  4. 多言語サポート:低リソース言語研究への貴重なリソース提供
  5. 実用的価値が高い:複数の研究分野の実際的なアプリケーション要件をサポート

不足点

  1. 評価の欠如:データ品質の定量的評価と検証が不足
  2. 応用事例の不足:具体的な使用事例またはベンチマークテスト結果が提供されていない
  3. 言語分布の不均衡:英語文書が支配的で、他の言語のカバレッジが相対的に限定的
  4. 技術詳細の不十分さ:一部の技術実装詳細の説明が十分でない

影響力

  1. 学術的貢献:南アジア地域のデジタルヒューマニティーズと計算言語学研究の基盤を構築
  2. 社会的価値:政府の透明性向上、市民参加と監視をサポート
  3. 技術的示範:他の発展途上国が同様のデータインフラストラクチャを構築するための参考
  4. 持続可能性:持続可能なデータ収集と保守メカニズムの確立

適用シナリオ

  1. 自然言語処理:多言語モデルの訓練と評価
  2. 法律テクノロジー:法律文書分析と判例研究
  3. 政策分析:政府の意思決定と政策変化の追跡
  4. メディア研究:ニュース傾向と世論分析
  5. デジタルガバナンス:電子政府と透明性研究

参考文献

論文は、以下を含む関連分野の重要な研究を引用している:

  • MLOpsとデータパイプライン構築のベストプラクティス
  • オープンデータガバナンスフレームワーク
  • ウェブクローリングの倫理と技術標準
  • 科学データ管理のFAIR原則
  • 再現性研究に関する文献

総合評価:これは実用的価値が高いデータセット論文であり、スリランカおよび南アジア地域のデジタル研究に貴重なインフラストラクチャを提供している。技術的革新性の面では相対的に限定的であるが、データ規模、開放性、持続可能性の面での貢献は認められるべきである。この研究は、低リソース言語と発展途上国のデジタルヒューマニティーズ研究の良い範例を示している。