2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna
We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academic

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

Grundinformationen

  • Paper-ID: 2510.04124
  • Titel: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
  • Autor: Nuwan I. Senaratna (Independent Researcher)
  • Klassifizierung: cs.CL (Computerlinguistik)
  • Veröffentlichungsdatum: arXiv preprint, v2025-10-16-0818
  • Paper-Link: https://arxiv.org/abs/2510.04124

Zusammenfassung

Dieser Artikel stellt einen großflächigen, offenen und maschinenlesbaren Dokumentdatensatz aus Sri Lanka vor, der Parlamentsprotokolle, Gerichtsurteile, Regierungspublikationen, Nachrichten und Tourismusstatistiken umfasst. Die Sammlung enthält derzeit 230.091 Dokumente (57,7 GB) über 24 Datensätze hinweg und unterstützt drei Sprachen: Singhalesisch, Tamilisch und Englisch. Der Datensatz wird täglich aktualisiert und ist auf GitHub und Hugging Face gespiegelt. Diese Ressourcen sollen Forschung in Computerlinguistik, Rechtsanalyse, soziopolitischen Studien und mehrsprachiger Verarbeitung natürlicher Sprache unterstützen.

Forschungshintergrund und Motivation

Problemdefinition

Die digitalisierten Rechts-, Politik- und Medienakten Sri Lankas sind über zahlreiche staatliche und private Quellen verteilt, wobei der Großteil der Informationen in PDF- oder Webform vorliegt und es an maschinenlesbarer Struktur oder Konsistenz in öffentlichen Archiven mangelt. Diese Fragmentierung schränkt den Zugang von Bürgern, Journalisten und Forschern zu Informationen über die Regierungsführung, Geschichte und sozioökonomische Trends des Landes ein.

Bedeutsamkeit

  1. Datenmangel: Die Südasienregion, insbesondere Sri Lanka, verfügt über keine einheitlichen und maschinenlesbaren öffentlichen Aufzeichnungen
  2. Sprachenvielfalt: Bedarf an NLP-Forschung für ressourcenschwache Sprachen (Singhalesisch, Tamilisch)
  3. Transparenzanforderungen: Verbesserung der Transparenz und Überprüfbarkeit für Bürgerbeteiligung und akademische Forschung
  4. Bereichsübergreifende Anwendungen: Unterstützung mehrerer Bereiche wie Rechtsanalyse, Politikforschung und Medienüberwachung

Bestehende Einschränkungen

  • Globale große Korpora (wie Common Crawl, Wikipedia Dumps) werden hauptsächlich von hochressourcigen Sprachdaten dominiert
  • Regionale Initiativen sind fragmentiert und konzentrieren sich typischerweise auf einzelne Medien oder Institutionen
  • Frühere Datensätze weisen Einschränkungen in Umfang, Sprachabdeckung oder zeitlicher Kontinuität auf

Kernbeiträge

  1. Konstruktion einer großflächigen mehrsprachigen Dokumentsammlung: 230.091 Dokumente über 24 verschiedene Datensatztypen
  2. Etablierung einer automatisierten Datenerfassungspipeline: Implementierung kontinuierlicher Erkennung, Aufnahme, Analyse, Validierung und Versionskontrolle
  3. Bereitstellung einer offenen Datenzugriffsinfrastruktur: Vollständig offener Datensatz unter MIT-Lizenz
  4. Unterstützung multidisziplinärer Forschungsanwendungen: Computerlinguistik, Rechtsanalyse, soziopolitische Forschung usw.
  5. Sicherung von Datenqualität und Reproduzierbarkeit: Standardisierte Formate, Versionskontrolle und transparente Datenquellen

Methodische Details

Datensatzzusammensetzung

Der Artikel beschreibt detailliert 24 Datensätze, die hauptsächlich in folgende Kategorien unterteilt sind:

1. Rechtliche Dokumente

  • Hansard (Parlamentsprotokolle): 1.665 Dokumente, 17,9 GB, 2006-2025
  • Urteile des Berufungsgerichts: 10.164 Dokumente, 10,5 GB, 2012-2025
  • Urteile des Obersten Gerichtshofs: 2.168 Dokumente, 1,4 GB, 2009-2025
  • Gesetztexte: 3.934 Dokumente, 6,9 GB, 1981-2025
  • Gesetzentwürfe: 4.080 Dokumente, 1,9 GB, 2010-2025

2. Regierungspublikationen

  • Amtsblätter (2020er Jahre): 45.373 Dokumente, 1,3 GB
  • Amtsblätter (2010er Jahre): 56.379 Dokumente, 3,3 GB
  • Kabinettsbeschlüsse: 10.385 Dokumente, 136,4 MB
  • Pressemitteilungen des Finanzministeriums: 134 Dokumente, 144,5 MB

3. Nachrichten und Medien

  • Nachrichtendokumente: 81.155 Dokumente, 1,2 GB, 2021-2025
  • Pressemitteilungen des Präsidialmedienzentrums: 2.182 Dokumente, 55,9 MB

4. Statistiken und Berichte

  • Tourismusstatistikberichte: 161 Dokumente, 405,7 MB
  • Fischereisstatistikberichte: 417 Dokumente, 101,4 MB
  • Jahresberichte der Zentralbank: 1.137 Dokumente, 3,5 GB

Datenerfassungspipeline

Technische Architektur

  1. GitHub Actions-Orchestrierung: Verwendung von Cron-Jobs für mehrfache tägliche Ausführungen
  2. Matrix-Strategie: Isolierung jeder Datenquelle, Ermöglichung unabhängiger Wiederholungen
  3. Inkrementelle Aktualisierungen: Erkennung neuer oder geänderter Elemente durch stabile Schlüssel (URL + Datum) und Content-Hashing

Web-Scraping-Implementierung

  • Werkzeuge: Python + Selenium + Headless Chrome Browser
  • Verarbeitung dynamischer Inhalte: Explizite Bedingungswartevorgänge für das Laden dynamischer Inhalte
  • Höflichkeitsbeschränkungen: Einhaltung von robots.txt, Begrenzung der Anfragerate, Randomisierung von Verzögerungen

Datenverarbeitung

  1. PDF-Analyse: Verwendung von PyMuPDF zur Extraktion von Text, Metadaten und Layout-Blöcken
  2. Qualitätskontrolle: Mustervaldierung, Erzwingung erforderlicher Felder, Checksummen-Schutz
  3. Versionskontrolle: Speicherung von Originalartefakten und geparsten JSON-Darstellungen

Technische Innovationen

  1. Automatisierte Pipeline: Vollständig automatisierter Datenerfassungs-, Verarbeitungs- und Aktualisierungsprozess
  2. Mehrformatunterstützung: Gleichzeitige Verarbeitung von HTML- und PDF-Formaten
  3. Inkrementeller Aktualisierungsmechanismus: Effiziente Änderungserkennung und Versionskontrolle
  4. Qualitätssicherung: Mehrschichtige Datenvalidierung und Fehlerbehandlung
  5. Transparenzdesign: Vollständige Metadatenaufzeichnung und nachvollziehbare Datenquellen

Experimentelle Einrichtung

Datenstatistiken

  • Gesamtzahl der Dokumente: 230.091
  • Gesamtgröße: 57,7 GB
  • Anzahl der Datensätze: 24
  • Sprachabdeckung: Singhalesisch, Tamilisch, Englisch
  • Zeitspanne: 1950 bis 2025 (variiert je nach Datensatz)

Bewertung der Datenqualität

  • Vollständigkeitsprüfung: Validierung erforderlicher Felder
  • Konsistenzvalidierung: Formatstandardisierung
  • Duplikatserkennung: Deduplizierung basierend auf Content-Hashing
  • Zeitliche Gültigkeit: Validierung des Datumsbereichs

Experimentelle Ergebnisse

Datensatzgrößenanalyse

KategorieDokumentanzahlDatengrößeHauptsprache
Rechtliche Dokumente62.31436,7 GBHauptsächlich Englisch
Regierungspublikationen112.4735,0 GBMehrsprachig
Nachrichtenmedien83.3371,3 GBMehrsprachig
Statistikberichte5.74214,7 GBHauptsächlich Englisch

Zeitliche Abdeckungsanalyse

  • Historische Tiefe: Älteste Dokumente reichen bis 1950 zurück (Jahresberichte der Zentralbank)
  • Aktualisierungsfrequenz: Tägliche automatische Aktualisierung
  • Datenfrischsche: Die meisten Datensätze decken bis Oktober 2025 ab

Sprachenverteilung

  • Englisch: Hauptsprache offizieller Regierungsdokumente und Gerichtsurteile
  • Singhalesisch: Lokale Nachrichten, einige Regierungsdokumente
  • Tamilisch: Dokumente in Minderheitensprachen

Verwandte Arbeiten

Globale große Korpora

  • Common Crawl: Allgemeine Web-Scraping-Daten
  • Wikipedia Dumps: Wikipedia-Datentransfers
  • OpenWebText: Open Web Text Corpus

Regionale Initiativen

  • Indian Kanoon: Indisches Rechtskorpus
  • OpenSubtitles: Mehrsprachiger Untertiteldatensatz
  • African News Corpus: Afrikanisches Nachrichtenkorpus

Situation in SüdAsien

  • Bestehende Bemühungen sind fragmentiert und konzentrieren sich typischerweise auf einzelne Medieninstitutionen
  • Mangel an umfassenden und maschinenlesbaren Dokumentaufzeichnungen
  • Einschränkungen in Umfang, Sprachabdeckung oder zeitlicher Kontinuität

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Konstruktion des größten mehrsprachigen Dokumentdatensatzes Sri Lankas
  2. Etablierung eines nachhaltigen automatisierten Datenerfassungs- und Aktualisierungsmechanismus
  3. Bereitstellung wertvoller Ressourcen für Computerlinguistik- und Digital-Governance-Forschung
  4. Sicherung der Datenzugänglichkeit und Wiederverwendbarkeit durch offene Lizenzen

Einschränkungen

  1. Sprachverarbeitungsgenauigkeit: Die Parsing-Genauigkeit für Singhalesisch und Tamilisch muss verbessert werden
  2. OCR-Kapazitätsbeschränkungen: Unzureichende Verarbeitungsfähigkeit für gescannte oder unstrukturierte PDFs
  3. Abdeckungsbereich: Einige Regierungsbehörden und Medienquellen sind noch nicht enthalten
  4. Datenqualitätsvariationen: Unterschiede in der Datenqualität zwischen verschiedenen Quellen

Zukünftige Richtungen

  1. Erweiterung der Abdeckung: Hinzufügen weiterer Regierungsbehörden, Medienquellen und historischer Archive
  2. Verbesserung der Sprachverarbeitung: Verbesserung der Tokenisierung, Schriftverarbeitung und mehrsprachigen Einbettungen für Singhalesisch und Tamilisch
  3. Integration von OCR-Parsing: Experimentieren mit tiefenlerngestützten OCR-Pipelines in Kombination mit Layout-Erkennung und Sprachmodellierung

Tiefgreifende Bewertung

Stärken

  1. Datengröße und -qualität: Großflächiger Datensatz mit 230.091 Dokumenten über mehrere wichtige Bereiche
  2. Ausgezeichnete technische Implementierung: Vollständig automatisierte Datenpipeline, die Aktualität und Konsistenz der Daten gewährleistet
  3. Offenheit und Transparenz: Vollständig offener Zugriff unter MIT-Lizenz, entspricht FAIR-Prinzipien
  4. Mehrsprachige Unterstützung: Wertvolle Ressourcen für Forschung in ressourcenschwachen Sprachen
  5. Hoher praktischer Wert: Unterstützung praktischer Anwendungsanforderungen mehrerer Forschungsbereiche

Mängel

  1. Mangelnde Bewertung: Der Artikel fehlt eine quantitative Bewertung und Validierung der Datenqualität
  2. Unzureichende Anwendungsfälle: Keine konkreten Anwendungsbeispiele oder Benchmark-Testergebnisse
  3. Unausgewogene Sprachenverteilung: Englische Dokumente dominieren, andere Sprachen haben begrenzte Abdeckung
  4. Unzureichende technische Details: Einige technische Implementierungsdetails sind nicht ausreichend beschrieben

Auswirkungen

  1. Akademischer Beitrag: Schaffung einer Grundlage für Digital Humanities und Computerlinguistik-Forschung in SüdAsien
  2. Gesellschaftlicher Wert: Verbesserung der Regierungstransparenz, Unterstützung von Bürgerbeteiligung und Überwachung
  3. Technologisches Vorbild: Referenz für andere Entwicklungsländer zur Etablierung ähnlicher Dateninfrastrukturen
  4. Nachhaltigkeit: Etablierung eines nachhaltigen Datenerfassungs- und Wartungsmechanismus

Anwendungsszenarien

  1. Verarbeitung natürlicher Sprache: Training und Bewertung mehrsprachiger Modelle
  2. Legal Tech: Analyse von Rechtsdokumenten und Fallrechtforschung
  3. Politikanalyse: Verfolgung von Regierungsentscheidungen und Politikveränderungen
  4. Medienforschung: Analyse von Nachrichtentrends und Stimmungsanalyse
  5. Digital Governance: E-Government und Transparenzforschung

Literaturverzeichnis

Der Artikel zitiert wichtige Arbeiten aus mehreren verwandten Bereichen, darunter:

  • Best Practices für MLOps und Datenpipeline-Konstruktion
  • Frameworks für offene Datenverwaltung
  • Ethische und technische Standards für Web-Scraping
  • FAIR-Prinzipien für wissenschaftliches Datenmanagement
  • Literatur zur Reproduzierbarkeit von Forschung

Gesamtbewertung: Dies ist ein Datensatzpapier mit wichtigem praktischem Wert, das wertvolle Infrastruktur für digitalisierte Forschung in Sri Lanka und der gesamten Südasienregion bereitstellt. Obwohl die technische Innovativität relativ begrenzt ist, verdienen die Beiträge in Datengröße, Offenheit und Nachhaltigkeit Anerkennung. Diese Arbeit setzt ein gutes Beispiel für Digital Humanities-Forschung in ressourcenschwachen Sprachen und Entwicklungsländern.