2025-11-19T12:46:13.574656

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource forLaw, News, and Policy

Senaratna

We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.

academic

Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy

Grundinformationen

Paper-ID: 2510.04124
Titel: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
Autor: Nuwan I. Senaratna (Independent Researcher)
Klassifizierung: cs.CL (Computerlinguistik)
Veröffentlichungsdatum: arXiv preprint, v2025-10-16-0818
Paper-Link: https://arxiv.org/abs/2510.04124

Zusammenfassung

Dieser Artikel stellt einen großflächigen, offenen und maschinenlesbaren Dokumentdatensatz aus Sri Lanka vor, der Parlamentsprotokolle, Gerichtsurteile, Regierungspublikationen, Nachrichten und Tourismusstatistiken umfasst. Die Sammlung enthält derzeit 230.091 Dokumente (57,7 GB) über 24 Datensätze hinweg und unterstützt drei Sprachen: Singhalesisch, Tamilisch und Englisch. Der Datensatz wird täglich aktualisiert und ist auf GitHub und Hugging Face gespiegelt. Diese Ressourcen sollen Forschung in Computerlinguistik, Rechtsanalyse, soziopolitischen Studien und mehrsprachiger Verarbeitung natürlicher Sprache unterstützen.

Forschungshintergrund und Motivation

Problemdefinition

Die digitalisierten Rechts-, Politik- und Medienakten Sri Lankas sind über zahlreiche staatliche und private Quellen verteilt, wobei der Großteil der Informationen in PDF- oder Webform vorliegt und es an maschinenlesbarer Struktur oder Konsistenz in öffentlichen Archiven mangelt. Diese Fragmentierung schränkt den Zugang von Bürgern, Journalisten und Forschern zu Informationen über die Regierungsführung, Geschichte und sozioökonomische Trends des Landes ein.

Bedeutsamkeit

Datenmangel: Die Südasienregion, insbesondere Sri Lanka, verfügt über keine einheitlichen und maschinenlesbaren öffentlichen Aufzeichnungen
Sprachenvielfalt: Bedarf an NLP-Forschung für ressourcenschwache Sprachen (Singhalesisch, Tamilisch)
Transparenzanforderungen: Verbesserung der Transparenz und Überprüfbarkeit für Bürgerbeteiligung und akademische Forschung
Bereichsübergreifende Anwendungen: Unterstützung mehrerer Bereiche wie Rechtsanalyse, Politikforschung und Medienüberwachung

Bestehende Einschränkungen

Globale große Korpora (wie Common Crawl, Wikipedia Dumps) werden hauptsächlich von hochressourcigen Sprachdaten dominiert
Regionale Initiativen sind fragmentiert und konzentrieren sich typischerweise auf einzelne Medien oder Institutionen
Frühere Datensätze weisen Einschränkungen in Umfang, Sprachabdeckung oder zeitlicher Kontinuität auf

Kernbeiträge

Konstruktion einer großflächigen mehrsprachigen Dokumentsammlung: 230.091 Dokumente über 24 verschiedene Datensatztypen
Etablierung einer automatisierten Datenerfassungspipeline: Implementierung kontinuierlicher Erkennung, Aufnahme, Analyse, Validierung und Versionskontrolle
Bereitstellung einer offenen Datenzugriffsinfrastruktur: Vollständig offener Datensatz unter MIT-Lizenz
Unterstützung multidisziplinärer Forschungsanwendungen: Computerlinguistik, Rechtsanalyse, soziopolitische Forschung usw.
Sicherung von Datenqualität und Reproduzierbarkeit: Standardisierte Formate, Versionskontrolle und transparente Datenquellen

Methodische Details

Datensatzzusammensetzung

Der Artikel beschreibt detailliert 24 Datensätze, die hauptsächlich in folgende Kategorien unterteilt sind:

1. Rechtliche Dokumente

Hansard (Parlamentsprotokolle): 1.665 Dokumente, 17,9 GB, 2006-2025
Urteile des Berufungsgerichts: 10.164 Dokumente, 10,5 GB, 2012-2025
Urteile des Obersten Gerichtshofs: 2.168 Dokumente, 1,4 GB, 2009-2025
Gesetztexte: 3.934 Dokumente, 6,9 GB, 1981-2025
Gesetzentwürfe: 4.080 Dokumente, 1,9 GB, 2010-2025

2. Regierungspublikationen

Amtsblätter (2020er Jahre): 45.373 Dokumente, 1,3 GB
Amtsblätter (2010er Jahre): 56.379 Dokumente, 3,3 GB
Kabinettsbeschlüsse: 10.385 Dokumente, 136,4 MB
Pressemitteilungen des Finanzministeriums: 134 Dokumente, 144,5 MB

3. Nachrichten und Medien

Nachrichtendokumente: 81.155 Dokumente, 1,2 GB, 2021-2025
Pressemitteilungen des Präsidialmedienzentrums: 2.182 Dokumente, 55,9 MB

4. Statistiken und Berichte

Tourismusstatistikberichte: 161 Dokumente, 405,7 MB
Fischereisstatistikberichte: 417 Dokumente, 101,4 MB
Jahresberichte der Zentralbank: 1.137 Dokumente, 3,5 GB

Datenerfassungspipeline

Technische Architektur

GitHub Actions-Orchestrierung: Verwendung von Cron-Jobs für mehrfache tägliche Ausführungen
Matrix-Strategie: Isolierung jeder Datenquelle, Ermöglichung unabhängiger Wiederholungen
Inkrementelle Aktualisierungen: Erkennung neuer oder geänderter Elemente durch stabile Schlüssel (URL + Datum) und Content-Hashing

Web-Scraping-Implementierung

Werkzeuge: Python + Selenium + Headless Chrome Browser
Verarbeitung dynamischer Inhalte: Explizite Bedingungswartevorgänge für das Laden dynamischer Inhalte
Höflichkeitsbeschränkungen: Einhaltung von robots.txt, Begrenzung der Anfragerate, Randomisierung von Verzögerungen

Datenverarbeitung

PDF-Analyse: Verwendung von PyMuPDF zur Extraktion von Text, Metadaten und Layout-Blöcken
Qualitätskontrolle: Mustervaldierung, Erzwingung erforderlicher Felder, Checksummen-Schutz
Versionskontrolle: Speicherung von Originalartefakten und geparsten JSON-Darstellungen

Technische Innovationen

Automatisierte Pipeline: Vollständig automatisierter Datenerfassungs-, Verarbeitungs- und Aktualisierungsprozess
Mehrformatunterstützung: Gleichzeitige Verarbeitung von HTML- und PDF-Formaten
Inkrementeller Aktualisierungsmechanismus: Effiziente Änderungserkennung und Versionskontrolle
Qualitätssicherung: Mehrschichtige Datenvalidierung und Fehlerbehandlung
Transparenzdesign: Vollständige Metadatenaufzeichnung und nachvollziehbare Datenquellen

Experimentelle Einrichtung

Datenstatistiken

Gesamtzahl der Dokumente: 230.091
Gesamtgröße: 57,7 GB
Anzahl der Datensätze: 24
Sprachabdeckung: Singhalesisch, Tamilisch, Englisch
Zeitspanne: 1950 bis 2025 (variiert je nach Datensatz)

Bewertung der Datenqualität

Vollständigkeitsprüfung: Validierung erforderlicher Felder
Konsistenzvalidierung: Formatstandardisierung
Duplikatserkennung: Deduplizierung basierend auf Content-Hashing
Zeitliche Gültigkeit: Validierung des Datumsbereichs

Experimentelle Ergebnisse

Datensatzgrößenanalyse

Kategorie	Dokumentanzahl	Datengröße	Hauptsprache
Rechtliche Dokumente	62.314	36,7 GB	Hauptsächlich Englisch
Regierungspublikationen	112.473	5,0 GB	Mehrsprachig
Nachrichtenmedien	83.337	1,3 GB	Mehrsprachig
Statistikberichte	5.742	14,7 GB	Hauptsächlich Englisch

Zeitliche Abdeckungsanalyse

Historische Tiefe: Älteste Dokumente reichen bis 1950 zurück (Jahresberichte der Zentralbank)
Aktualisierungsfrequenz: Tägliche automatische Aktualisierung
Datenfrischsche: Die meisten Datensätze decken bis Oktober 2025 ab

Sprachenverteilung

Englisch: Hauptsprache offizieller Regierungsdokumente und Gerichtsurteile
Singhalesisch: Lokale Nachrichten, einige Regierungsdokumente
Tamilisch: Dokumente in Minderheitensprachen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Erfolgreiche Konstruktion des größten mehrsprachigen Dokumentdatensatzes Sri Lankas
Etablierung eines nachhaltigen automatisierten Datenerfassungs- und Aktualisierungsmechanismus
Bereitstellung wertvoller Ressourcen für Computerlinguistik- und Digital-Governance-Forschung
Sicherung der Datenzugänglichkeit und Wiederverwendbarkeit durch offene Lizenzen

Einschränkungen

Sprachverarbeitungsgenauigkeit: Die Parsing-Genauigkeit für Singhalesisch und Tamilisch muss verbessert werden
OCR-Kapazitätsbeschränkungen: Unzureichende Verarbeitungsfähigkeit für gescannte oder unstrukturierte PDFs
Abdeckungsbereich: Einige Regierungsbehörden und Medienquellen sind noch nicht enthalten
Datenqualitätsvariationen: Unterschiede in der Datenqualität zwischen verschiedenen Quellen

Zukünftige Richtungen

Erweiterung der Abdeckung: Hinzufügen weiterer Regierungsbehörden, Medienquellen und historischer Archive
Verbesserung der Sprachverarbeitung: Verbesserung der Tokenisierung, Schriftverarbeitung und mehrsprachigen Einbettungen für Singhalesisch und Tamilisch
Integration von OCR-Parsing: Experimentieren mit tiefenlerngestützten OCR-Pipelines in Kombination mit Layout-Erkennung und Sprachmodellierung

Tiefgreifende Bewertung

Stärken

Datengröße und -qualität: Großflächiger Datensatz mit 230.091 Dokumenten über mehrere wichtige Bereiche
Ausgezeichnete technische Implementierung: Vollständig automatisierte Datenpipeline, die Aktualität und Konsistenz der Daten gewährleistet
Offenheit und Transparenz: Vollständig offener Zugriff unter MIT-Lizenz, entspricht FAIR-Prinzipien
Mehrsprachige Unterstützung: Wertvolle Ressourcen für Forschung in ressourcenschwachen Sprachen
Hoher praktischer Wert: Unterstützung praktischer Anwendungsanforderungen mehrerer Forschungsbereiche

Mängel

Mangelnde Bewertung: Der Artikel fehlt eine quantitative Bewertung und Validierung der Datenqualität
Unzureichende Anwendungsfälle: Keine konkreten Anwendungsbeispiele oder Benchmark-Testergebnisse
Unausgewogene Sprachenverteilung: Englische Dokumente dominieren, andere Sprachen haben begrenzte Abdeckung
Unzureichende technische Details: Einige technische Implementierungsdetails sind nicht ausreichend beschrieben

Auswirkungen

Akademischer Beitrag: Schaffung einer Grundlage für Digital Humanities und Computerlinguistik-Forschung in SüdAsien
Gesellschaftlicher Wert: Verbesserung der Regierungstransparenz, Unterstützung von Bürgerbeteiligung und Überwachung
Technologisches Vorbild: Referenz für andere Entwicklungsländer zur Etablierung ähnlicher Dateninfrastrukturen
Nachhaltigkeit: Etablierung eines nachhaltigen Datenerfassungs- und Wartungsmechanismus

Anwendungsszenarien

Verarbeitung natürlicher Sprache: Training und Bewertung mehrsprachiger Modelle
Legal Tech: Analyse von Rechtsdokumenten und Fallrechtforschung
Politikanalyse: Verfolgung von Regierungsentscheidungen und Politikveränderungen
Medienforschung: Analyse von Nachrichtentrends und Stimmungsanalyse
Digital Governance: E-Government und Transparenzforschung

Literaturverzeichnis

Der Artikel zitiert wichtige Arbeiten aus mehreren verwandten Bereichen, darunter:

Best Practices für MLOps und Datenpipeline-Konstruktion
Frameworks für offene Datenverwaltung
Ethische und technische Standards für Web-Scraping
FAIR-Prinzipien für wissenschaftliches Datenmanagement
Literatur zur Reproduzierbarkeit von Forschung

Gesamtbewertung: Dies ist ein Datensatzpapier mit wichtigem praktischem Wert, das wertvolle Infrastruktur für digitalisierte Forschung in Sri Lanka und der gesamten Südasienregion bereitstellt. Obwohl die technische Innovativität relativ begrenzt ist, verdienen die Beiträge in Datengröße, Offenheit und Nachhaltigkeit Anerkennung. Diese Arbeit setzt ein gutes Beispiel für Digital Humanities-Forschung in ressourcenschwachen Sprachen und Entwicklungsländern.