We present a collection of open, machine-readable document datasets covering parliamentary proceedings, legal judgments, government publications, news, and tourism statistics from Sri Lanka. The collection currently comprises of 229,858 documents (57.1 GB) across 24 datasets in Sinhala, Tamil, and English. The datasets are updated daily and mirrored on GitHub and Hugging Face. These resources aim to support research in computational linguistics, legal analytics, socio-political studies, and multilingual natural language processing. We describe the data sources, collection pipeline, formats, and potential use cases, while discussing licensing and ethical considerations. This manuscript is at version v2025-10-15-1111.
academicSri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
- Paper-ID: 2510.04124
- Titel: Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
- Autor: Nuwan I. Senaratna (Independent Researcher)
- Klassifizierung: cs.CL (Computerlinguistik)
- Veröffentlichungsdatum: arXiv preprint, v2025-10-16-0818
- Paper-Link: https://arxiv.org/abs/2510.04124
Dieser Artikel stellt einen großflächigen, offenen und maschinenlesbaren Dokumentdatensatz aus Sri Lanka vor, der Parlamentsprotokolle, Gerichtsurteile, Regierungspublikationen, Nachrichten und Tourismusstatistiken umfasst. Die Sammlung enthält derzeit 230.091 Dokumente (57,7 GB) über 24 Datensätze hinweg und unterstützt drei Sprachen: Singhalesisch, Tamilisch und Englisch. Der Datensatz wird täglich aktualisiert und ist auf GitHub und Hugging Face gespiegelt. Diese Ressourcen sollen Forschung in Computerlinguistik, Rechtsanalyse, soziopolitischen Studien und mehrsprachiger Verarbeitung natürlicher Sprache unterstützen.
Die digitalisierten Rechts-, Politik- und Medienakten Sri Lankas sind über zahlreiche staatliche und private Quellen verteilt, wobei der Großteil der Informationen in PDF- oder Webform vorliegt und es an maschinenlesbarer Struktur oder Konsistenz in öffentlichen Archiven mangelt. Diese Fragmentierung schränkt den Zugang von Bürgern, Journalisten und Forschern zu Informationen über die Regierungsführung, Geschichte und sozioökonomische Trends des Landes ein.
- Datenmangel: Die Südasienregion, insbesondere Sri Lanka, verfügt über keine einheitlichen und maschinenlesbaren öffentlichen Aufzeichnungen
- Sprachenvielfalt: Bedarf an NLP-Forschung für ressourcenschwache Sprachen (Singhalesisch, Tamilisch)
- Transparenzanforderungen: Verbesserung der Transparenz und Überprüfbarkeit für Bürgerbeteiligung und akademische Forschung
- Bereichsübergreifende Anwendungen: Unterstützung mehrerer Bereiche wie Rechtsanalyse, Politikforschung und Medienüberwachung
- Globale große Korpora (wie Common Crawl, Wikipedia Dumps) werden hauptsächlich von hochressourcigen Sprachdaten dominiert
- Regionale Initiativen sind fragmentiert und konzentrieren sich typischerweise auf einzelne Medien oder Institutionen
- Frühere Datensätze weisen Einschränkungen in Umfang, Sprachabdeckung oder zeitlicher Kontinuität auf
- Konstruktion einer großflächigen mehrsprachigen Dokumentsammlung: 230.091 Dokumente über 24 verschiedene Datensatztypen
- Etablierung einer automatisierten Datenerfassungspipeline: Implementierung kontinuierlicher Erkennung, Aufnahme, Analyse, Validierung und Versionskontrolle
- Bereitstellung einer offenen Datenzugriffsinfrastruktur: Vollständig offener Datensatz unter MIT-Lizenz
- Unterstützung multidisziplinärer Forschungsanwendungen: Computerlinguistik, Rechtsanalyse, soziopolitische Forschung usw.
- Sicherung von Datenqualität und Reproduzierbarkeit: Standardisierte Formate, Versionskontrolle und transparente Datenquellen
Der Artikel beschreibt detailliert 24 Datensätze, die hauptsächlich in folgende Kategorien unterteilt sind:
- Hansard (Parlamentsprotokolle): 1.665 Dokumente, 17,9 GB, 2006-2025
- Urteile des Berufungsgerichts: 10.164 Dokumente, 10,5 GB, 2012-2025
- Urteile des Obersten Gerichtshofs: 2.168 Dokumente, 1,4 GB, 2009-2025
- Gesetztexte: 3.934 Dokumente, 6,9 GB, 1981-2025
- Gesetzentwürfe: 4.080 Dokumente, 1,9 GB, 2010-2025
- Amtsblätter (2020er Jahre): 45.373 Dokumente, 1,3 GB
- Amtsblätter (2010er Jahre): 56.379 Dokumente, 3,3 GB
- Kabinettsbeschlüsse: 10.385 Dokumente, 136,4 MB
- Pressemitteilungen des Finanzministeriums: 134 Dokumente, 144,5 MB
- Nachrichtendokumente: 81.155 Dokumente, 1,2 GB, 2021-2025
- Pressemitteilungen des Präsidialmedienzentrums: 2.182 Dokumente, 55,9 MB
- Tourismusstatistikberichte: 161 Dokumente, 405,7 MB
- Fischereisstatistikberichte: 417 Dokumente, 101,4 MB
- Jahresberichte der Zentralbank: 1.137 Dokumente, 3,5 GB
- GitHub Actions-Orchestrierung: Verwendung von Cron-Jobs für mehrfache tägliche Ausführungen
- Matrix-Strategie: Isolierung jeder Datenquelle, Ermöglichung unabhängiger Wiederholungen
- Inkrementelle Aktualisierungen: Erkennung neuer oder geänderter Elemente durch stabile Schlüssel (URL + Datum) und Content-Hashing
- Werkzeuge: Python + Selenium + Headless Chrome Browser
- Verarbeitung dynamischer Inhalte: Explizite Bedingungswartevorgänge für das Laden dynamischer Inhalte
- Höflichkeitsbeschränkungen: Einhaltung von robots.txt, Begrenzung der Anfragerate, Randomisierung von Verzögerungen
- PDF-Analyse: Verwendung von PyMuPDF zur Extraktion von Text, Metadaten und Layout-Blöcken
- Qualitätskontrolle: Mustervaldierung, Erzwingung erforderlicher Felder, Checksummen-Schutz
- Versionskontrolle: Speicherung von Originalartefakten und geparsten JSON-Darstellungen
- Automatisierte Pipeline: Vollständig automatisierter Datenerfassungs-, Verarbeitungs- und Aktualisierungsprozess
- Mehrformatunterstützung: Gleichzeitige Verarbeitung von HTML- und PDF-Formaten
- Inkrementeller Aktualisierungsmechanismus: Effiziente Änderungserkennung und Versionskontrolle
- Qualitätssicherung: Mehrschichtige Datenvalidierung und Fehlerbehandlung
- Transparenzdesign: Vollständige Metadatenaufzeichnung und nachvollziehbare Datenquellen
- Gesamtzahl der Dokumente: 230.091
- Gesamtgröße: 57,7 GB
- Anzahl der Datensätze: 24
- Sprachabdeckung: Singhalesisch, Tamilisch, Englisch
- Zeitspanne: 1950 bis 2025 (variiert je nach Datensatz)
- Vollständigkeitsprüfung: Validierung erforderlicher Felder
- Konsistenzvalidierung: Formatstandardisierung
- Duplikatserkennung: Deduplizierung basierend auf Content-Hashing
- Zeitliche Gültigkeit: Validierung des Datumsbereichs
| Kategorie | Dokumentanzahl | Datengröße | Hauptsprache |
|---|
| Rechtliche Dokumente | 62.314 | 36,7 GB | Hauptsächlich Englisch |
| Regierungspublikationen | 112.473 | 5,0 GB | Mehrsprachig |
| Nachrichtenmedien | 83.337 | 1,3 GB | Mehrsprachig |
| Statistikberichte | 5.742 | 14,7 GB | Hauptsächlich Englisch |
- Historische Tiefe: Älteste Dokumente reichen bis 1950 zurück (Jahresberichte der Zentralbank)
- Aktualisierungsfrequenz: Tägliche automatische Aktualisierung
- Datenfrischsche: Die meisten Datensätze decken bis Oktober 2025 ab
- Englisch: Hauptsprache offizieller Regierungsdokumente und Gerichtsurteile
- Singhalesisch: Lokale Nachrichten, einige Regierungsdokumente
- Tamilisch: Dokumente in Minderheitensprachen
- Common Crawl: Allgemeine Web-Scraping-Daten
- Wikipedia Dumps: Wikipedia-Datentransfers
- OpenWebText: Open Web Text Corpus
- Indian Kanoon: Indisches Rechtskorpus
- OpenSubtitles: Mehrsprachiger Untertiteldatensatz
- African News Corpus: Afrikanisches Nachrichtenkorpus
- Bestehende Bemühungen sind fragmentiert und konzentrieren sich typischerweise auf einzelne Medieninstitutionen
- Mangel an umfassenden und maschinenlesbaren Dokumentaufzeichnungen
- Einschränkungen in Umfang, Sprachabdeckung oder zeitlicher Kontinuität
- Erfolgreiche Konstruktion des größten mehrsprachigen Dokumentdatensatzes Sri Lankas
- Etablierung eines nachhaltigen automatisierten Datenerfassungs- und Aktualisierungsmechanismus
- Bereitstellung wertvoller Ressourcen für Computerlinguistik- und Digital-Governance-Forschung
- Sicherung der Datenzugänglichkeit und Wiederverwendbarkeit durch offene Lizenzen
- Sprachverarbeitungsgenauigkeit: Die Parsing-Genauigkeit für Singhalesisch und Tamilisch muss verbessert werden
- OCR-Kapazitätsbeschränkungen: Unzureichende Verarbeitungsfähigkeit für gescannte oder unstrukturierte PDFs
- Abdeckungsbereich: Einige Regierungsbehörden und Medienquellen sind noch nicht enthalten
- Datenqualitätsvariationen: Unterschiede in der Datenqualität zwischen verschiedenen Quellen
- Erweiterung der Abdeckung: Hinzufügen weiterer Regierungsbehörden, Medienquellen und historischer Archive
- Verbesserung der Sprachverarbeitung: Verbesserung der Tokenisierung, Schriftverarbeitung und mehrsprachigen Einbettungen für Singhalesisch und Tamilisch
- Integration von OCR-Parsing: Experimentieren mit tiefenlerngestützten OCR-Pipelines in Kombination mit Layout-Erkennung und Sprachmodellierung
- Datengröße und -qualität: Großflächiger Datensatz mit 230.091 Dokumenten über mehrere wichtige Bereiche
- Ausgezeichnete technische Implementierung: Vollständig automatisierte Datenpipeline, die Aktualität und Konsistenz der Daten gewährleistet
- Offenheit und Transparenz: Vollständig offener Zugriff unter MIT-Lizenz, entspricht FAIR-Prinzipien
- Mehrsprachige Unterstützung: Wertvolle Ressourcen für Forschung in ressourcenschwachen Sprachen
- Hoher praktischer Wert: Unterstützung praktischer Anwendungsanforderungen mehrerer Forschungsbereiche
- Mangelnde Bewertung: Der Artikel fehlt eine quantitative Bewertung und Validierung der Datenqualität
- Unzureichende Anwendungsfälle: Keine konkreten Anwendungsbeispiele oder Benchmark-Testergebnisse
- Unausgewogene Sprachenverteilung: Englische Dokumente dominieren, andere Sprachen haben begrenzte Abdeckung
- Unzureichende technische Details: Einige technische Implementierungsdetails sind nicht ausreichend beschrieben
- Akademischer Beitrag: Schaffung einer Grundlage für Digital Humanities und Computerlinguistik-Forschung in SüdAsien
- Gesellschaftlicher Wert: Verbesserung der Regierungstransparenz, Unterstützung von Bürgerbeteiligung und Überwachung
- Technologisches Vorbild: Referenz für andere Entwicklungsländer zur Etablierung ähnlicher Dateninfrastrukturen
- Nachhaltigkeit: Etablierung eines nachhaltigen Datenerfassungs- und Wartungsmechanismus
- Verarbeitung natürlicher Sprache: Training und Bewertung mehrsprachiger Modelle
- Legal Tech: Analyse von Rechtsdokumenten und Fallrechtforschung
- Politikanalyse: Verfolgung von Regierungsentscheidungen und Politikveränderungen
- Medienforschung: Analyse von Nachrichtentrends und Stimmungsanalyse
- Digital Governance: E-Government und Transparenzforschung
Der Artikel zitiert wichtige Arbeiten aus mehreren verwandten Bereichen, darunter:
- Best Practices für MLOps und Datenpipeline-Konstruktion
- Frameworks für offene Datenverwaltung
- Ethische und technische Standards für Web-Scraping
- FAIR-Prinzipien für wissenschaftliches Datenmanagement
- Literatur zur Reproduzierbarkeit von Forschung
Gesamtbewertung: Dies ist ein Datensatzpapier mit wichtigem praktischem Wert, das wertvolle Infrastruktur für digitalisierte Forschung in Sri Lanka und der gesamten Südasienregion bereitstellt. Obwohl die technische Innovativität relativ begrenzt ist, verdienen die Beiträge in Datengröße, Offenheit und Nachhaltigkeit Anerkennung. Diese Arbeit setzt ein gutes Beispiel für Digital Humanities-Forschung in ressourcenschwachen Sprachen und Entwicklungsländern.