Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic
Wortartenmarkierung für die Nagamese-Sprache mit CRF
Dieses Papier untersucht die Aufgabe der Wortartenmarkierung für die Nagamese-Sprache, eine wichtige Aufgabe in der Verarbeitung natürlicher Sprache (NLP). Die Nagamese-Sprache, auch als Naga Pidgin bekannt, ist eine Kreolsprache mit assamesischem Wortschatz, die sich hauptsächlich als Kommunikationsmittel für den Handel zwischen Nagas und Assamese im Nordosten Indiens entwickelt hat. Während ressourcenreiche Sprachen wie Englisch und Hindi umfangreiche Arbeiten zur Wortartenmarkierung aufweisen, gibt es für die Nagamese-Sprache in diesem Bereich noch keine Forschung. Nach Angaben der Autoren ist dies der erste Versuch der Wortartenmarkierung für die Nagamese-Sprache. Die Forschung erstellte ein annotiertes Korpus mit 16.112 Token und wendete die Conditional Random Field (CRF) Maschinenlernmethode an, um eine Gesamtmarkierungsgenauigkeit von 85,70% mit Präzision und Recall von jeweils 86% und einem F1-Score von 85% zu erreichen.
Diese Forschung zielt darauf ab, das Problem des Mangels an Wortartenmarkierungswerkzeugen für die Nagamese-Sprache zu lösen. Die Wortartenmarkierung ist eine grundlegende NLP-Aufgabe, die darin besteht, jedem Wort in einem Satz ein angemessenes Wortarten-Label zuzuweisen.
Sprachschutz: Nagamese als Lingua Franca von Nagaland wird in Massenmedien, Nachrichten, Rundfunk und Regierungsmedien weit verbreitet verwendet
Ressourcenmangel: Nagamese gehört zu ressourcenknappen Sprachen und verfügt über unzureichende Sprachverarbeitungswerkzeuge und Ressourcen
Grundlegende Anwendung: Die Wortartenmarkierung ist die Grundlage für die Entwicklung anderer NLP-Anwendungen wie Sentimentanalyse und maschinelle Übersetzung
Verwendung eines linearen Ketten-CRF-Modells, das Kontextinformationen benachbarter Labels in der Sequenz berücksichtigen kann und das Label-Bias-Problem des Maximum Entropy Markov Model (MEMM) überwindet.
Datenquellen: Sammlung von Artikeln aus der lokalen Zeitung "Nagamese Khobor" mit vielfältigen Inhalten wie Nachrichten und Sport
Korpusgröße: Etwa 26.000 Wörter Rohdaten, manuell annotiert mit 16.115 Token (749 Sätze)
Annotationsprozess: Manuelle Annotation durch Muttersprachler des Nagamese
Qualitätsprüfung: Ein anderer Annotator annotierte 1.864 Token zur Validierung mit einer Diskrepanzrate von 6,7% für Fremdwörter und nur 1,23% ohne Fremdwörter
Da Nagamese eine mit assamesischem Wortschatz lexikalisierte Kreolsprache ist, überprüft das Papier verwandte Arbeiten zur Wortartenmarkierung des Assamesischen:
Das Papier zitiert die folgenden Schlüsselliteraturquellen:
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Standardisierungsforschung der Nagamese-Grammatik
Saharia et al. (2009). Part of speech tagger for assamese text. - Pionierarbeit zur assamesischen Wortartenmarkierung
Pathak et al. (2022, 2023). Deep-Learning-Methoden zur assamesischen Wortartenmarkierung
Phukan et al. (2023, 2024). LSTM-Wortartenmarkierungsforschung für Assamesisch
Gesamtbewertung: Dies ist ein Papier von großer bahnbrechender Bedeutung. Obwohl die technischen Methoden relativ traditionell sind, etabliert es das erste Wortartenmarkierungssystem für die ressourcenknappen Nagamese-Sprache und hat bedeutende akademische und gesellschaftliche Werte. Die Forschungsmethodik ist streng, die Datenerstellung ist standardisiert und legt eine solide Grundlage für zukünftige Forschung.