2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

Wortartenmarkierung für die Nagamese-Sprache mit CRF

Grundinformationen

  • Papier-ID: 2509.19343
  • Titel: Part-of-speech tagging for Nagamese Language using CRF
  • Autoren: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • Institution: Department of Information Technology, Nagaland University, Kohima Campus, Indien
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungsdatum: 13. Oktober 2025 (arXiv v3)
  • Papierlink: https://arxiv.org/abs/2509.19343

Zusammenfassung

Dieses Papier untersucht die Aufgabe der Wortartenmarkierung für die Nagamese-Sprache, eine wichtige Aufgabe in der Verarbeitung natürlicher Sprache (NLP). Die Nagamese-Sprache, auch als Naga Pidgin bekannt, ist eine Kreolsprache mit assamesischem Wortschatz, die sich hauptsächlich als Kommunikationsmittel für den Handel zwischen Nagas und Assamese im Nordosten Indiens entwickelt hat. Während ressourcenreiche Sprachen wie Englisch und Hindi umfangreiche Arbeiten zur Wortartenmarkierung aufweisen, gibt es für die Nagamese-Sprache in diesem Bereich noch keine Forschung. Nach Angaben der Autoren ist dies der erste Versuch der Wortartenmarkierung für die Nagamese-Sprache. Die Forschung erstellte ein annotiertes Korpus mit 16.112 Token und wendete die Conditional Random Field (CRF) Maschinenlernmethode an, um eine Gesamtmarkierungsgenauigkeit von 85,70% mit Präzision und Recall von jeweils 86% und einem F1-Score von 85% zu erreichen.

Forschungshintergrund und Motivation

Problemdefinition

Diese Forschung zielt darauf ab, das Problem des Mangels an Wortartenmarkierungswerkzeugen für die Nagamese-Sprache zu lösen. Die Wortartenmarkierung ist eine grundlegende NLP-Aufgabe, die darin besteht, jedem Wort in einem Satz ein angemessenes Wortarten-Label zuzuweisen.

Bedeutung

  1. Sprachschutz: Nagamese als Lingua Franca von Nagaland wird in Massenmedien, Nachrichten, Rundfunk und Regierungsmedien weit verbreitet verwendet
  2. Ressourcenmangel: Nagamese gehört zu ressourcenknappen Sprachen und verfügt über unzureichende Sprachverarbeitungswerkzeuge und Ressourcen
  3. Grundlegende Anwendung: Die Wortartenmarkierung ist die Grundlage für die Entwicklung anderer NLP-Anwendungen wie Sentimentanalyse und maschinelle Übersetzung

Bestehende Einschränkungen

  • Mainstream-NLP-Werkzeuge sind hauptsächlich für ressourcenreiche Sprachen wie Englisch und Hindi entwickelt
  • Die Nagamese-Sprache hatte zuvor überhaupt keine Arbeiten zur Wortartenmarkierung
  • Es fehlt ein standardisiertes annotiertes Korpus und ein Labelset

Kernbeiträge

  1. Bahnbrechende Forschung: Erste Forschung zur Wortartenmarkierung für die Nagamese-Sprache
  2. Labelset-Design: Entwurf von 15 Wortarten-Labels, die für Nagamese geeignet sind, basierend auf dem Penn Treebank Labelset
  3. Korpuserstellung: Erstellung eines manuell annotierten Korpus mit 16.115 Token
  4. Baseline-Modell: Etablierung eines Baseline-Modells für die Nagamese-Wortartenmarkierung mit CRF-Technologie
  5. Leistungsbewertung: Bereitstellung detaillierter Fehleranalyse und Leistungsbewertung

Methodische Details

Aufgabendefinition

Gegeben ein Satz in der Nagamese-Sprache, wird jedem Wort ein entsprechendes Wortarten-Label zugewiesen.

Eingabe: Wortfolge in einem Nagamese-Satz Ausgabe: Entsprechende Wortarten-Label-Folge Beispiel:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(Gott war zufrieden mit dem, was Er sah.)

Merkmale der Nagamese-Sprache

Zeichensatz

  • Vokale: i, u, e, @, o, a (6 Stück)
  • Konsonanten: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22 Stück)

Silbenmuster

  • Einsilbig: (C)(C)V(C)(C), aber V kann nicht allein stehen
  • Zweisilbig: V(C)(C)(C)V(C) oder (C)CV(C)(C)CV(C)(C)
  • Dreisilbig: V(C)(C)CV(C)(C)CV(C) oder (C)CV(C)(C)V(C)(C)(C)V(C)
  • Viersilbig: (C)V(C)CVCV(C)CV(C)
  • Keine fünfsilbigen Wörter (außer offensichtlichen Komposita)

Labelset-Design

Vereinfachung von 36 Labels aus Penn Treebank auf 15 Labels, die für Nagamese geeignet sind:

Nr.KategorieLabel
1AdjektivADJ
2AdverbADV
3KonjunktionCONJ
4KomplementmarkerCMP
5DeterminerDET
6Postposition/PräpositionPP
7InterjektionINTJ
8SubstantivN
9PronomenPN
10QuantifierQN
11VerbV
12FremdwortFW
13SymbolSYM
14Unbekanntes WortUNK
15ZahlwortNUM

Modellarchitektur

Conditional Random Field (CRF)

Verwendung eines linearen Ketten-CRF-Modells, das Kontextinformationen benachbarter Labels in der Sequenz berücksichtigen kann und das Label-Bias-Problem des Maximum Entropy Markov Model (MEMM) überwindet.

Feature-Engineering

Entwurf eines umfangreichen Feature-Sets:

  • Aktuelles Wort
  • Ob es das erste/letzte Wort des Satzes ist
  • Groß-/Kleinschreibungsinformationen des Wortes
  • Präfixe (Länge ≤3) und Suffixe (Länge ≤4)
  • Vorheriges und nächstes Wort
  • Ob das Wort einen Bindestrich enthält
  • Ob das Wort eine Ziffer ist
  • Ob das Wort Großbuchstaben enthält

Optimierungseinstellungen

  • Gradientenabstieg: L-BFGS-Methode
  • Iterationen: 100
  • Regularisierung: L1- und L2-Regularisierung zur Vermeidung von Überanpassung

Experimentelle Einrichtung

Datensatzerstellung

  1. Datenquellen: Sammlung von Artikeln aus der lokalen Zeitung "Nagamese Khobor" mit vielfältigen Inhalten wie Nachrichten und Sport
  2. Korpusgröße: Etwa 26.000 Wörter Rohdaten, manuell annotiert mit 16.115 Token (749 Sätze)
  3. Annotationsprozess: Manuelle Annotation durch Muttersprachler des Nagamese
  4. Qualitätsprüfung: Ein anderer Annotator annotierte 1.864 Token zur Validierung mit einer Diskrepanzrate von 6,7% für Fremdwörter und nur 1,23% ohne Fremdwörter

Datenverteilung

Die Labelfrequenzverteilung zeigt die Unausgeglichenheit der Daten:

  • Höchste Häufigkeit: FW (Fremdwort) - 3.744 Mal
  • Zweithöchste: PP (Postposition) - 2.418 Mal
  • Niedrigste Häufigkeit: CMP (Komplementmarker) - 35 Mal

Bewertungsmetriken

  • Genauigkeit (Accuracy): Gesamtmarkierungskorrektheit
  • Präzision (Precision): TP/(TP+FP)
  • Recall: TP/(TP+FN)
  • F1-Score: 2×(Precision×Recall)/(Precision+Recall)

Experimentelle Konfiguration

  • Trainings-/Testteilung: 70:30
  • Implementierungswerkzeug: sklearn-crfsuite Bibliothek

Experimentelle Ergebnisse

Hauptergebnisse

MetrikWert
Gesamtgenauigkeit85,70%
Durchschnittliche Präzision86%
Durchschnittlicher Recall86%
Durchschnittlicher F1-Score85%

Leistungsanalyse nach Label

Beste Leistung:

  • SYM (Symbol): F1=0,99, Präzision=0,99, Recall=0,98
  • NUM (Zahlwort): F1=0,95, Präzision=0,99, Recall=0,92
  • CONJ (Konjunktion): F1=0,91, Präzision=0,95, Recall=0,87

Schwächere Leistung:

  • UNK (Unbekanntes Wort): F1=0,33, Präzision=0,77, Recall=0,21
  • N (Substantiv): F1=0,70, Präzision=0,70, Recall=0,69
  • ADV (Adverb): F1=0,71, Präzision=0,74, Recall=0,69

Fehleranalyse

Hauptfehlermuster umfassen:

  1. ADJ falsch als: PP (15 Mal), V (15 Mal), N (12 Mal), FW (11 Mal)
  2. N falsch als: FW (76 Mal), PP (26 Mal), V (23 Mal)
  3. FW falsch als: N (81 Mal), zeigt die Herausforderung der Fremdworterkennung

Übergangsmuster-Analyse

  • Wahrscheinlichster Übergang: UNK → UNK
  • Unwahrscheinlichster Übergang: PP → NUM

Verwandte Arbeiten

Da Nagamese eine mit assamesischem Wortschatz lexikalisierte Kreolsprache ist, überprüft das Papier verwandte Arbeiten zur Wortartenmarkierung des Assamesischen:

  1. Saharia et al. (2009): HMM-Verwendung, 172 Labels, 10k Wörter Training, 87% Genauigkeit
  2. Phukan et al. (2024): Zeichenebene LSTM und Bi-LSTM, 60k Wörter, 93,36% Genauigkeit
  3. Pathak et al. (2023): BiLSTM-CRF-Architektur, 404k Token, F1=0,925
  4. Talukdar et al. (2024): RNN und GRU, 30k Wörter, F1=94,56%

Diese Arbeiten bieten technische Referenzen für diese Forschung, aber Nagamese als Kreolsprache hat einzigartige Sprachmerkmale.

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Erfolgreiche Etablierung des ersten Baseline-Systems für die Nagamese-Wortartenmarkierung
  2. Das CRF-Modell erreichte angemessene Leistung bei dieser Aufgabe (85,70% Genauigkeit)
  3. Das erstellte annotierte Korpus legt den Grundstein für zukünftige Forschung

Einschränkungen

  1. Labelset-Größe: Verwendung von nur 15 Labels könnte die Komplexität der Sprache nicht vollständig erfassen
  2. Datengröße: 16.115 Token sind relativ klein und könnten die Modellgeneralisierung beeinflussen
  3. Datenunausgeglichenheit: Einige Labels (wie CMP) haben sehr wenige Samples, was das Modelllernen beeinflusst
  4. Fremdwort-Herausforderung: Die hohe Häufigkeit und Verwechslung des FW-Labels zeigt, dass die Fremdworterkennung eine Hauptschwierigkeit darstellt

Zukünftige Richtungen

  1. Labelset-Erweiterung: Hinzufügen von feiner granulierteren Wortarten-Labels
  2. Datenmenge erhöhen: Erweiterung des annotierten Korpus
  3. Anwendungserweiterung: Verwendung des Wortartenmarkers für Sentimentanalyse, maschinelle Übersetzung und andere Anwendungen
  4. Transfer Learning: Erforschung von Transfer-Learning-Methoden aus dem Assamesischen
  5. Deep Learning: Erprobung moderner Deep-Learning-Methoden wie LSTM und BERT

Tiefgreifende Bewertung

Stärken

  1. Bahnbrechende Bedeutung: Füllt die Lücke in der Nagamese-NLP-Forschung
  2. Linguistische Analyse: Detaillierte Beschreibung der Nagamese-Sprachmerkmale (Phonologie, Silbenstruktur usw.)
  3. Annotationsqualität: Doppelte Annotation zur Gewährleistung der Datenqualität
  4. Fehleranalyse: Detaillierte Verwechslungsmatrix und Fehlermusteranalyse
  5. Praktischer Wert: Bietet ein Beispiel für NLP-Forschung in ressourcenknappen Sprachen

Mängel

  1. Methodische Einschränkung: Verwendung nur traditioneller CRF-Methoden ohne Erprobung moderner Deep-Learning-Techniken
  2. Unzureichende Vergleiche: Fehlende Vergleichsexperimente mit anderen Methoden
  3. Datenschiefe: Der hohe Anteil von Fremdwörtern (23%) könnte die praktische Anwendbarkeit des Modells beeinflussen
  4. Feature-Engineering: Relativ einfache Features könnten wichtige linguistische Merkmale übersehen
  5. Bewertungsbeschränkung: Bewertung nur auf einem einzelnen Datensatz ohne domänenübergreifende Validierung

Auswirkungen

  1. Akademischer Beitrag: Wichtige Referenz für NLP-Forschung in ressourcenknappen Sprachen
  2. Gesellschaftlicher Wert: Trägt zum digitalen Schutz und zur Entwicklung der Nagamese-Sprache bei
  3. Technische Grundlage: Legt den Grundstein für komplexere Nagamese-NLP-Anwendungen
  4. Methodologie: Zeigt den vollständigen Prozess zur Entwicklung von NLP-Werkzeugen für ressourcenknappen Sprachen

Anwendungsszenarien

  1. Bildungsanwendungen: Unterstützung des Nagamese-Sprachunterrichts und -Lernens
  2. Medienverarbeitung: Automatisierte Verarbeitung von Nagamese-Nachrichten und Social-Media-Inhalten
  3. Regierungsdienstleistungen: Unterstützung mehrsprachiger Regierungsdienstleistungen in Nagaland
  4. Forschungsgrundlage: Bereitstellung grundlegender Werkzeuge für weitere Nagamese-NLP-Forschung

Literaturverzeichnis

Das Papier zitiert die folgenden Schlüsselliteraturquellen:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Standardisierungsforschung der Nagamese-Grammatik
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - Pionierarbeit zur assamesischen Wortartenmarkierung
  3. Pathak et al. (2022, 2023). Deep-Learning-Methoden zur assamesischen Wortartenmarkierung
  4. Phukan et al. (2023, 2024). LSTM-Wortartenmarkierungsforschung für Assamesisch

Gesamtbewertung: Dies ist ein Papier von großer bahnbrechender Bedeutung. Obwohl die technischen Methoden relativ traditionell sind, etabliert es das erste Wortartenmarkierungssystem für die ressourcenknappen Nagamese-Sprache und hat bedeutende akademische und gesellschaftliche Werte. Die Forschungsmethodik ist streng, die Datenerstellung ist standardisiert und legt eine solide Grundlage für zukünftige Forschung.