2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

Étiquetage morphosyntaxique pour la langue Nagamese utilisant les CRF

Informations de base

  • ID de l'article: 2509.19343
  • Titre: Part-of-speech tagging for Nagamese Language using CRF
  • Auteurs: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • Institution: Department of Information Technology, Nagaland University, Kohima Campus, Inde
  • Classification: cs.CL cs.AI
  • Date de publication: 13 octobre 2025 (arXiv v3)
  • Lien de l'article: https://arxiv.org/abs/2509.19343

Résumé

Cet article examine la tâche d'étiquetage morphosyntaxique pour la langue Nagamese, une tâche importante du traitement automatique des langues naturelles (TALN). La langue Nagamese, également appelée Naga Pidgin, est une langue créole basée sur le vocabulaire de l'assamais, développée principalement comme moyen de communication pour les échanges commerciaux entre les Nagas et les Assamais du nord-est de l'Inde. Bien que des travaux considérables aient été réalisés sur l'étiquetage morphosyntaxique pour les langues riches en ressources telles que l'anglais et l'hindi, aucune recherche n'a été menée dans ce domaine pour la langue Nagamese. À la connaissance des auteurs, il s'agit de la première tentative d'étiquetage morphosyntaxique pour la langue Nagamese. L'étude a créé un corpus annoté contenant 16 112 tokens et a appliqué la technique d'apprentissage automatique des champs aléatoires conditionnels (CRF), réalisant une précision globale d'étiquetage de 85,70%, avec une précision et un rappel de 86%, et un score F1 de 85%.

Contexte et motivation de la recherche

Définition du problème

Cette recherche vise à résoudre le problème de l'absence d'outils d'étiquetage morphosyntaxique pour la langue Nagamese. L'étiquetage morphosyntaxique est une tâche fondamentale du TALN qui consiste à assigner des étiquettes de catégories grammaticales appropriées à chaque mot d'une phrase.

Importance

  1. Préservation linguistique: Le Nagamese, en tant que langue commune du Nagaland, est largement utilisé dans les médias de masse, les informations, la radiodiffusion et les médias gouvernementaux
  2. Rareté des ressources: Le Nagamese appartient à la catégorie des langues peu dotées en ressources, manquant d'outils et de ressources de traitement linguistique
  3. Applications fondamentales: L'étiquetage morphosyntaxique constitue la base pour construire d'autres applications TALN, telles que l'analyse des sentiments et la traduction automatique

Limitations existantes

  • Les principaux outils TALN sont développés principalement pour les langues riches en ressources (comme l'anglais et l'hindi)
  • Aucun travail antérieur n'existe sur l'étiquetage morphosyntaxique pour la langue Nagamese
  • Absence de corpus annoté standardisé et d'ensemble d'étiquettes normalisé

Contributions principales

  1. Recherche pionnière: Première étude d'étiquetage morphosyntaxique pour la langue Nagamese
  2. Conception d'ensemble d'étiquettes: Conception de 15 étiquettes morphosyntaxiques adaptées au Nagamese, basées sur l'ensemble d'étiquettes Penn Treebank
  3. Construction de corpus: Création d'un corpus annoté manuellement contenant 16 115 tokens
  4. Modèle de base: Établissement d'un modèle de base pour l'étiquetage morphosyntaxique du Nagamese utilisant la technique CRF
  5. Évaluation des performances: Fourniture d'une analyse détaillée des erreurs et d'une évaluation des performances

Détails méthodologiques

Définition de la tâche

Étant donné une phrase en langue Nagamese, assigner à chaque mot l'étiquette morphosyntaxique correspondante.

Entrée: Séquence de mots dans une phrase Nagamese Sortie: Séquence d'étiquettes morphosyntaxiques correspondantes Exemple:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(Dieu était satisfait de ce qu'Il voyait.)

Caractéristiques de la langue Nagamese

Ensemble de caractères

  • Voyelles: i, u, e, @, o, a (6)
  • Consonnes: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22)

Modèles syllabiques

  • Monosyllabique: (C)(C)V(C)(C), mais V ne peut pas apparaître seul
  • Bisyllabique: V(C)(C)(C)V(C) ou (C)CV(C)(C)CV(C)(C)
  • Trisyllabique: V(C)(C)CV(C)(C)CV(C) ou (C)CV(C)(C)V(C)(C)(C)V(C)
  • Tétrasyllabique: (C)V(C)CVCV(C)CV(C)
  • Aucun mot pentasyllabique (sauf les composés évidents)

Conception de l'ensemble d'étiquettes

Simplification des 36 étiquettes Penn Treebank en 15 étiquettes adaptées au Nagamese:

CatégorieÉtiquette
1AdjectifADJ
2AdverbeADV
3ConjonctionCONJ
4Marqueur de complémentCMP
5DéterminantDET
6Postposition/PrépositionPP
7InterjectionINTJ
8NomN
9PronomPN
10QuantificateurQN
11VerbeV
12Mot étrangerFW
13SymboleSYM
14Mot inconnuUNK
15NuméralNUM

Architecture du modèle

Champs aléatoires conditionnels (CRF)

Utilisation d'un modèle CRF de chaîne linéaire, capable de considérer les informations contextuelles des étiquettes adjacentes dans la séquence, surmontant le problème du biais d'étiquette du modèle de Markov à entropie maximale (MEMM).

Ingénierie des caractéristiques

Conception d'un ensemble riche de caractéristiques:

  • Mot courant
  • Si le mot est au début ou à la fin de la phrase
  • Informations de casse du mot
  • Préfixes (longueur ≤ 3) et suffixes (longueur ≤ 4)
  • Mot précédent et mot suivant
  • Présence de tirets
  • Si le mot contient des chiffres
  • Présence de majuscules dans le mot

Paramètres d'optimisation

  • Descente de gradient: Méthode L-BFGS
  • Nombre d'itérations: 100
  • Régularisation: Régularisation L1 et L2 pour prévenir le surapprentissage

Configuration expérimentale

Construction du corpus

  1. Source des données: Articles collectés du journal local "Nagamese Khobor", incluant l'actualité, le sport et d'autres contenus variés
  2. Taille du corpus: Environ 26 000 mots de corpus brut, 16 115 tokens annotés manuellement (749 phrases)
  3. Processus d'annotation: Annotation manuelle par des locuteurs natifs du Nagamese
  4. Vérification de la qualité: Un autre annotateur a annoté 1 864 tokens pour vérification, avec un taux de désaccord de 6,7% incluant les mots étrangers, et seulement 1,23% en excluant les mots étrangers

Distribution des données

La distribution des fréquences d'étiquettes révèle le déséquilibre des données:

  • Fréquence la plus élevée: FW (mots étrangers) - 3 744 occurrences
  • Deuxième: PP (postpositions) - 2 418 occurrences
  • Fréquence la plus basse: CMP (marqueur de complément) - 35 occurrences

Métriques d'évaluation

  • Précision (Accuracy): Taux global de correction d'étiquetage
  • Précision (Precision): TP/(TP+FP)
  • Rappel (Recall): TP/(TP+FN)
  • Score F1: 2×(Précision×Rappel)/(Précision+Rappel)

Configuration expérimentale

  • Division entraînement/test: 70:30
  • Outil d'implémentation: Bibliothèque sklearn-crfsuite

Résultats expérimentaux

Résultats principaux

MétriqueValeur
Précision globale85,70%
Précision moyenne86%
Rappel moyen86%
Score F1 moyen85%

Analyse des performances par étiquette

Meilleures performances:

  • SYM (symbole): F1=0,99, Précision=0,99, Rappel=0,98
  • NUM (numéral): F1=0,95, Précision=0,99, Rappel=0,92
  • CONJ (conjonction): F1=0,91, Précision=0,95, Rappel=0,87

Performances plus faibles:

  • UNK (mot inconnu): F1=0,33, Précision=0,77, Rappel=0,21
  • N (nom): F1=0,70, Précision=0,70, Rappel=0,69
  • ADV (adverbe): F1=0,71, Précision=0,74, Rappel=0,69

Analyse des erreurs

Les principaux modèles d'erreurs incluent:

  1. ADJ mal étiqueté en: PP (15 fois), V (15 fois), N (12 fois), FW (11 fois)
  2. N mal étiqueté en: FW (76 fois), PP (26 fois), V (23 fois)
  3. FW mal étiqueté en: N (81 fois), révélant les défis de la reconnaissance des mots étrangers

Analyse des modèles de transition

  • Transition la plus probable: UNK → UNK
  • Transition la moins probable: PP → NUM

Travaux connexes

Puisque le Nagamese est une langue créole lexicalisée par l'assamais, l'article examine les travaux connexes sur l'étiquetage morphosyntaxique de l'assamais:

  1. Saharia et al. (2009): Utilisation de HMM, 172 étiquettes, 10k mots d'entraînement, 87% de précision
  2. Phukan et al. (2024): LSTM au niveau des caractères et Bi-LSTM, 60k mots, 93,36% de précision
  3. Pathak et al. (2023): Architecture BiLSTM-CRF, 404k tokens, F1=0,925
  4. Talukdar et al. (2024): RNN et GRU, 30k mots, F1=94,56%

Ces travaux fournissent des références techniques pour cette recherche, mais le Nagamese, en tant que langue créole, possède des caractéristiques linguistiques uniques.

Conclusions et discussion

Conclusions principales

  1. Établissement avec succès du premier système de base pour l'étiquetage morphosyntaxique du Nagamese
  2. Le modèle CRF a atteint des performances raisonnables sur cette tâche (85,70% de précision)
  3. Le corpus annoté créé jette les bases pour les recherches ultérieures

Limitations

  1. Taille de l'ensemble d'étiquettes: Utilisation de seulement 15 étiquettes, pouvant ne pas capturer pleinement la complexité linguistique
  2. Taille des données: 16 115 tokens sont relativement peu nombreux, pouvant affecter la capacité de généralisation du modèle
  3. Déséquilibre des données: Certaines étiquettes (comme CMP) ont très peu d'échantillons, affectant l'apprentissage du modèle
  4. Défi des mots étrangers: La fréquence élevée et la confusion de l'étiquette FW indiquent que la reconnaissance des mots étrangers est la principale difficulté

Directions futures

  1. Extension de l'ensemble d'étiquettes: Ajout d'étiquettes morphosyntaxiques plus granulaires
  2. Augmentation des données: Expansion de la taille du corpus annoté
  3. Extension des applications: Utilisation de l'étiqueteur morphosyntaxique pour construire des applications d'analyse des sentiments, de traduction automatique, etc.
  4. Apprentissage par transfert: Exploration de méthodes d'apprentissage par transfert à partir de l'assamais
  5. Apprentissage profond: Essai de méthodes modernes d'apprentissage profond telles que LSTM et BERT

Évaluation approfondie

Points forts

  1. Signification pionnière: Comble le vide de la recherche TALN pour la langue Nagamese
  2. Analyse linguistique: Description détaillée des caractéristiques linguistiques du Nagamese (système phonétique, structure syllabique, etc.)
  3. Qualité d'annotation: Assurance de la qualité des données par vérification d'annotation double
  4. Analyse des erreurs: Fourniture d'une analyse détaillée de la matrice de confusion et des modèles d'erreurs
  5. Valeur pratique: Fourniture d'un exemple pour la recherche TALN sur les langues peu dotées en ressources

Insuffisances

  1. Limitations méthodologiques: Utilisation uniquement de la méthode CRF traditionnelle, sans essai de techniques modernes d'apprentissage profond
  2. Comparaisons insuffisantes: Absence d'expériences comparatives avec d'autres méthodes
  3. Données biaisées: La proportion élevée de mots étrangers (23%) peut affecter l'applicabilité pratique du modèle
  4. Ingénierie des caractéristiques: Les caractéristiques sont relativement simples, pouvant omettre des caractéristiques linguistiques importantes
  5. Limitations d'évaluation: Évaluation sur un seul ensemble de données, manque de validation inter-domaines

Impact

  1. Contribution académique: Fourniture d'une référence importante pour la recherche TALN sur les langues peu dotées en ressources
  2. Valeur sociale: Contribution à la protection numérique et au développement de la langue Nagamese
  3. Base technologique: Établissement de fondations pour construire des applications TALN plus complexes pour le Nagamese
  4. Méthodologie: Démonstration du processus complet de construction d'outils TALN pour les langues peu dotées en ressources

Scénarios d'application

  1. Applications éducatives: Assistance à l'enseignement et à l'apprentissage de la langue Nagamese
  2. Traitement médiatique: Traitement automatisé du contenu des informations et des médias sociaux en Nagamese
  3. Services gouvernementaux: Soutien aux services gouvernementaux multilingues du Nagaland
  4. Base de recherche: Fourniture d'outils de base pour la recherche TALN ultérieure sur la langue Nagamese

Références bibliographiques

L'article cite les références clés suivantes:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Étude sur la standardisation de la grammaire du Nagamese
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - Travail pionnier sur l'étiquetage morphosyntaxique de l'assamais
  3. Pathak et al. (2022, 2023). Méthodes d'étiquetage morphosyntaxique de l'assamais par apprentissage profond
  4. Phukan et al. (2023, 2024). Recherche sur l'étiquetage morphosyntaxique de l'assamais par LSTM

Évaluation globale: Cet article revêt une importance pionnière considérable. Bien que les méthodes techniques soient relativement traditionnelles, il établit le premier système d'étiquetage morphosyntaxique pour le Nagamese, une langue peu dotée en ressources, possédant une valeur académique et sociale importante. La méthodologie de recherche est rigoureuse, la construction des données est normalisée, et elle jette les bases solides pour les recherches ultérieures.