Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic
Étiquetage morphosyntaxique pour la langue Nagamese utilisant les CRF
Cet article examine la tâche d'étiquetage morphosyntaxique pour la langue Nagamese, une tâche importante du traitement automatique des langues naturelles (TALN). La langue Nagamese, également appelée Naga Pidgin, est une langue créole basée sur le vocabulaire de l'assamais, développée principalement comme moyen de communication pour les échanges commerciaux entre les Nagas et les Assamais du nord-est de l'Inde. Bien que des travaux considérables aient été réalisés sur l'étiquetage morphosyntaxique pour les langues riches en ressources telles que l'anglais et l'hindi, aucune recherche n'a été menée dans ce domaine pour la langue Nagamese. À la connaissance des auteurs, il s'agit de la première tentative d'étiquetage morphosyntaxique pour la langue Nagamese. L'étude a créé un corpus annoté contenant 16 112 tokens et a appliqué la technique d'apprentissage automatique des champs aléatoires conditionnels (CRF), réalisant une précision globale d'étiquetage de 85,70%, avec une précision et un rappel de 86%, et un score F1 de 85%.
Cette recherche vise à résoudre le problème de l'absence d'outils d'étiquetage morphosyntaxique pour la langue Nagamese. L'étiquetage morphosyntaxique est une tâche fondamentale du TALN qui consiste à assigner des étiquettes de catégories grammaticales appropriées à chaque mot d'une phrase.
Préservation linguistique: Le Nagamese, en tant que langue commune du Nagaland, est largement utilisé dans les médias de masse, les informations, la radiodiffusion et les médias gouvernementaux
Rareté des ressources: Le Nagamese appartient à la catégorie des langues peu dotées en ressources, manquant d'outils et de ressources de traitement linguistique
Applications fondamentales: L'étiquetage morphosyntaxique constitue la base pour construire d'autres applications TALN, telles que l'analyse des sentiments et la traduction automatique
Recherche pionnière: Première étude d'étiquetage morphosyntaxique pour la langue Nagamese
Conception d'ensemble d'étiquettes: Conception de 15 étiquettes morphosyntaxiques adaptées au Nagamese, basées sur l'ensemble d'étiquettes Penn Treebank
Construction de corpus: Création d'un corpus annoté manuellement contenant 16 115 tokens
Modèle de base: Établissement d'un modèle de base pour l'étiquetage morphosyntaxique du Nagamese utilisant la technique CRF
Évaluation des performances: Fourniture d'une analyse détaillée des erreurs et d'une évaluation des performances
Utilisation d'un modèle CRF de chaîne linéaire, capable de considérer les informations contextuelles des étiquettes adjacentes dans la séquence, surmontant le problème du biais d'étiquette du modèle de Markov à entropie maximale (MEMM).
Source des données: Articles collectés du journal local "Nagamese Khobor", incluant l'actualité, le sport et d'autres contenus variés
Taille du corpus: Environ 26 000 mots de corpus brut, 16 115 tokens annotés manuellement (749 phrases)
Processus d'annotation: Annotation manuelle par des locuteurs natifs du Nagamese
Vérification de la qualité: Un autre annotateur a annoté 1 864 tokens pour vérification, avec un taux de désaccord de 6,7% incluant les mots étrangers, et seulement 1,23% en excluant les mots étrangers
Puisque le Nagamese est une langue créole lexicalisée par l'assamais, l'article examine les travaux connexes sur l'étiquetage morphosyntaxique de l'assamais:
Saharia et al. (2009): Utilisation de HMM, 172 étiquettes, 10k mots d'entraînement, 87% de précision
Phukan et al. (2024): LSTM au niveau des caractères et Bi-LSTM, 60k mots, 93,36% de précision
Pathak et al. (2023): Architecture BiLSTM-CRF, 404k tokens, F1=0,925
Talukdar et al. (2024): RNN et GRU, 30k mots, F1=94,56%
Ces travaux fournissent des références techniques pour cette recherche, mais le Nagamese, en tant que langue créole, possède des caractéristiques linguistiques uniques.
Taille de l'ensemble d'étiquettes: Utilisation de seulement 15 étiquettes, pouvant ne pas capturer pleinement la complexité linguistique
Taille des données: 16 115 tokens sont relativement peu nombreux, pouvant affecter la capacité de généralisation du modèle
Déséquilibre des données: Certaines étiquettes (comme CMP) ont très peu d'échantillons, affectant l'apprentissage du modèle
Défi des mots étrangers: La fréquence élevée et la confusion de l'étiquette FW indiquent que la reconnaissance des mots étrangers est la principale difficulté
Extension de l'ensemble d'étiquettes: Ajout d'étiquettes morphosyntaxiques plus granulaires
Augmentation des données: Expansion de la taille du corpus annoté
Extension des applications: Utilisation de l'étiqueteur morphosyntaxique pour construire des applications d'analyse des sentiments, de traduction automatique, etc.
Apprentissage par transfert: Exploration de méthodes d'apprentissage par transfert à partir de l'assamais
Apprentissage profond: Essai de méthodes modernes d'apprentissage profond telles que LSTM et BERT
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Étude sur la standardisation de la grammaire du Nagamese
Saharia et al. (2009). Part of speech tagger for assamese text. - Travail pionnier sur l'étiquetage morphosyntaxique de l'assamais
Pathak et al. (2022, 2023). Méthodes d'étiquetage morphosyntaxique de l'assamais par apprentissage profond
Phukan et al. (2023, 2024). Recherche sur l'étiquetage morphosyntaxique de l'assamais par LSTM
Évaluation globale: Cet article revêt une importance pionnière considérable. Bien que les méthodes techniques soient relativement traditionnelles, il établit le premier système d'étiquetage morphosyntaxique pour le Nagamese, une langue peu dotée en ressources, possédant une valeur académique et sociale importante. La méthodologie de recherche est rigoureuse, la construction des données est normalisée, et elle jette les bases solides pour les recherches ultérieures.