Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic
Etiquetado de categorías gramaticales para la lengua Nagamese usando CRF
Este artículo investiga la tarea de etiquetado de categorías gramaticales (POS tagging) para la lengua Nagamese, una tarea fundamental en el procesamiento del lenguaje natural (PLN). La lengua Nagamese, también conocida como Naga Pidgin, es una lengua criolla con base léxica del asamés, desarrollada principalmente como medio de comunicación para el comercio entre los naga y los asameses en el noreste de India. Aunque se ha realizado un trabajo considerable en etiquetado de categorías gramaticales para lenguas ricas en recursos como el inglés e hindi, no existe investigación previa en este campo para Nagamese. Según el conocimiento de los autores, este es el primer intento de etiquetado de categorías gramaticales para la lengua Nagamese. La investigación creó un corpus anotado con 16,112 tokens y aplicó técnicas de aprendizaje automático de Campos Aleatorios Condicionales (CRF), logrando una precisión general de etiquetado del 85.70%, con precisión y exhaustividad de 86%, y puntuación F1 de 85%.
Esta investigación aborda la falta de herramientas de etiquetado de categorías gramaticales para la lengua Nagamese. El etiquetado de categorías gramaticales es una tarea fundamental del PLN que implica asignar etiquetas de categorías gramaticales apropiadas a cada palabra en una oración.
Preservación Lingüística: Nagamese como lengua común de Nagaland se utiliza ampliamente en medios de comunicación, noticias, radiodifusión y medios gubernamentales
Escasez de Recursos: Nagamese pertenece a las lenguas con recursos limitados, careciendo de herramientas y recursos de procesamiento lingüístico
Aplicación Fundamental: El etiquetado de categorías gramaticales es la base para construir otras aplicaciones de PLN, como análisis de sentimientos y traducción automática
Investigación Pionera: Primer estudio de etiquetado de categorías gramaticales para la lengua Nagamese
Diseño del Conjunto de Etiquetas: Diseño de 15 etiquetas de categorías gramaticales adaptadas a Nagamese basadas en el conjunto de etiquetas Penn Treebank
Construcción del Corpus: Creación de un corpus anotado manualmente con 16,115 tokens
Modelo Base: Establecimiento de un modelo base para etiquetado de categorías gramaticales en Nagamese utilizando tecnología CRF
Evaluación del Desempeño: Proporciona análisis detallado de errores y evaluación del desempeño
Se adopta un modelo CRF de cadena lineal que puede considerar la información contextual de etiquetas adyacentes en la secuencia, superando el problema de sesgo de etiquetas del Modelo de Markov de Máxima Entropía (MEMM).
Fuente de Datos: Artículos recopilados del periódico local "Nagamese Khobor", incluyendo contenido diverso como noticias y deportes
Escala del Corpus: Aproximadamente 26,000 palabras de corpus bruto, 16,115 tokens anotados manualmente (749 oraciones)
Proceso de Anotación: Anotación manual realizada por hablantes nativos de Nagamese
Verificación de Calidad: Otro anotador anotó 1,864 tokens para verificación, con tasa de desacuerdo del 6.7% incluyendo palabras extranjeras, y solo 1.23% excluyendo palabras extranjeras
Dado que Nagamese es una lengua criolla lexicalizada por asamés, el artículo revisa trabajos relacionados con etiquetado de categorías gramaticales en asamés:
Saharia et al. (2009): Utilizando HMM, 172 etiquetas, 10k palabras de entrenamiento, 87% de precisión
Phukan et al. (2024): LSTM a nivel de caracteres y Bi-LSTM, 60k palabras, 93.36% de precisión
Pathak et al. (2023): Arquitectura BiLSTM-CRF, 404k tokens, F1=0.925
Talukdar et al. (2024): RNN y GRU, 30k palabras, F1=94.56%
Estos trabajos proporcionan referencias técnicas para esta investigación, pero Nagamese como lengua criolla posee características lingüísticas únicas.
Tamaño del Conjunto de Etiquetas: Solo se utilizan 15 etiquetas, lo que puede no capturar completamente la complejidad del idioma
Escala de Datos: 16,115 tokens es relativamente pequeño, lo que puede afectar la capacidad de generalización del modelo
Desequilibrio de Datos: Ciertos etiquetas (como CMP) tienen muy pocas muestras, afectando el aprendizaje del modelo
Desafío de Palabras Extranjeras: La alta frecuencia de la etiqueta FW y la confusión indican que el reconocimiento de palabras extranjeras es la dificultad principal
Expansión del Conjunto de Etiquetas: Agregar etiquetas de categorías gramaticales más granulares
Aumento de Datos: Expandir la escala del corpus anotado
Extensión de Aplicaciones: Utilizar el etiquetador de categorías gramaticales para construir aplicaciones como análisis de sentimientos y traducción automática
Aprendizaje por Transferencia: Explorar métodos de aprendizaje por transferencia desde el asamés
Aprendizaje Profundo: Probar métodos modernos de aprendizaje profundo como LSTM y BERT
El artículo cita las siguientes referencias clave:
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Investigación de estandarización gramatical de Nagamese
Saharia et al. (2009). Part of speech tagger for assamese text. - Trabajo pionero en etiquetado de categorías gramaticales en asamés
Pathak et al. (2022, 2023). Métodos de etiquetado de categorías gramaticales en asamés con aprendizaje profundo
Phukan et al. (2023, 2024). Investigación de etiquetado de categorías gramaticales en asamés con LSTM
Evaluación General: Este es un artículo de importante significado pionero que, aunque relativamente tradicional en métodos técnicos, establece el primer sistema de etiquetado de categorías gramaticales para Nagamese, una lengua con recursos limitados, poseyendo importante valor académico y social. La metodología de investigación es rigurosa, la construcción de datos es normativa, y sienta una base sólida para investigaciones posteriores.