2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami

This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.

academic

Etiquetado de categorías gramaticales para la lengua Nagamese usando CRF

Información Básica

ID del Artículo: 2509.19343
Título: Part-of-speech tagging for Nagamese Language using CRF
Autores: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
Institución: Department of Information Technology, Nagaland University, Kohima Campus, India
Clasificación: cs.CL cs.AI
Fecha de Publicación: 13 de octubre de 2025 (arXiv v3)
Enlace del Artículo: https://arxiv.org/abs/2509.19343

Resumen

Este artículo investiga la tarea de etiquetado de categorías gramaticales (POS tagging) para la lengua Nagamese, una tarea fundamental en el procesamiento del lenguaje natural (PLN). La lengua Nagamese, también conocida como Naga Pidgin, es una lengua criolla con base léxica del asamés, desarrollada principalmente como medio de comunicación para el comercio entre los naga y los asameses en el noreste de India. Aunque se ha realizado un trabajo considerable en etiquetado de categorías gramaticales para lenguas ricas en recursos como el inglés e hindi, no existe investigación previa en este campo para Nagamese. Según el conocimiento de los autores, este es el primer intento de etiquetado de categorías gramaticales para la lengua Nagamese. La investigación creó un corpus anotado con 16,112 tokens y aplicó técnicas de aprendizaje automático de Campos Aleatorios Condicionales (CRF), logrando una precisión general de etiquetado del 85.70%, con precisión y exhaustividad de 86%, y puntuación F1 de 85%.

Antecedentes y Motivación de la Investigación

Definición del Problema

Esta investigación aborda la falta de herramientas de etiquetado de categorías gramaticales para la lengua Nagamese. El etiquetado de categorías gramaticales es una tarea fundamental del PLN que implica asignar etiquetas de categorías gramaticales apropiadas a cada palabra en una oración.

Importancia

Preservación Lingüística: Nagamese como lengua común de Nagaland se utiliza ampliamente en medios de comunicación, noticias, radiodifusión y medios gubernamentales
Escasez de Recursos: Nagamese pertenece a las lenguas con recursos limitados, careciendo de herramientas y recursos de procesamiento lingüístico
Aplicación Fundamental: El etiquetado de categorías gramaticales es la base para construir otras aplicaciones de PLN, como análisis de sentimientos y traducción automática

Limitaciones Existentes

Las herramientas principales de PLN se desarrollan principalmente para lenguas ricas en recursos (como inglés e hindi)
La lengua Nagamese no tenía trabajos previos relacionados con etiquetado de categorías gramaticales
Falta de corpus anotado estandarizado y conjunto de etiquetas

Contribuciones Principales

Investigación Pionera: Primer estudio de etiquetado de categorías gramaticales para la lengua Nagamese
Diseño del Conjunto de Etiquetas: Diseño de 15 etiquetas de categorías gramaticales adaptadas a Nagamese basadas en el conjunto de etiquetas Penn Treebank
Construcción del Corpus: Creación de un corpus anotado manualmente con 16,115 tokens
Modelo Base: Establecimiento de un modelo base para etiquetado de categorías gramaticales en Nagamese utilizando tecnología CRF
Evaluación del Desempeño: Proporciona análisis detallado de errores y evaluación del desempeño

Explicación Detallada de la Metodología

Definición de la Tarea

Dada una oración en lengua Nagamese, asignar la etiqueta de categoría gramatical correspondiente a cada palabra.

Entrada: Secuencia de palabras en una oración Nagamese Salida: Secuencia correspondiente de etiquetas de categorías gramaticales Ejemplo:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(Dios estaba complacido con lo que vio.)

Características de la Lengua Nagamese

Conjunto de Caracteres

Vocales: i, u, e, @, o, a (6 vocales)
Consonantes: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22 consonantes)

Patrones Silábicos

Monosílabos: (C)(C)V(C)(C), pero V no puede aparecer solo
Bisílabos: V(C)(C)(C)V(C) o (C)CV(C)(C)CV(C)(C)
Trisílabos: V(C)(C)CV(C)(C)CV(C) o (C)CV(C)(C)V(C)(C)(C)V(C)
Tetrasílabos: (C)V(C)CVCV(C)CV(C)
Sin palabras pentasilábicas (excepto palabras compuestas obvias)

Diseño del Conjunto de Etiquetas

Simplificación de 36 etiquetas de Penn Treebank a 15 etiquetas adaptadas a Nagamese:

Número	Categoría	Etiqueta
1	Adjetivo	ADJ
2	Adverbio	ADV
3	Conjunción	CONJ
4	Marcador Complementario	CMP
5	Determinante	DET
6	Posposición/Preposición	PP
7	Interjección	INTJ
8	Sustantivo	N
9	Pronombre	PN
10	Clasificador Numeral	QN
11	Verbo	V
12	Palabra Extranjera	FW
13	Símbolo	SYM
14	Palabra Desconocida	UNK
15	Numeral	NUM

Arquitectura del Modelo

Campos Aleatorios Condicionales (CRF)

Se adopta un modelo CRF de cadena lineal que puede considerar la información contextual de etiquetas adyacentes en la secuencia, superando el problema de sesgo de etiquetas del Modelo de Markov de Máxima Entropía (MEMM).

Ingeniería de Características

Se diseñó un conjunto de características enriquecidas:

Palabra actual
Si es palabra al inicio/final de la oración
Información de mayúsculas/minúsculas de la palabra
Prefijos (longitud ≤3) y sufijos (longitud ≤4)
Palabra anterior y palabra siguiente
Si contiene guiones
Si es un dígito
Si contiene letras mayúsculas dentro de la palabra

Configuración de Optimización

Descenso de gradiente: Método L-BFGS
Iteraciones: 100
Regularización: Regularización L1 y L2 para prevenir sobreajuste

Configuración Experimental

Construcción del Conjunto de Datos

Fuente de Datos: Artículos recopilados del periódico local "Nagamese Khobor", incluyendo contenido diverso como noticias y deportes
Escala del Corpus: Aproximadamente 26,000 palabras de corpus bruto, 16,115 tokens anotados manualmente (749 oraciones)
Proceso de Anotación: Anotación manual realizada por hablantes nativos de Nagamese
Verificación de Calidad: Otro anotador anotó 1,864 tokens para verificación, con tasa de desacuerdo del 6.7% incluyendo palabras extranjeras, y solo 1.23% excluyendo palabras extranjeras

Distribución de Datos

La distribución de frecuencia de etiquetas muestra el desequilibrio de datos:

Más frecuente: FW (palabras extranjeras) - 3,744 ocurrencias
Siguiente: PP (posposiciones) - 2,418 ocurrencias
Menos frecuente: CMP (marcador complementario) - 35 ocurrencias

Métricas de Evaluación

Precisión (Accuracy): Tasa general de etiquetado correcto
Precisión (Precision): TP/(TP+FP)
Exhaustividad (Recall): TP/(TP+FN)
Puntuación F1: 2×(Precisión×Exhaustividad)/(Precisión+Exhaustividad)

Configuración Experimental

División entrenamiento/prueba: 70:30
Herramienta de implementación: Biblioteca sklearn-crfsuite

Resultados Experimentales

Resultados Principales

Métrica	Valor
Precisión General	85.70%
Precisión Promedio	86%
Exhaustividad Promedio	86%
Puntuación F1 Promedio	85%

Análisis de Desempeño por Etiqueta

Mejor Desempeño:

SYM (símbolo): F1=0.99, Precisión=0.99, Exhaustividad=0.98
NUM (numeral): F1=0.95, Precisión=0.99, Exhaustividad=0.92
CONJ (conjunción): F1=0.91, Precisión=0.95, Exhaustividad=0.87

Desempeño Inferior:

UNK (palabra desconocida): F1=0.33, Precisión=0.77, Exhaustividad=0.21
N (sustantivo): F1=0.70, Precisión=0.70, Exhaustividad=0.69
ADV (adverbio): F1=0.71, Precisión=0.74, Exhaustividad=0.69

Análisis de Errores

Los principales patrones de error incluyen:

ADJ etiquetado erróneamente como: PP (15 veces), V (15 veces), N (12 veces), FW (11 veces)
N etiquetado erróneamente como: FW (76 veces), PP (26 veces), V (23 veces)
FW etiquetado erróneamente como: N (81 veces), mostrando el desafío del reconocimiento de palabras extranjeras

Análisis de Patrones de Transición

Transición más probable: UNK → UNK
Transición menos probable: PP → NUM

Trabajo Relacionado

Dado que Nagamese es una lengua criolla lexicalizada por asamés, el artículo revisa trabajos relacionados con etiquetado de categorías gramaticales en asamés:

Saharia et al. (2009): Utilizando HMM, 172 etiquetas, 10k palabras de entrenamiento, 87% de precisión
Phukan et al. (2024): LSTM a nivel de caracteres y Bi-LSTM, 60k palabras, 93.36% de precisión
Pathak et al. (2023): Arquitectura BiLSTM-CRF, 404k tokens, F1=0.925
Talukdar et al. (2024): RNN y GRU, 30k palabras, F1=94.56%

Estos trabajos proporcionan referencias técnicas para esta investigación, pero Nagamese como lengua criolla posee características lingüísticas únicas.

Conclusiones y Discusión

Conclusiones Principales

Se estableció exitosamente el primer sistema base de etiquetado de categorías gramaticales para la lengua Nagamese
El modelo CRF logró un desempeño razonable en esta tarea (85.70% de precisión)
El corpus anotado creado sienta las bases para investigaciones posteriores

Limitaciones

Tamaño del Conjunto de Etiquetas: Solo se utilizan 15 etiquetas, lo que puede no capturar completamente la complejidad del idioma
Escala de Datos: 16,115 tokens es relativamente pequeño, lo que puede afectar la capacidad de generalización del modelo
Desequilibrio de Datos: Ciertos etiquetas (como CMP) tienen muy pocas muestras, afectando el aprendizaje del modelo
Desafío de Palabras Extranjeras: La alta frecuencia de la etiqueta FW y la confusión indican que el reconocimiento de palabras extranjeras es la dificultad principal

Direcciones Futuras

Expansión del Conjunto de Etiquetas: Agregar etiquetas de categorías gramaticales más granulares
Aumento de Datos: Expandir la escala del corpus anotado
Extensión de Aplicaciones: Utilizar el etiquetador de categorías gramaticales para construir aplicaciones como análisis de sentimientos y traducción automática
Aprendizaje por Transferencia: Explorar métodos de aprendizaje por transferencia desde el asamés
Aprendizaje Profundo: Probar métodos modernos de aprendizaje profundo como LSTM y BERT

Evaluación Profunda

Fortalezas

Significado Pionero: Llena el vacío en la investigación de PLN para la lengua Nagamese
Análisis Lingüístico: Descripción detallada de características lingüísticas de Nagamese (sistema fonológico, estructura silábica, etc.)
Calidad de Anotación: Garantiza la calidad de datos mediante verificación de anotación dual
Análisis de Errores: Proporciona análisis detallado de matriz de confusión y patrones de error
Valor Práctico: Proporciona un ejemplo para investigación de PLN en lenguas con recursos limitados

Deficiencias

Limitación de Métodos: Solo utiliza el método tradicional CRF, sin probar técnicas modernas de aprendizaje profundo
Comparación Insuficiente: Falta de experimentos comparativos con otros métodos
Sesgo de Datos: El alto porcentaje de palabras extranjeras (23%) puede afectar la practicidad del modelo
Ingeniería de Características: Las características son relativamente simples, posiblemente omitiendo características lingüísticas importantes
Limitación de Evaluación: Evaluación solo en un único conjunto de datos, falta validación entre dominios

Impacto

Contribución Académica: Proporciona referencia importante para investigación de PLN en lenguas con recursos limitados
Valor Social: Contribuye a la protección y desarrollo digital de la lengua Nagamese
Base Técnica: Sienta las bases para construir aplicaciones de PLN más complejas para Nagamese
Metodología: Demuestra el proceso completo de construcción de herramientas de PLN para lenguas con recursos escasos

Escenarios Aplicables

Aplicaciones Educativas: Asistencia en la enseñanza y aprendizaje de la lengua Nagamese
Procesamiento de Medios: Procesamiento automatizado de contenido de noticias y redes sociales en Nagamese
Servicios Gubernamentales: Apoyo a servicios gubernamentales multilingües en Nagaland
Base de Investigación: Proporciona herramientas base para investigación posterior de PLN en Nagamese

Referencias Bibliográficas

El artículo cita las siguientes referencias clave:

Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Investigación de estandarización gramatical de Nagamese
Saharia et al. (2009). Part of speech tagger for assamese text. - Trabajo pionero en etiquetado de categorías gramaticales en asamés
Pathak et al. (2022, 2023). Métodos de etiquetado de categorías gramaticales en asamés con aprendizaje profundo
Phukan et al. (2023, 2024). Investigación de etiquetado de categorías gramaticales en asamés con LSTM

Evaluación General: Este es un artículo de importante significado pionero que, aunque relativamente tradicional en métodos técnicos, establece el primer sistema de etiquetado de categorías gramaticales para Nagamese, una lengua con recursos limitados, poseyendo importante valor académico y social. La metodología de investigación es rigurosa, la construcción de datos es normativa, y sienta una base sólida para investigaciones posteriores.