2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

Etiquetado de categorías gramaticales para la lengua Nagamese usando CRF

Información Básica

  • ID del Artículo: 2509.19343
  • Título: Part-of-speech tagging for Nagamese Language using CRF
  • Autores: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • Institución: Department of Information Technology, Nagaland University, Kohima Campus, India
  • Clasificación: cs.CL cs.AI
  • Fecha de Publicación: 13 de octubre de 2025 (arXiv v3)
  • Enlace del Artículo: https://arxiv.org/abs/2509.19343

Resumen

Este artículo investiga la tarea de etiquetado de categorías gramaticales (POS tagging) para la lengua Nagamese, una tarea fundamental en el procesamiento del lenguaje natural (PLN). La lengua Nagamese, también conocida como Naga Pidgin, es una lengua criolla con base léxica del asamés, desarrollada principalmente como medio de comunicación para el comercio entre los naga y los asameses en el noreste de India. Aunque se ha realizado un trabajo considerable en etiquetado de categorías gramaticales para lenguas ricas en recursos como el inglés e hindi, no existe investigación previa en este campo para Nagamese. Según el conocimiento de los autores, este es el primer intento de etiquetado de categorías gramaticales para la lengua Nagamese. La investigación creó un corpus anotado con 16,112 tokens y aplicó técnicas de aprendizaje automático de Campos Aleatorios Condicionales (CRF), logrando una precisión general de etiquetado del 85.70%, con precisión y exhaustividad de 86%, y puntuación F1 de 85%.

Antecedentes y Motivación de la Investigación

Definición del Problema

Esta investigación aborda la falta de herramientas de etiquetado de categorías gramaticales para la lengua Nagamese. El etiquetado de categorías gramaticales es una tarea fundamental del PLN que implica asignar etiquetas de categorías gramaticales apropiadas a cada palabra en una oración.

Importancia

  1. Preservación Lingüística: Nagamese como lengua común de Nagaland se utiliza ampliamente en medios de comunicación, noticias, radiodifusión y medios gubernamentales
  2. Escasez de Recursos: Nagamese pertenece a las lenguas con recursos limitados, careciendo de herramientas y recursos de procesamiento lingüístico
  3. Aplicación Fundamental: El etiquetado de categorías gramaticales es la base para construir otras aplicaciones de PLN, como análisis de sentimientos y traducción automática

Limitaciones Existentes

  • Las herramientas principales de PLN se desarrollan principalmente para lenguas ricas en recursos (como inglés e hindi)
  • La lengua Nagamese no tenía trabajos previos relacionados con etiquetado de categorías gramaticales
  • Falta de corpus anotado estandarizado y conjunto de etiquetas

Contribuciones Principales

  1. Investigación Pionera: Primer estudio de etiquetado de categorías gramaticales para la lengua Nagamese
  2. Diseño del Conjunto de Etiquetas: Diseño de 15 etiquetas de categorías gramaticales adaptadas a Nagamese basadas en el conjunto de etiquetas Penn Treebank
  3. Construcción del Corpus: Creación de un corpus anotado manualmente con 16,115 tokens
  4. Modelo Base: Establecimiento de un modelo base para etiquetado de categorías gramaticales en Nagamese utilizando tecnología CRF
  5. Evaluación del Desempeño: Proporciona análisis detallado de errores y evaluación del desempeño

Explicación Detallada de la Metodología

Definición de la Tarea

Dada una oración en lengua Nagamese, asignar la etiqueta de categoría gramatical correspondiente a cada palabra.

Entrada: Secuencia de palabras en una oración Nagamese Salida: Secuencia correspondiente de etiquetas de categorías gramaticales Ejemplo:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(Dios estaba complacido con lo que vio.)

Características de la Lengua Nagamese

Conjunto de Caracteres

  • Vocales: i, u, e, @, o, a (6 vocales)
  • Consonantes: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22 consonantes)

Patrones Silábicos

  • Monosílabos: (C)(C)V(C)(C), pero V no puede aparecer solo
  • Bisílabos: V(C)(C)(C)V(C) o (C)CV(C)(C)CV(C)(C)
  • Trisílabos: V(C)(C)CV(C)(C)CV(C) o (C)CV(C)(C)V(C)(C)(C)V(C)
  • Tetrasílabos: (C)V(C)CVCV(C)CV(C)
  • Sin palabras pentasilábicas (excepto palabras compuestas obvias)

Diseño del Conjunto de Etiquetas

Simplificación de 36 etiquetas de Penn Treebank a 15 etiquetas adaptadas a Nagamese:

NúmeroCategoríaEtiqueta
1AdjetivoADJ
2AdverbioADV
3ConjunciónCONJ
4Marcador ComplementarioCMP
5DeterminanteDET
6Posposición/PreposiciónPP
7InterjecciónINTJ
8SustantivoN
9PronombrePN
10Clasificador NumeralQN
11VerboV
12Palabra ExtranjeraFW
13SímboloSYM
14Palabra DesconocidaUNK
15NumeralNUM

Arquitectura del Modelo

Campos Aleatorios Condicionales (CRF)

Se adopta un modelo CRF de cadena lineal que puede considerar la información contextual de etiquetas adyacentes en la secuencia, superando el problema de sesgo de etiquetas del Modelo de Markov de Máxima Entropía (MEMM).

Ingeniería de Características

Se diseñó un conjunto de características enriquecidas:

  • Palabra actual
  • Si es palabra al inicio/final de la oración
  • Información de mayúsculas/minúsculas de la palabra
  • Prefijos (longitud ≤3) y sufijos (longitud ≤4)
  • Palabra anterior y palabra siguiente
  • Si contiene guiones
  • Si es un dígito
  • Si contiene letras mayúsculas dentro de la palabra

Configuración de Optimización

  • Descenso de gradiente: Método L-BFGS
  • Iteraciones: 100
  • Regularización: Regularización L1 y L2 para prevenir sobreajuste

Configuración Experimental

Construcción del Conjunto de Datos

  1. Fuente de Datos: Artículos recopilados del periódico local "Nagamese Khobor", incluyendo contenido diverso como noticias y deportes
  2. Escala del Corpus: Aproximadamente 26,000 palabras de corpus bruto, 16,115 tokens anotados manualmente (749 oraciones)
  3. Proceso de Anotación: Anotación manual realizada por hablantes nativos de Nagamese
  4. Verificación de Calidad: Otro anotador anotó 1,864 tokens para verificación, con tasa de desacuerdo del 6.7% incluyendo palabras extranjeras, y solo 1.23% excluyendo palabras extranjeras

Distribución de Datos

La distribución de frecuencia de etiquetas muestra el desequilibrio de datos:

  • Más frecuente: FW (palabras extranjeras) - 3,744 ocurrencias
  • Siguiente: PP (posposiciones) - 2,418 ocurrencias
  • Menos frecuente: CMP (marcador complementario) - 35 ocurrencias

Métricas de Evaluación

  • Precisión (Accuracy): Tasa general de etiquetado correcto
  • Precisión (Precision): TP/(TP+FP)
  • Exhaustividad (Recall): TP/(TP+FN)
  • Puntuación F1: 2×(Precisión×Exhaustividad)/(Precisión+Exhaustividad)

Configuración Experimental

  • División entrenamiento/prueba: 70:30
  • Herramienta de implementación: Biblioteca sklearn-crfsuite

Resultados Experimentales

Resultados Principales

MétricaValor
Precisión General85.70%
Precisión Promedio86%
Exhaustividad Promedio86%
Puntuación F1 Promedio85%

Análisis de Desempeño por Etiqueta

Mejor Desempeño:

  • SYM (símbolo): F1=0.99, Precisión=0.99, Exhaustividad=0.98
  • NUM (numeral): F1=0.95, Precisión=0.99, Exhaustividad=0.92
  • CONJ (conjunción): F1=0.91, Precisión=0.95, Exhaustividad=0.87

Desempeño Inferior:

  • UNK (palabra desconocida): F1=0.33, Precisión=0.77, Exhaustividad=0.21
  • N (sustantivo): F1=0.70, Precisión=0.70, Exhaustividad=0.69
  • ADV (adverbio): F1=0.71, Precisión=0.74, Exhaustividad=0.69

Análisis de Errores

Los principales patrones de error incluyen:

  1. ADJ etiquetado erróneamente como: PP (15 veces), V (15 veces), N (12 veces), FW (11 veces)
  2. N etiquetado erróneamente como: FW (76 veces), PP (26 veces), V (23 veces)
  3. FW etiquetado erróneamente como: N (81 veces), mostrando el desafío del reconocimiento de palabras extranjeras

Análisis de Patrones de Transición

  • Transición más probable: UNK → UNK
  • Transición menos probable: PP → NUM

Trabajo Relacionado

Dado que Nagamese es una lengua criolla lexicalizada por asamés, el artículo revisa trabajos relacionados con etiquetado de categorías gramaticales en asamés:

  1. Saharia et al. (2009): Utilizando HMM, 172 etiquetas, 10k palabras de entrenamiento, 87% de precisión
  2. Phukan et al. (2024): LSTM a nivel de caracteres y Bi-LSTM, 60k palabras, 93.36% de precisión
  3. Pathak et al. (2023): Arquitectura BiLSTM-CRF, 404k tokens, F1=0.925
  4. Talukdar et al. (2024): RNN y GRU, 30k palabras, F1=94.56%

Estos trabajos proporcionan referencias técnicas para esta investigación, pero Nagamese como lengua criolla posee características lingüísticas únicas.

Conclusiones y Discusión

Conclusiones Principales

  1. Se estableció exitosamente el primer sistema base de etiquetado de categorías gramaticales para la lengua Nagamese
  2. El modelo CRF logró un desempeño razonable en esta tarea (85.70% de precisión)
  3. El corpus anotado creado sienta las bases para investigaciones posteriores

Limitaciones

  1. Tamaño del Conjunto de Etiquetas: Solo se utilizan 15 etiquetas, lo que puede no capturar completamente la complejidad del idioma
  2. Escala de Datos: 16,115 tokens es relativamente pequeño, lo que puede afectar la capacidad de generalización del modelo
  3. Desequilibrio de Datos: Ciertos etiquetas (como CMP) tienen muy pocas muestras, afectando el aprendizaje del modelo
  4. Desafío de Palabras Extranjeras: La alta frecuencia de la etiqueta FW y la confusión indican que el reconocimiento de palabras extranjeras es la dificultad principal

Direcciones Futuras

  1. Expansión del Conjunto de Etiquetas: Agregar etiquetas de categorías gramaticales más granulares
  2. Aumento de Datos: Expandir la escala del corpus anotado
  3. Extensión de Aplicaciones: Utilizar el etiquetador de categorías gramaticales para construir aplicaciones como análisis de sentimientos y traducción automática
  4. Aprendizaje por Transferencia: Explorar métodos de aprendizaje por transferencia desde el asamés
  5. Aprendizaje Profundo: Probar métodos modernos de aprendizaje profundo como LSTM y BERT

Evaluación Profunda

Fortalezas

  1. Significado Pionero: Llena el vacío en la investigación de PLN para la lengua Nagamese
  2. Análisis Lingüístico: Descripción detallada de características lingüísticas de Nagamese (sistema fonológico, estructura silábica, etc.)
  3. Calidad de Anotación: Garantiza la calidad de datos mediante verificación de anotación dual
  4. Análisis de Errores: Proporciona análisis detallado de matriz de confusión y patrones de error
  5. Valor Práctico: Proporciona un ejemplo para investigación de PLN en lenguas con recursos limitados

Deficiencias

  1. Limitación de Métodos: Solo utiliza el método tradicional CRF, sin probar técnicas modernas de aprendizaje profundo
  2. Comparación Insuficiente: Falta de experimentos comparativos con otros métodos
  3. Sesgo de Datos: El alto porcentaje de palabras extranjeras (23%) puede afectar la practicidad del modelo
  4. Ingeniería de Características: Las características son relativamente simples, posiblemente omitiendo características lingüísticas importantes
  5. Limitación de Evaluación: Evaluación solo en un único conjunto de datos, falta validación entre dominios

Impacto

  1. Contribución Académica: Proporciona referencia importante para investigación de PLN en lenguas con recursos limitados
  2. Valor Social: Contribuye a la protección y desarrollo digital de la lengua Nagamese
  3. Base Técnica: Sienta las bases para construir aplicaciones de PLN más complejas para Nagamese
  4. Metodología: Demuestra el proceso completo de construcción de herramientas de PLN para lenguas con recursos escasos

Escenarios Aplicables

  1. Aplicaciones Educativas: Asistencia en la enseñanza y aprendizaje de la lengua Nagamese
  2. Procesamiento de Medios: Procesamiento automatizado de contenido de noticias y redes sociales en Nagamese
  3. Servicios Gubernamentales: Apoyo a servicios gubernamentales multilingües en Nagaland
  4. Base de Investigación: Proporciona herramientas base para investigación posterior de PLN en Nagamese

Referencias Bibliográficas

El artículo cita las siguientes referencias clave:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - Investigación de estandarización gramatical de Nagamese
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - Trabajo pionero en etiquetado de categorías gramaticales en asamés
  3. Pathak et al. (2022, 2023). Métodos de etiquetado de categorías gramaticales en asamés con aprendizaje profundo
  4. Phukan et al. (2023, 2024). Investigación de etiquetado de categorías gramaticales en asamés con LSTM

Evaluación General: Este es un artículo de importante significado pionero que, aunque relativamente tradicional en métodos técnicos, establece el primer sistema de etiquetado de categorías gramaticales para Nagamese, una lengua con recursos limitados, poseyendo importante valor académico y social. La metodología de investigación es rigurosa, la construcción de datos es normativa, y sienta una base sólida para investigaciones posteriores.