2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.

Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.

academic

Etiquetador de Categorías Gramaticales para la Lengua Bodo utilizando Enfoque de Aprendizaje Profundo

Información Básica

ID del Artículo: 2401.03175
Título: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
Autores: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
Institución: Centre for Linguistic Science and Technology, IIT Guwahati
Clasificación: cs.CL cs.AI cs.LG
Revista de Publicación: Natural Language Engineering (Aceptado)
Enlace del Artículo: https://arxiv.org/abs/2401.03175

Resumen

Esta investigación se dedica a la investigación del procesamiento del lenguaje natural (PLN) para la lengua Bodo (idioma bodo), una lengua de recursos limitados. Aunque tareas de PLN como etiquetado de categorías gramaticales, reconocimiento de entidades nombradas y traducción automática han sido ampliamente estudiadas en lenguas de recursos abundantes, la investigación sobre lenguas de recursos limitados como Bodo, Mizo y Nagamese aún se encuentra en etapas iniciales. Este artículo propone en primer lugar el modelo de lenguaje BodoBERT, el primer modelo de lenguaje preentrenado específicamente para la lengua Bodo. En segundo lugar, basándose en la arquitectura BiLSTM-CRF e incrustaciones apiladas de BodoBERT y BytePairEmbeddings, se desarrolló un modelo integrado de etiquetado POS de aprendizaje profundo. El modelo óptimo logró una puntuación F1 de 0.8041 en la tarea de etiquetado POS para la lengua Bodo.

Contexto de Investigación y Motivación

Definición del Problema

Problema Central: La lengua Bodo, como lengua importante del noreste de India (1.5 millones de hablantes, vigésima lengua más grande de India), carece de herramientas y recursos fundamentales de PLN
Desafíos Técnicos:
- Ausencia de modelos de lenguaje preentrenados que cubran la lengua Bodo
- Escasez de datos anotados (solo aproximadamente 30k oraciones de corpus anotado)
- Características lingüísticas complejas (familia lingüística Tibeto-Birmana, morfología rica)

Análisis de Importancia

Estatus Lingüístico: Bodo es una de las 22 lenguas oficiales de India, lengua oficial de la Región Territorial de Bodoland
Demanda de Aplicaciones: 1.5 millones de hablantes requieren urgentemente herramientas de PLN correspondientes
Valor Académico: Llenar el vacío en la investigación de PLN para lenguas de recursos limitados

Limitaciones Existentes

Tareas fundamentales de PLN (análisis morfológico, análisis sintáctico de dependencias, identificación de lengua, etc.) aún no se han realizado
No hay modelos de lenguaje preentrenados disponibles
Carecen de herramientas de PLN basadas en aprendizaje profundo para tareas posteriores

Contribuciones Principales

Primer Modelo de Lengua Bodo: Propone BodoBERT basado en la arquitectura BERT, el primer modelo de lenguaje preentrenado específicamente entrenado para la lengua Bodo
Comparación de Múltiples Arquitecturas: Comparación sistemática de tres arquitecturas de etiquetado de secuencias: CRF, Fine-tuning y BiLSTM-CRF
Análisis de Rendimiento de Múltiples Modelos Lingüísticos: Evaluación del rendimiento de FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL y otros modelos de lenguaje en la tarea de etiquetado POS de Bodo
Método de Incrustaciones Apiladas: Propone dos métodos de incrustación: Individual y Stacked, donde el método Stacked mejora significativamente el rendimiento
Recursos de Código Abierto: Publicación abierta del mejor modelo de etiquetado POS y el modelo BodoBERT

Explicación Detallada de Métodos

Definición de Tarea

Entrada: Secuencia de oraciones en lengua Bodo Salida: Etiqueta POS correspondiente para cada palabra (34 etiquetas basadas en el conjunto de etiquetas BIS) Restricciones: Utiliza escritura Devanagari, cumple con estándares de lenguas indias (conjunto de etiquetas BIS)

Modelo de Lenguaje BodoBERT

Construcción del Corpus

Fuentes de Datos:
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Trabajo de Narzary et al. (2022)
Escala del Corpus: 1.6M tokens, 191k oraciones
Cobertura de Dominios: Estética, negocios, medios de comunicación masiva, tecnología, ciencias sociales y otros múltiples dominios

Arquitectura del Modelo

Arquitectura Base: Transformer bidireccional multicapa (basado en marco BERT)
Parámetros Clave:
- 6 bloques Transformer
- Dimensión de capa oculta: 768
- Número de cabezas de autoatención: 6
- Cantidad total de parámetros: aproximadamente 103M
- Tamaño del vocabulario: 50,000 (tokenizador WordPiece)

Configuración de Entrenamiento

Hardware: GPU Nvidia Tesla P100
Pasos de Entrenamiento: 300K pasos
Longitud de Secuencia: 128
Tamaño de Lote: 64
Optimizador: Adam (tasa de aprendizaje 2e-5, calentamiento de 3000 pasos)
Tiempo de Entrenamiento: Aproximadamente 7 días

Arquitectura del Modelo de Etiquetado POS

Tres Métodos de Etiquetado de Secuencias

Modelo CRF: Incrustación BodoBERT + capa CRF
Modelo Fine-tuning: Ajuste fino directo de BodoBERT para etiquetado POS
Modelo BiLSTM-CRF: Incrustación BodoBERT + BiLSTM + capa CRF

Métodos de Incrustación

Método Individual: Utilización independiente de varios modelos de lenguaje
Método Stacked: Combinación apilada de BodoBERT con otros modelos de lenguaje

Puntos de Innovación Técnica

Adaptabilidad Lingüística: Primer modelo de lenguaje especializado diseñado específicamente para características de la lengua Bodo
Fusión de Múltiples Modelos: Comparación sistemática y fusión de múltiples modelos preentrenados
Transferencia Multilingüe: Aprovechamiento del modelo Hindi que utiliza el mismo sistema de escritura (Devanagari) para transferencia de conocimiento
Estrategia de Apilamiento: Combinación innovadora de modelo de lenguaje especializado con modelos universales

Configuración Experimental

Conjunto de Datos

Corpus Anotado: Bodo Monolingual Text Corpus (ILCI-II)
Escala de Datos:
- Conjunto de Entrenamiento: 24,003 oraciones, 192k tokens
- Conjunto de Validación: 2,325 oraciones, 23k tokens
- Conjunto de Prueba: 3,161 oraciones, 23k tokens
Sistema de Etiquetas: Conjunto de etiquetas BIS, 11 categorías de nivel superior, 34 etiquetas específicas
Formato de Datos: Formato CoNLL-2003

Métricas de Evaluación

Métrica Principal: F1-score (Micro)
Métricas Auxiliares: F1-score (Ponderado), Precisión, Exhaustividad
Análisis a Nivel de Etiqueta: Rendimiento detallado de cada etiqueta POS

Métodos de Comparación

Comparación de Modelos de Lenguaje

Modelo	Corpus de Entrenamiento	Volumen de Datos
FastText	Wiki	<29M
BytePair	Wiki	29M
BodoBERT	Corpus Bodo	1.6M
FlairEmbeddings	Wiki+OPUS	≈29M
MuRIL	CommonCrawl+Wiki	788M
XLM-R	CC-100	1.7B
IndicBERT	Scraping	1.84B

Comparación de Arquitecturas

CRF vs Fine-tuning vs BiLSTM-CRF
Métodos de incrustación Individual vs Stacked

Detalles de Implementación

Marco de Trabajo: Marco Flair
Tamaño de Lote: 32
Estrategia de Parada Temprana: Detención cuando no hay mejora en el rendimiento del conjunto de validación
Programación de Tasa de Aprendizaje: Annealing de Tasa de Aprendizaje

Resultados Experimentales

Resultados Principales

Comparación de Arquitecturas

Método de Incrustación	Modelo de Etiquetado	F1-score(Micro)	F1-score(Ponderado)
BodoBERT	CRF	0.7583	0.7454
BodoBERT	BERT Ajustado	0.7754	0.7775
BodoBERT	BiLSTM + CRF	0.7949	0.7898

Comparación de Modelos de Lenguaje - Método Individual

Modelo de Incrustación	F1 Bodo	F1 Assamese
FastText	0.7686	0.6981
BytePair	0.7669	0.7099
BodoBERT	0.7949	0.7033
FlairEmbeddings	0.7885	0.7076
MuRIL	0.7708	0.7286
XLM-R	0.7638	0.7001
IndicBERT	0.7235	0.7293

Resultados del Método Stacked

Combinación de Incrustación Apilada	Puntuación F1
BodoBERT + FastText	0.7928
BodoBERT + BytePair	0.8041
BodoBERT + mBERT	0.799
BodoBERT + FlairEmbeddings	0.801
BodoBERT + MuRIL	0.785
BodoBERT + XLM-R	0.8003
BodoBERT + IndicBERT	0.793

Experimentos de Aumento de Datos

Mediante la adición de 10k oraciones anotadas automáticamente + corregidas manualmente:

Mejora de Rendimiento: F1 mejoró de 0.8041 a 0.8494 (+1-2%)
Validación de Escalabilidad del Modelo

Análisis a Nivel de Etiqueta

Rendimiento del mejor modelo en etiquetas POS principales:

V_VM (Verbo): F1=0.9150 (más alto)
RD_PUNC (Puntuación): F1=0.9944 (casi perfecto)
N_NN (Sustantivo): F1=0.7628 (categoría más grande)
N_NNP (Sustantivo Propio): F1=0.6946 (más difícil de reconocer)

Análisis de Errores

Patrones de error principales descubiertos mediante matriz de confusión:

Confusión Intraclase: Sustantivo común (N_NN) con sustantivo propio (N_NNP), sustantivo de lugar (N_NST)
Conversión de Categoría Gramatical: Dificultad en etiquetado cuando sustantivos se utilizan como adjetivos
Limitaciones del Sistema de Escritura: Bodo carece de identificadores de sustantivos propios similares a letras mayúsculas en inglés

Comparación Multilingüe

Comparación de resultados de etiquetado POS entre Bodo y Assamese:

Máximo de Bodo: 0.8041 (BodoBERT+BytePair)
Máximo de Assamese: 0.7293 (IndicBERT)
Razón de Diferencia: Diferente complejidad del conjunto de etiquetas (34 etiquetas Bodo vs 41 etiquetas Assamese)

Trabajo Relacionado

Etiquetado POS para Lenguas de Recursos Limitados

Assamese: Pathak et al. (2022, 2023) - BiLSTM-CRF alcanza 86.52% F1
Khasi: Warjri et al. (2021) - 96.98% precisión
Bengali: Alam et al. (2016) - 86.0% precisión, Kabir et al. (2016) - 93.33% precisión
Mizo: Pandey et al. (2022) - LSTM alcanza 81.86% precisión

Ventajas de Este Artículo

Originalidad: Primer etiquetador POS de red neuronal para la lengua Bodo
Sistematicidad: Comparación exhaustiva de múltiples arquitecturas y modelos de lenguaje
Practicidad: Proporciona modelos y herramientas de código abierto

Conclusiones y Discusión

Conclusiones Principales

Efectividad de BodoBERT: El modelo de lenguaje especializado muestra el mejor rendimiento en tareas posteriores
Ventaja de Arquitectura: La arquitectura BiLSTM-CRF supera a CRF y Fine-tuning
Efectividad de Estrategia de Apilamiento: Las incrustaciones combinadas muestran mejor rendimiento que incrustaciones individuales
Establecimiento de Línea Base: Se establece una línea base importante para investigación de PLN en lengua Bodo

Limitaciones

Escala de Datos: El corpus anotado es relativamente pequeño (30k oraciones)
Datos de Entrenamiento del Modelo de Lenguaje: El corpus de entrenamiento de BodoBERT contiene solo 1.6M tokens
Nivel de Rendimiento: Aún hay brecha en comparación con lenguas de recursos abundantes (F1=0.8041 vs 90%+)
Calidad de Anotación: Algunas anotaciones pueden requerir corrección adicional

Direcciones Futuras

Expansión de Corpus: Recopilar más texto en lengua Bodo y datos anotados
Mejora de Modelo: Optimizar arquitectura de BodoBERT y estrategias de entrenamiento
Tareas Posteriores: Extensión a reconocimiento de entidades nombradas, análisis sintáctico y otras tareas de PLN
Modelado Multilingüe: Exploración de modelado conjunto con lenguas relacionadas

Evaluación Profunda

Fortalezas

Contribución Pionera: Primera construcción de modelo de lenguaje y etiquetador POS para lengua Bodo, llenando un vacío importante
Investigación Sistemática: Comparación exhaustiva de múltiples métodos, diseño experimental completo y razonable
Innovación Técnica: Estrategia de incrustación apilada mejora efectivamente el rendimiento
Valor Práctico: Publicación abierta de modelos, proporciona herramientas fundamentales para la comunidad
Perspectiva Multilingüe: Comparación con Assamese proporciona análisis multilingüe valioso

Deficiencias

Limitación de Datos: Escala relativamente pequeña de datos de entrenamiento, puede afectar capacidad de generalización del modelo
Limitaciones de Evaluación: Falta de comparación con métodos tradicionales (como HMM, métodos basados en reglas)
Profundidad de Análisis de Errores: Análisis lingüístico insuficiente de casos de fallo del modelo
Recursos Computacionales: Costo de entrenamiento del modelo relativamente alto, puede limitar reproducibilidad

Impacto

Valor Académico: Proporciona paradigma importante para investigación de PLN en lenguas de recursos limitados
Significado Práctico: Sirve directamente a las necesidades reales de la comunidad de habla Bodo
Contribución Metodológica: Estrategia de incrustación apilada puede generalizarse a otras lenguas de recursos limitados
Infraestructura Base: Sienta las bases para investigación posterior de PLN en lengua Bodo

Escenarios de Aplicación

Aplicación Directa: Procesamiento de texto en lengua Bodo, extracción de información
Base de Investigación: Paso de preprocesamiento para otras tareas de PLN en lengua Bodo
Transferencia de Métodos: Tareas de etiquetado POS en lenguas de recursos limitados similares
Sistemas Multilingües: Componente de sistemas de PLN multilingüe del noreste de India

Referencias Bibliográficas

Este artículo cita abundante trabajo relacionado, incluyendo principalmente:

Relacionado con BERT: Devlin et al. (2018) - Artículo BERT original
Etiquetado de Secuencias: Huang et al. (2015) - Arquitectura BiLSTM-CRF
Lenguas de Recursos Limitados: Múltiples investigaciones de PLN en lenguas locales indias
Modelos de Lenguaje: Artículos originales de varios modelos preentrenados

Evaluación General: Este es un artículo de investigación de alta calidad sobre PLN en lenguas de recursos limitados, con contribuciones importantes en innovación metodológica, diseño experimental y valor práctico. Aunque limitado por la escala de datos, abre nuevas direcciones para investigación de PLN en lengua Bodo, con importante valor académico y social.