Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academicEtiquetador de Categorías Gramaticales para la Lengua Bodo utilizando Enfoque de Aprendizaje Profundo
- ID del Artículo: 2401.03175
- Título: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- Autores: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
- Institución: Centre for Linguistic Science and Technology, IIT Guwahati
- Clasificación: cs.CL cs.AI cs.LG
- Revista de Publicación: Natural Language Engineering (Aceptado)
- Enlace del Artículo: https://arxiv.org/abs/2401.03175
Esta investigación se dedica a la investigación del procesamiento del lenguaje natural (PLN) para la lengua Bodo (idioma bodo), una lengua de recursos limitados. Aunque tareas de PLN como etiquetado de categorías gramaticales, reconocimiento de entidades nombradas y traducción automática han sido ampliamente estudiadas en lenguas de recursos abundantes, la investigación sobre lenguas de recursos limitados como Bodo, Mizo y Nagamese aún se encuentra en etapas iniciales. Este artículo propone en primer lugar el modelo de lenguaje BodoBERT, el primer modelo de lenguaje preentrenado específicamente para la lengua Bodo. En segundo lugar, basándose en la arquitectura BiLSTM-CRF e incrustaciones apiladas de BodoBERT y BytePairEmbeddings, se desarrolló un modelo integrado de etiquetado POS de aprendizaje profundo. El modelo óptimo logró una puntuación F1 de 0.8041 en la tarea de etiquetado POS para la lengua Bodo.
- Problema Central: La lengua Bodo, como lengua importante del noreste de India (1.5 millones de hablantes, vigésima lengua más grande de India), carece de herramientas y recursos fundamentales de PLN
- Desafíos Técnicos:
- Ausencia de modelos de lenguaje preentrenados que cubran la lengua Bodo
- Escasez de datos anotados (solo aproximadamente 30k oraciones de corpus anotado)
- Características lingüísticas complejas (familia lingüística Tibeto-Birmana, morfología rica)
- Estatus Lingüístico: Bodo es una de las 22 lenguas oficiales de India, lengua oficial de la Región Territorial de Bodoland
- Demanda de Aplicaciones: 1.5 millones de hablantes requieren urgentemente herramientas de PLN correspondientes
- Valor Académico: Llenar el vacío en la investigación de PLN para lenguas de recursos limitados
- Tareas fundamentales de PLN (análisis morfológico, análisis sintáctico de dependencias, identificación de lengua, etc.) aún no se han realizado
- No hay modelos de lenguaje preentrenados disponibles
- Carecen de herramientas de PLN basadas en aprendizaje profundo para tareas posteriores
- Primer Modelo de Lengua Bodo: Propone BodoBERT basado en la arquitectura BERT, el primer modelo de lenguaje preentrenado específicamente entrenado para la lengua Bodo
- Comparación de Múltiples Arquitecturas: Comparación sistemática de tres arquitecturas de etiquetado de secuencias: CRF, Fine-tuning y BiLSTM-CRF
- Análisis de Rendimiento de Múltiples Modelos Lingüísticos: Evaluación del rendimiento de FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL y otros modelos de lenguaje en la tarea de etiquetado POS de Bodo
- Método de Incrustaciones Apiladas: Propone dos métodos de incrustación: Individual y Stacked, donde el método Stacked mejora significativamente el rendimiento
- Recursos de Código Abierto: Publicación abierta del mejor modelo de etiquetado POS y el modelo BodoBERT
Entrada: Secuencia de oraciones en lengua Bodo
Salida: Etiqueta POS correspondiente para cada palabra (34 etiquetas basadas en el conjunto de etiquetas BIS)
Restricciones: Utiliza escritura Devanagari, cumple con estándares de lenguas indias (conjunto de etiquetas BIS)
- Fuentes de Datos:
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Trabajo de Narzary et al. (2022)
- Escala del Corpus: 1.6M tokens, 191k oraciones
- Cobertura de Dominios: Estética, negocios, medios de comunicación masiva, tecnología, ciencias sociales y otros múltiples dominios
- Arquitectura Base: Transformer bidireccional multicapa (basado en marco BERT)
- Parámetros Clave:
- 6 bloques Transformer
- Dimensión de capa oculta: 768
- Número de cabezas de autoatención: 6
- Cantidad total de parámetros: aproximadamente 103M
- Tamaño del vocabulario: 50,000 (tokenizador WordPiece)
- Hardware: GPU Nvidia Tesla P100
- Pasos de Entrenamiento: 300K pasos
- Longitud de Secuencia: 128
- Tamaño de Lote: 64
- Optimizador: Adam (tasa de aprendizaje 2e-5, calentamiento de 3000 pasos)
- Tiempo de Entrenamiento: Aproximadamente 7 días
- Modelo CRF: Incrustación BodoBERT + capa CRF
- Modelo Fine-tuning: Ajuste fino directo de BodoBERT para etiquetado POS
- Modelo BiLSTM-CRF: Incrustación BodoBERT + BiLSTM + capa CRF
- Método Individual: Utilización independiente de varios modelos de lenguaje
- Método Stacked: Combinación apilada de BodoBERT con otros modelos de lenguaje
- Adaptabilidad Lingüística: Primer modelo de lenguaje especializado diseñado específicamente para características de la lengua Bodo
- Fusión de Múltiples Modelos: Comparación sistemática y fusión de múltiples modelos preentrenados
- Transferencia Multilingüe: Aprovechamiento del modelo Hindi que utiliza el mismo sistema de escritura (Devanagari) para transferencia de conocimiento
- Estrategia de Apilamiento: Combinación innovadora de modelo de lenguaje especializado con modelos universales
- Corpus Anotado: Bodo Monolingual Text Corpus (ILCI-II)
- Escala de Datos:
- Conjunto de Entrenamiento: 24,003 oraciones, 192k tokens
- Conjunto de Validación: 2,325 oraciones, 23k tokens
- Conjunto de Prueba: 3,161 oraciones, 23k tokens
- Sistema de Etiquetas: Conjunto de etiquetas BIS, 11 categorías de nivel superior, 34 etiquetas específicas
- Formato de Datos: Formato CoNLL-2003
- Métrica Principal: F1-score (Micro)
- Métricas Auxiliares: F1-score (Ponderado), Precisión, Exhaustividad
- Análisis a Nivel de Etiqueta: Rendimiento detallado de cada etiqueta POS
| Modelo | Corpus de Entrenamiento | Volumen de Datos |
|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | Corpus Bodo | 1.6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1.7B |
| IndicBERT | Scraping | 1.84B |
- CRF vs Fine-tuning vs BiLSTM-CRF
- Métodos de incrustación Individual vs Stacked
- Marco de Trabajo: Marco Flair
- Tamaño de Lote: 32
- Estrategia de Parada Temprana: Detención cuando no hay mejora en el rendimiento del conjunto de validación
- Programación de Tasa de Aprendizaje: Annealing de Tasa de Aprendizaje
| Método de Incrustación | Modelo de Etiquetado | F1-score(Micro) | F1-score(Ponderado) |
|---|
| BodoBERT | CRF | 0.7583 | 0.7454 |
| BodoBERT | BERT Ajustado | 0.7754 | 0.7775 |
| BodoBERT | BiLSTM + CRF | 0.7949 | 0.7898 |
| Modelo de Incrustación | F1 Bodo | F1 Assamese |
|---|
| FastText | 0.7686 | 0.6981 |
| BytePair | 0.7669 | 0.7099 |
| BodoBERT | 0.7949 | 0.7033 |
| FlairEmbeddings | 0.7885 | 0.7076 |
| MuRIL | 0.7708 | 0.7286 |
| XLM-R | 0.7638 | 0.7001 |
| IndicBERT | 0.7235 | 0.7293 |
| Combinación de Incrustación Apilada | Puntuación F1 |
|---|
| BodoBERT + FastText | 0.7928 |
| BodoBERT + BytePair | 0.8041 |
| BodoBERT + mBERT | 0.799 |
| BodoBERT + FlairEmbeddings | 0.801 |
| BodoBERT + MuRIL | 0.785 |
| BodoBERT + XLM-R | 0.8003 |
| BodoBERT + IndicBERT | 0.793 |
Mediante la adición de 10k oraciones anotadas automáticamente + corregidas manualmente:
- Mejora de Rendimiento: F1 mejoró de 0.8041 a 0.8494 (+1-2%)
- Validación de Escalabilidad del Modelo
Rendimiento del mejor modelo en etiquetas POS principales:
- V_VM (Verbo): F1=0.9150 (más alto)
- RD_PUNC (Puntuación): F1=0.9944 (casi perfecto)
- N_NN (Sustantivo): F1=0.7628 (categoría más grande)
- N_NNP (Sustantivo Propio): F1=0.6946 (más difícil de reconocer)
Patrones de error principales descubiertos mediante matriz de confusión:
- Confusión Intraclase: Sustantivo común (N_NN) con sustantivo propio (N_NNP), sustantivo de lugar (N_NST)
- Conversión de Categoría Gramatical: Dificultad en etiquetado cuando sustantivos se utilizan como adjetivos
- Limitaciones del Sistema de Escritura: Bodo carece de identificadores de sustantivos propios similares a letras mayúsculas en inglés
Comparación de resultados de etiquetado POS entre Bodo y Assamese:
- Máximo de Bodo: 0.8041 (BodoBERT+BytePair)
- Máximo de Assamese: 0.7293 (IndicBERT)
- Razón de Diferencia: Diferente complejidad del conjunto de etiquetas (34 etiquetas Bodo vs 41 etiquetas Assamese)
- Assamese: Pathak et al. (2022, 2023) - BiLSTM-CRF alcanza 86.52% F1
- Khasi: Warjri et al. (2021) - 96.98% precisión
- Bengali: Alam et al. (2016) - 86.0% precisión, Kabir et al. (2016) - 93.33% precisión
- Mizo: Pandey et al. (2022) - LSTM alcanza 81.86% precisión
- Originalidad: Primer etiquetador POS de red neuronal para la lengua Bodo
- Sistematicidad: Comparación exhaustiva de múltiples arquitecturas y modelos de lenguaje
- Practicidad: Proporciona modelos y herramientas de código abierto
- Efectividad de BodoBERT: El modelo de lenguaje especializado muestra el mejor rendimiento en tareas posteriores
- Ventaja de Arquitectura: La arquitectura BiLSTM-CRF supera a CRF y Fine-tuning
- Efectividad de Estrategia de Apilamiento: Las incrustaciones combinadas muestran mejor rendimiento que incrustaciones individuales
- Establecimiento de Línea Base: Se establece una línea base importante para investigación de PLN en lengua Bodo
- Escala de Datos: El corpus anotado es relativamente pequeño (30k oraciones)
- Datos de Entrenamiento del Modelo de Lenguaje: El corpus de entrenamiento de BodoBERT contiene solo 1.6M tokens
- Nivel de Rendimiento: Aún hay brecha en comparación con lenguas de recursos abundantes (F1=0.8041 vs 90%+)
- Calidad de Anotación: Algunas anotaciones pueden requerir corrección adicional
- Expansión de Corpus: Recopilar más texto en lengua Bodo y datos anotados
- Mejora de Modelo: Optimizar arquitectura de BodoBERT y estrategias de entrenamiento
- Tareas Posteriores: Extensión a reconocimiento de entidades nombradas, análisis sintáctico y otras tareas de PLN
- Modelado Multilingüe: Exploración de modelado conjunto con lenguas relacionadas
- Contribución Pionera: Primera construcción de modelo de lenguaje y etiquetador POS para lengua Bodo, llenando un vacío importante
- Investigación Sistemática: Comparación exhaustiva de múltiples métodos, diseño experimental completo y razonable
- Innovación Técnica: Estrategia de incrustación apilada mejora efectivamente el rendimiento
- Valor Práctico: Publicación abierta de modelos, proporciona herramientas fundamentales para la comunidad
- Perspectiva Multilingüe: Comparación con Assamese proporciona análisis multilingüe valioso
- Limitación de Datos: Escala relativamente pequeña de datos de entrenamiento, puede afectar capacidad de generalización del modelo
- Limitaciones de Evaluación: Falta de comparación con métodos tradicionales (como HMM, métodos basados en reglas)
- Profundidad de Análisis de Errores: Análisis lingüístico insuficiente de casos de fallo del modelo
- Recursos Computacionales: Costo de entrenamiento del modelo relativamente alto, puede limitar reproducibilidad
- Valor Académico: Proporciona paradigma importante para investigación de PLN en lenguas de recursos limitados
- Significado Práctico: Sirve directamente a las necesidades reales de la comunidad de habla Bodo
- Contribución Metodológica: Estrategia de incrustación apilada puede generalizarse a otras lenguas de recursos limitados
- Infraestructura Base: Sienta las bases para investigación posterior de PLN en lengua Bodo
- Aplicación Directa: Procesamiento de texto en lengua Bodo, extracción de información
- Base de Investigación: Paso de preprocesamiento para otras tareas de PLN en lengua Bodo
- Transferencia de Métodos: Tareas de etiquetado POS en lenguas de recursos limitados similares
- Sistemas Multilingües: Componente de sistemas de PLN multilingüe del noreste de India
Este artículo cita abundante trabajo relacionado, incluyendo principalmente:
- Relacionado con BERT: Devlin et al. (2018) - Artículo BERT original
- Etiquetado de Secuencias: Huang et al. (2015) - Arquitectura BiLSTM-CRF
- Lenguas de Recursos Limitados: Múltiples investigaciones de PLN en lenguas locales indias
- Modelos de Lenguaje: Artículos originales de varios modelos preentrenados
Evaluación General: Este es un artículo de investigación de alta calidad sobre PLN en lenguas de recursos limitados, con contribuciones importantes en innovación metodológica, diseño experimental y valor práctico. Aunque limitado por la escala de datos, abre nuevas direcciones para investigación de PLN en lengua Bodo, con importante valor académico y social.