2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.

Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.

academic

Étiqueteur de Parties du Discours pour la Langue Bodo utilisant une Approche d'Apprentissage Profond

Informations de Base

ID de l'article : 2401.03175
Titre : Part-of-Speech Tagger for Bodo Language using Deep Learning approach
Auteurs : Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
Institution : Centre for Linguistic Science and Technology, IIT Guwahati
Classification : cs.CL cs.AI cs.LG
Journal de Publication : Natural Language Engineering (Accepté)
Lien de l'article : https://arxiv.org/abs/2401.03175

Résumé

Cette étude porte sur le traitement automatique des langues naturelles (TAL) pour le Bodo (langue bodo), une langue à ressources limitées. Bien que des tâches de TAL telles que l'étiquetage des parties du discours, la reconnaissance d'entités nommées et la traduction automatique aient été largement étudiées pour les langues à ressources abondantes, la recherche sur les langues à ressources limitées comme le Bodo, le Mizo et le Nagamese en est encore à ses débuts. Cet article propose d'abord BodoBERT, un modèle de langue préentraîné, le premier modèle de langue préentraîné dédié à la langue bodo. Deuxièmement, basé sur l'architecture BiLSTM-CRF et les plongements empilés de BodoBERT et BytePairEmbeddings, un modèle d'étiquetage POS intégrant l'apprentissage profond a été développé. Le meilleur modèle a atteint un score F1 de 0,8041 sur la tâche d'étiquetage POS pour la langue bodo.

Contexte et Motivation de la Recherche

Définition du Problème

Problème central : La langue bodo, en tant que langue importante du nord-est de l'Inde (1,5 million de locuteurs, 20e plus grande langue de l'Inde), manque d'outils et de ressources TAL fondamentaux
Défis techniques :
- Absence de modèle de langue préentraîné couvrant la langue bodo
- Rareté des données annotées (corpus annoté d'environ 30k phrases seulement)
- Complexité des caractéristiques linguistiques (famille sino-tibétaine, morphologie riche)

Analyse de l'Importance

Statut linguistique : Le bodo est l'une des 22 langues officielles de l'Inde, langue officielle de la région territoriale de Bodoland
Besoins applicatifs : 1,5 million de locuteurs ont besoin d'outils TAL correspondants
Valeur académique : Combler les lacunes dans la recherche TAL pour les langues à ressources limitées

Limitations Existantes

Les tâches TAL fondamentales (analyse morphologique, analyse syntaxique de dépendance, identification de langue, etc.) n'ont pas encore été entreprises
Aucun modèle de langue préentraîné disponible
Absence d'outils TAL en aval basés sur l'apprentissage profond

Contributions Principales

Premier modèle de langue bodo : Proposition de BodoBERT basé sur l'architecture BERT, le premier modèle de langue préentraîné spécialement entraîné pour la langue bodo
Comparaison d'architectures multiples : Comparaison systématique de trois architectures d'étiquetage de séquences : CRF, Fine-tuning et BiLSTM-CRF
Analyse de performance de modèles multilingues : Évaluation de la performance de plusieurs modèles de langue (FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL, etc.) sur la tâche d'étiquetage POS du bodo
Méthode d'empilage de plongements : Proposition de deux méthodes d'empilage : Individual et Stacked, la méthode Stacked améliorant significativement les performances
Ressources open-source : Publication du meilleur modèle d'étiquetage POS et du modèle BodoBERT

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée : Séquence de phrases en langue bodo Sortie : Étiquette POS correspondant à chaque mot (34 étiquettes basées sur l'ensemble d'étiquettes BIS) Contraintes : Utilisation du script Devanagari, conformité aux normes des langues indiennes (ensemble d'étiquettes BIS)

Modèle de Langue BodoBERT

Construction du Corpus

Sources de données :
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Travaux de Narzary et al. (2022)
Taille du corpus : 1,6M tokens, 191k phrases
Couverture de domaines : Esthétique, commerce, médias grand public, technologie, sciences sociales et autres domaines multiples

Architecture du Modèle

Architecture de base : Transformer bidirectionnel multicouche (basé sur le cadre BERT)
Paramètres clés :
- 6 couches de blocs Transformer
- Dimension de la couche cachée : 768
- Nombre de têtes d'auto-attention : 6
- Nombre total de paramètres : environ 103M
- Taille du vocabulaire : 50 000 (tokeniseur WordPiece)

Configuration d'Entraînement

Matériel : GPU Nvidia Tesla P100
Nombre d'étapes d'entraînement : 300K étapes
Longueur de séquence : 128
Taille de lot : 64
Optimiseur : Adam (taux d'apprentissage 2e-5, préchauffage des 3000 premières étapes)
Durée d'entraînement : environ 7 jours

Architecture du Modèle d'Étiquetage POS

Trois Méthodes d'Étiquetage de Séquences

Modèle CRF : Plongement BodoBERT + couche CRF
Modèle Fine-tuning : Ajustement fin direct de BodoBERT pour l'étiquetage POS
Modèle BiLSTM-CRF : Plongement BodoBERT + BiLSTM + couche CRF

Méthodes d'Empilage

Méthode Individual : Utilisation indépendante de divers modèles de langue
Méthode Stacked : Combinaison empilée de BodoBERT avec d'autres modèles de langue

Points d'Innovation Technique

Adaptabilité linguistique : Premier modèle de langue spécialisé conçu pour les caractéristiques spécifiques de la langue bodo
Fusion de modèles multiples : Comparaison systématique et fusion de plusieurs modèles préentraînés
Transfert translinguistique : Exploitation des modèles hindi utilisant le même système d'écriture (Devanagari) pour le transfert de connaissances
Stratégie d'empilage : Combinaison innovante d'un modèle de langue spécialisé avec des modèles génériques

Configuration Expérimentale

Ensemble de Données

Corpus annoté : Bodo Monolingual Text Corpus (ILCI-II)
Taille des données :
- Ensemble d'entraînement : 24 003 phrases, 192k tokens
- Ensemble de validation : 2 325 phrases, 23k tokens
- Ensemble de test : 3 161 phrases, 23k tokens
Système d'étiquettes : Ensemble d'étiquettes BIS, 11 catégories de haut niveau, 34 étiquettes spécifiques
Format des données : Format CoNLL-2003

Métriques d'Évaluation

Métrique principale : Score F1 (Micro)
Métriques auxiliaires : Score F1 (Pondéré), Précision, Rappel
Analyse au niveau des étiquettes : Performance détaillée pour chaque étiquette POS

Méthodes de Comparaison

Comparaison des Modèles de Langue

Modèle	Corpus d'entraînement	Volume de données
FastText	Wiki	<29M
BytePair	Wiki	29M
BodoBERT	Corpus bodo	1,6M
FlairEmbeddings	Wiki+OPUS	≈29M
MuRIL	CommonCrawl+Wiki	788M
XLM-R	CC-100	1,7B
IndicBERT	Web scraping	1,84B

Comparaison d'Architectures

CRF vs Fine-tuning vs BiLSTM-CRF
Méthodes d'empilage Individual vs Stacked

Détails d'Implémentation

Cadre : Flair framework
Taille de lot : 32
Stratégie d'arrêt anticipé : Arrêt lorsque la performance sur l'ensemble de validation n'améliore pas
Planification du taux d'apprentissage : Learning Rate Annealing

Résultats Expérimentaux

Résultats Principaux

Comparaison d'Architectures

Méthode d'empilage	Modèle d'étiquetage	Score F1(Micro)	Score F1(Pondéré)
BodoBERT	CRF	0,7583	0,7454
BodoBERT	BERT Fine-tuned	0,7754	0,7775
BodoBERT	BiLSTM + CRF	0,7949	0,7898

Comparaison des Modèles de Langue - Méthode Individual

Modèle d'empilage	F1 Bodo	F1 Assamese
FastText	0,7686	0,6981
BytePair	0,7669	0,7099
BodoBERT	0,7949	0,7033
FlairEmbeddings	0,7885	0,7076
MuRIL	0,7708	0,7286
XLM-R	0,7638	0,7001
IndicBERT	0,7235	0,7293

Résultats de la Méthode Stacked

Combinaison d'empilage	Score F1
BodoBERT + FastText	0,7928
BodoBERT + BytePair	0,8041
BodoBERT + mBERT	0,799
BodoBERT + FlairEmbeddings	0,801
BodoBERT + MuRIL	0,785
BodoBERT + XLM-R	0,8003
BodoBERT + IndicBERT	0,793

Expériences d'Augmentation de Données

Par l'ajout de 10k phrases annotées automatiquement et corrigées manuellement :

Amélioration de performance : Score F1 amélioré de 0,8041 à 0,8494 (+1-2%)
Validation de l'extensibilité du modèle

Analyse au Niveau des Étiquettes

Performance du meilleur modèle sur les principales étiquettes POS :

V_VM (Verbe) : F1=0,9150 (le plus élevé)
RD_PUNC (Ponctuation) : F1=0,9944 (quasi-parfait)
N_NN (Nom) : F1=0,7628 (catégorie la plus grande)
N_NNP (Nom propre) : F1=0,6946 (reconnaissance plus difficile)

Analyse des Erreurs

Modèles d'erreurs principaux découverts par la matrice de confusion :

Confusion intra-classe : Noms communs (N_NN) vs noms propres (N_NNP), noms de lieux (N_NST)
Conversion de parties du discours : Difficultés d'étiquetage lorsque les noms sont utilisés comme adjectifs
Limitations du système d'écriture : Le bodo manque d'identifiants de noms propres similaires aux majuscules de l'anglais

Comparaison Translinguistique

Comparaison des résultats d'étiquetage POS : Bodo vs Assamese

Meilleur résultat Bodo : 0,8041 (BodoBERT+BytePair)
Meilleur résultat Assamese : 0,7293 (IndicBERT)
Raisons des différences : Complexité différente des ensembles d'étiquettes (34 étiquettes bodo vs 41 étiquettes assamese)

Travaux Connexes

Étiquetage POS pour Langues à Ressources Limitées

Assamese : Pathak et al. (2022, 2023) - BiLSTM-CRF atteint 86,52% F1
Khasi : Warjri et al. (2021) - 96,98% de précision
Bengali : Alam et al. (2016) - 86,0% de précision, Kabir et al. (2016) - 93,33% de précision
Mizo : Pandey et al. (2022) - LSTM atteint 81,86% de précision

Avantages de cet Article

Caractère novateur : Premier étiqueteur POS basé sur réseau de neurones pour la langue bodo
Approche systématique : Comparaison complète de plusieurs architectures et modèles de langue
Utilité pratique : Fourniture de modèles et d'outils open-source

Conclusions et Discussion

Conclusions Principales

Efficacité de BodoBERT : Le modèle de langue spécialisé affiche les meilleures performances sur les tâches en aval
Avantages architecturaux : L'architecture BiLSTM-CRF surpasse CRF et Fine-tuning
Efficacité de la stratégie d'empilage : Les plongements combinés offrent de meilleures performances que les plongements uniques
Établissement de base de référence : Établissement d'une base de référence importante pour la recherche TAL en langue bodo

Limitations

Taille des données : Le corpus annoté est relativement petit (30k phrases)
Données d'entraînement du modèle de langue : Le corpus d'entraînement de BodoBERT ne contient que 1,6M tokens
Niveau de performance : Écart par rapport aux langues à ressources abondantes (F1=0,8041 vs 90%+)
Qualité d'annotation : Certaines annotations peuvent nécessiter une correction supplémentaire

Directions Futures

Expansion du corpus : Collecte de plus de textes en langue bodo et de données annotées
Amélioration du modèle : Optimisation de l'architecture BodoBERT et des stratégies d'entraînement
Tâches en aval : Extension à d'autres tâches TAL telles que la reconnaissance d'entités nommées et l'analyse syntaxique
Modélisation multilingue : Exploration de la modélisation conjointe avec les langues connexes

Évaluation Approfondie

Points Forts

Contribution pionnière : Construction pour la première fois d'un modèle de langue et d'un étiqueteur POS pour la langue bodo, comblant une lacune importante
Recherche systématique : Comparaison complète de plusieurs méthodes, conception expérimentale raisonnée et complète
Innovation technique : La stratégie d'empilage de plongements améliore efficacement les performances
Valeur pratique : Publication open-source de modèles, fourniture d'outils fondamentaux à la communauté
Perspectives translinguistiques : Analyse translinguistique précieuse fournie par la comparaison avec l'assamese

Insuffisances

Limitations des données : Taille relativement petite des données d'entraînement, pouvant affecter la capacité de généralisation du modèle
Limitations d'évaluation : Absence de comparaison avec les méthodes traditionnelles (HMM, méthodes basées sur des règles)
Profondeur d'analyse des erreurs : Analyse linguistique insuffisante des cas d'échec du modèle
Ressources informatiques : Coût d'entraînement du modèle relativement élevé, pouvant limiter la reproductibilité

Impact

Valeur académique : Fourniture d'un paradigme important pour la recherche TAL sur les langues à ressources limitées
Signification pratique : Service direct aux besoins réels de la communauté linguistique bodo
Contribution méthodologique : La stratégie d'empilage de plongements peut être généralisée à d'autres langues à ressources limitées
Infrastructure de base : Fondation pour la recherche TAL ultérieure en langue bodo

Scénarios d'Application

Application directe : Traitement de texte en langue bodo, extraction d'informations
Base de recherche : Étape de prétraitement pour d'autres tâches TAL en langue bodo
Transfert de méthode : Tâches d'étiquetage POS pour des langues à ressources limitées similaires
Systèmes multilingues : Composant des systèmes TAL multilingues du nord-est de l'Inde

Références Bibliographiques

Cet article cite de nombreux travaux connexes, comprenant principalement :

Articles connexes à BERT : Devlin et al. (2018) - Article BERT original
Étiquetage de séquences : Huang et al. (2015) - Architecture BiLSTM-CRF
Langues à ressources limitées : Plusieurs recherches TAL sur les langues régionales indiennes
Modèles de langue : Articles originaux de divers modèles préentraînés

Évaluation globale : Cet article est une recherche TAL de haute qualité sur les langues à ressources limitées, avec des contributions importantes en termes d'innovation méthodologique, de conception expérimentale et de valeur pratique. Bien que limité par la taille des données, il ouvre une nouvelle direction pour la recherche TAL en langue bodo, possédant une valeur académique et sociale importante.