Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academic- ID de l'article : 2401.03175
- Titre : Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- Auteurs : Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
- Institution : Centre for Linguistic Science and Technology, IIT Guwahati
- Classification : cs.CL cs.AI cs.LG
- Journal de Publication : Natural Language Engineering (Accepté)
- Lien de l'article : https://arxiv.org/abs/2401.03175
Cette étude porte sur le traitement automatique des langues naturelles (TAL) pour le Bodo (langue bodo), une langue à ressources limitées. Bien que des tâches de TAL telles que l'étiquetage des parties du discours, la reconnaissance d'entités nommées et la traduction automatique aient été largement étudiées pour les langues à ressources abondantes, la recherche sur les langues à ressources limitées comme le Bodo, le Mizo et le Nagamese en est encore à ses débuts. Cet article propose d'abord BodoBERT, un modèle de langue préentraîné, le premier modèle de langue préentraîné dédié à la langue bodo. Deuxièmement, basé sur l'architecture BiLSTM-CRF et les plongements empilés de BodoBERT et BytePairEmbeddings, un modèle d'étiquetage POS intégrant l'apprentissage profond a été développé. Le meilleur modèle a atteint un score F1 de 0,8041 sur la tâche d'étiquetage POS pour la langue bodo.
- Problème central : La langue bodo, en tant que langue importante du nord-est de l'Inde (1,5 million de locuteurs, 20e plus grande langue de l'Inde), manque d'outils et de ressources TAL fondamentaux
- Défis techniques :
- Absence de modèle de langue préentraîné couvrant la langue bodo
- Rareté des données annotées (corpus annoté d'environ 30k phrases seulement)
- Complexité des caractéristiques linguistiques (famille sino-tibétaine, morphologie riche)
- Statut linguistique : Le bodo est l'une des 22 langues officielles de l'Inde, langue officielle de la région territoriale de Bodoland
- Besoins applicatifs : 1,5 million de locuteurs ont besoin d'outils TAL correspondants
- Valeur académique : Combler les lacunes dans la recherche TAL pour les langues à ressources limitées
- Les tâches TAL fondamentales (analyse morphologique, analyse syntaxique de dépendance, identification de langue, etc.) n'ont pas encore été entreprises
- Aucun modèle de langue préentraîné disponible
- Absence d'outils TAL en aval basés sur l'apprentissage profond
- Premier modèle de langue bodo : Proposition de BodoBERT basé sur l'architecture BERT, le premier modèle de langue préentraîné spécialement entraîné pour la langue bodo
- Comparaison d'architectures multiples : Comparaison systématique de trois architectures d'étiquetage de séquences : CRF, Fine-tuning et BiLSTM-CRF
- Analyse de performance de modèles multilingues : Évaluation de la performance de plusieurs modèles de langue (FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL, etc.) sur la tâche d'étiquetage POS du bodo
- Méthode d'empilage de plongements : Proposition de deux méthodes d'empilage : Individual et Stacked, la méthode Stacked améliorant significativement les performances
- Ressources open-source : Publication du meilleur modèle d'étiquetage POS et du modèle BodoBERT
Entrée : Séquence de phrases en langue bodo
Sortie : Étiquette POS correspondant à chaque mot (34 étiquettes basées sur l'ensemble d'étiquettes BIS)
Contraintes : Utilisation du script Devanagari, conformité aux normes des langues indiennes (ensemble d'étiquettes BIS)
- Sources de données :
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Travaux de Narzary et al. (2022)
- Taille du corpus : 1,6M tokens, 191k phrases
- Couverture de domaines : Esthétique, commerce, médias grand public, technologie, sciences sociales et autres domaines multiples
- Architecture de base : Transformer bidirectionnel multicouche (basé sur le cadre BERT)
- Paramètres clés :
- 6 couches de blocs Transformer
- Dimension de la couche cachée : 768
- Nombre de têtes d'auto-attention : 6
- Nombre total de paramètres : environ 103M
- Taille du vocabulaire : 50 000 (tokeniseur WordPiece)
- Matériel : GPU Nvidia Tesla P100
- Nombre d'étapes d'entraînement : 300K étapes
- Longueur de séquence : 128
- Taille de lot : 64
- Optimiseur : Adam (taux d'apprentissage 2e-5, préchauffage des 3000 premières étapes)
- Durée d'entraînement : environ 7 jours
- Modèle CRF : Plongement BodoBERT + couche CRF
- Modèle Fine-tuning : Ajustement fin direct de BodoBERT pour l'étiquetage POS
- Modèle BiLSTM-CRF : Plongement BodoBERT + BiLSTM + couche CRF
- Méthode Individual : Utilisation indépendante de divers modèles de langue
- Méthode Stacked : Combinaison empilée de BodoBERT avec d'autres modèles de langue
- Adaptabilité linguistique : Premier modèle de langue spécialisé conçu pour les caractéristiques spécifiques de la langue bodo
- Fusion de modèles multiples : Comparaison systématique et fusion de plusieurs modèles préentraînés
- Transfert translinguistique : Exploitation des modèles hindi utilisant le même système d'écriture (Devanagari) pour le transfert de connaissances
- Stratégie d'empilage : Combinaison innovante d'un modèle de langue spécialisé avec des modèles génériques
- Corpus annoté : Bodo Monolingual Text Corpus (ILCI-II)
- Taille des données :
- Ensemble d'entraînement : 24 003 phrases, 192k tokens
- Ensemble de validation : 2 325 phrases, 23k tokens
- Ensemble de test : 3 161 phrases, 23k tokens
- Système d'étiquettes : Ensemble d'étiquettes BIS, 11 catégories de haut niveau, 34 étiquettes spécifiques
- Format des données : Format CoNLL-2003
- Métrique principale : Score F1 (Micro)
- Métriques auxiliaires : Score F1 (Pondéré), Précision, Rappel
- Analyse au niveau des étiquettes : Performance détaillée pour chaque étiquette POS
| Modèle | Corpus d'entraînement | Volume de données |
|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | Corpus bodo | 1,6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1,7B |
| IndicBERT | Web scraping | 1,84B |
- CRF vs Fine-tuning vs BiLSTM-CRF
- Méthodes d'empilage Individual vs Stacked
- Cadre : Flair framework
- Taille de lot : 32
- Stratégie d'arrêt anticipé : Arrêt lorsque la performance sur l'ensemble de validation n'améliore pas
- Planification du taux d'apprentissage : Learning Rate Annealing
| Méthode d'empilage | Modèle d'étiquetage | Score F1(Micro) | Score F1(Pondéré) |
|---|
| BodoBERT | CRF | 0,7583 | 0,7454 |
| BodoBERT | BERT Fine-tuned | 0,7754 | 0,7775 |
| BodoBERT | BiLSTM + CRF | 0,7949 | 0,7898 |
| Modèle d'empilage | F1 Bodo | F1 Assamese |
|---|
| FastText | 0,7686 | 0,6981 |
| BytePair | 0,7669 | 0,7099 |
| BodoBERT | 0,7949 | 0,7033 |
| FlairEmbeddings | 0,7885 | 0,7076 |
| MuRIL | 0,7708 | 0,7286 |
| XLM-R | 0,7638 | 0,7001 |
| IndicBERT | 0,7235 | 0,7293 |
| Combinaison d'empilage | Score F1 |
|---|
| BodoBERT + FastText | 0,7928 |
| BodoBERT + BytePair | 0,8041 |
| BodoBERT + mBERT | 0,799 |
| BodoBERT + FlairEmbeddings | 0,801 |
| BodoBERT + MuRIL | 0,785 |
| BodoBERT + XLM-R | 0,8003 |
| BodoBERT + IndicBERT | 0,793 |
Par l'ajout de 10k phrases annotées automatiquement et corrigées manuellement :
- Amélioration de performance : Score F1 amélioré de 0,8041 à 0,8494 (+1-2%)
- Validation de l'extensibilité du modèle
Performance du meilleur modèle sur les principales étiquettes POS :
- V_VM (Verbe) : F1=0,9150 (le plus élevé)
- RD_PUNC (Ponctuation) : F1=0,9944 (quasi-parfait)
- N_NN (Nom) : F1=0,7628 (catégorie la plus grande)
- N_NNP (Nom propre) : F1=0,6946 (reconnaissance plus difficile)
Modèles d'erreurs principaux découverts par la matrice de confusion :
- Confusion intra-classe : Noms communs (N_NN) vs noms propres (N_NNP), noms de lieux (N_NST)
- Conversion de parties du discours : Difficultés d'étiquetage lorsque les noms sont utilisés comme adjectifs
- Limitations du système d'écriture : Le bodo manque d'identifiants de noms propres similaires aux majuscules de l'anglais
Comparaison des résultats d'étiquetage POS : Bodo vs Assamese
- Meilleur résultat Bodo : 0,8041 (BodoBERT+BytePair)
- Meilleur résultat Assamese : 0,7293 (IndicBERT)
- Raisons des différences : Complexité différente des ensembles d'étiquettes (34 étiquettes bodo vs 41 étiquettes assamese)
- Assamese : Pathak et al. (2022, 2023) - BiLSTM-CRF atteint 86,52% F1
- Khasi : Warjri et al. (2021) - 96,98% de précision
- Bengali : Alam et al. (2016) - 86,0% de précision, Kabir et al. (2016) - 93,33% de précision
- Mizo : Pandey et al. (2022) - LSTM atteint 81,86% de précision
- Caractère novateur : Premier étiqueteur POS basé sur réseau de neurones pour la langue bodo
- Approche systématique : Comparaison complète de plusieurs architectures et modèles de langue
- Utilité pratique : Fourniture de modèles et d'outils open-source
- Efficacité de BodoBERT : Le modèle de langue spécialisé affiche les meilleures performances sur les tâches en aval
- Avantages architecturaux : L'architecture BiLSTM-CRF surpasse CRF et Fine-tuning
- Efficacité de la stratégie d'empilage : Les plongements combinés offrent de meilleures performances que les plongements uniques
- Établissement de base de référence : Établissement d'une base de référence importante pour la recherche TAL en langue bodo
- Taille des données : Le corpus annoté est relativement petit (30k phrases)
- Données d'entraînement du modèle de langue : Le corpus d'entraînement de BodoBERT ne contient que 1,6M tokens
- Niveau de performance : Écart par rapport aux langues à ressources abondantes (F1=0,8041 vs 90%+)
- Qualité d'annotation : Certaines annotations peuvent nécessiter une correction supplémentaire
- Expansion du corpus : Collecte de plus de textes en langue bodo et de données annotées
- Amélioration du modèle : Optimisation de l'architecture BodoBERT et des stratégies d'entraînement
- Tâches en aval : Extension à d'autres tâches TAL telles que la reconnaissance d'entités nommées et l'analyse syntaxique
- Modélisation multilingue : Exploration de la modélisation conjointe avec les langues connexes
- Contribution pionnière : Construction pour la première fois d'un modèle de langue et d'un étiqueteur POS pour la langue bodo, comblant une lacune importante
- Recherche systématique : Comparaison complète de plusieurs méthodes, conception expérimentale raisonnée et complète
- Innovation technique : La stratégie d'empilage de plongements améliore efficacement les performances
- Valeur pratique : Publication open-source de modèles, fourniture d'outils fondamentaux à la communauté
- Perspectives translinguistiques : Analyse translinguistique précieuse fournie par la comparaison avec l'assamese
- Limitations des données : Taille relativement petite des données d'entraînement, pouvant affecter la capacité de généralisation du modèle
- Limitations d'évaluation : Absence de comparaison avec les méthodes traditionnelles (HMM, méthodes basées sur des règles)
- Profondeur d'analyse des erreurs : Analyse linguistique insuffisante des cas d'échec du modèle
- Ressources informatiques : Coût d'entraînement du modèle relativement élevé, pouvant limiter la reproductibilité
- Valeur académique : Fourniture d'un paradigme important pour la recherche TAL sur les langues à ressources limitées
- Signification pratique : Service direct aux besoins réels de la communauté linguistique bodo
- Contribution méthodologique : La stratégie d'empilage de plongements peut être généralisée à d'autres langues à ressources limitées
- Infrastructure de base : Fondation pour la recherche TAL ultérieure en langue bodo
- Application directe : Traitement de texte en langue bodo, extraction d'informations
- Base de recherche : Étape de prétraitement pour d'autres tâches TAL en langue bodo
- Transfert de méthode : Tâches d'étiquetage POS pour des langues à ressources limitées similaires
- Systèmes multilingues : Composant des systèmes TAL multilingues du nord-est de l'Inde
Cet article cite de nombreux travaux connexes, comprenant principalement :
- Articles connexes à BERT : Devlin et al. (2018) - Article BERT original
- Étiquetage de séquences : Huang et al. (2015) - Architecture BiLSTM-CRF
- Langues à ressources limitées : Plusieurs recherches TAL sur les langues régionales indiennes
- Modèles de langue : Articles originaux de divers modèles préentraînés
Évaluation globale : Cet article est une recherche TAL de haute qualité sur les langues à ressources limitées, avec des contributions importantes en termes d'innovation méthodologique, de conception expérimentale et de valeur pratique. Bien que limité par la taille des données, il ouvre une nouvelle direction pour la recherche TAL en langue bodo, possédant une valeur académique et sociale importante.