Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academicEtichettatore di Parti del Discorso per la Lingua Bodo Utilizzando un Approccio di Deep Learning
- ID Articolo: 2401.03175
- Titolo: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- Autori: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
- Istituzione: Centre for Linguistic Science and Technology, IIT Guwahati
- Classificazione: cs.CL cs.AI cs.LG
- Rivista di Pubblicazione: Natural Language Engineering (Accettato)
- Link Articolo: https://arxiv.org/abs/2401.03175
Questo studio conduce ricerche di elaborazione del linguaggio naturale sulla lingua Bodo (博多语), una lingua a basse risorse. Sebbene compiti di PNL come l'etichettatura delle parti del discorso, il riconoscimento di entità nominate e la traduzione automatica siano stati ampiamente studiati nelle lingue ad alte risorse, la ricerca su lingue a basse risorse come Bodo, Mizo e Nagamese è ancora in fase iniziale. L'articolo propone innanzitutto BodoBERT, un modello linguistico pre-addestrato, il primo per la lingua Bodo. In secondo luogo, sviluppa un modello di etichettatura POS integrato di deep learning basato sull'architettura BiLSTM-CRF e su embedding impilati di BodoBERT e BytePairEmbeddings. Il modello migliore ha raggiunto un punteggio F1 di 0,8041 nel compito di etichettatura POS per la lingua Bodo.
- Problema Centrale: La lingua Bodo, come lingua importante nel nord-est dell'India (1,5 milioni di parlanti, 20ª lingua più grande dell'India), manca di strumenti e risorse NLP fondamentali
- Sfide Tecniche:
- Assenza di modelli linguistici pre-addestrati per la lingua Bodo
- Scarsità di dati annotati (solo circa 30k frasi di corpus annotato)
- Caratteristiche linguistiche complesse (famiglia linguistica Tibeto-Birmana, morfologia ricca)
- Status Linguistico: Bodo è una delle 22 lingue ufficiali dell'India, lingua ufficiale della Bodoland Territorial Region
- Esigenze Applicative: 1,5 milioni di parlanti necessitano di strumenti NLP corrispondenti
- Valore Accademico: Colmare il vuoto nella ricerca NLP per lingue a basse risorse
- Compiti NLP fondamentali (analisi morfologica, analisi sintattica di dipendenza, identificazione della lingua, ecc.) non ancora affrontati
- Nessun modello linguistico pre-addestrato disponibile
- Mancanza di strumenti NLP downstream basati su deep learning
- Primo Modello Linguistico Bodo: Propone BodoBERT basato sull'architettura BERT, il primo modello linguistico pre-addestrato specificamente addestrato per la lingua Bodo
- Confronto di Architetture Multiple: Confronta sistematicamente tre architetture di etichettatura sequenziale: CRF, Fine-tuning e BiLSTM-CRF
- Analisi delle Prestazioni di Modelli Multilingui: Valuta le prestazioni di FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL e altri modelli linguistici nel compito di etichettatura POS per Bodo
- Metodo di Embedding Impilato: Propone due metodi di embedding: Individual e Stacked, con il metodo Stacked che migliora significativamente le prestazioni
- Risorse Open Source: Pubblica il miglior modello di etichettatura POS e il modello BodoBERT
Input: Sequenza di frasi in lingua Bodo
Output: Etichetta POS corrispondente per ogni parola (34 etichette basate sul tagset BIS)
Vincoli: Utilizza lo script Devanagari, conforme agli standard delle lingue indiane (BIS tagset)
- Fonti Dati:
- Linguistic Data Consortium for Indian Languages (LDC-IL)
- Lavoro di Narzary et al. (2022)
- Dimensione del Corpus: 1,6M token, 191k frasi
- Copertura Tematica: Estetica, affari, media di massa, tecnologia, scienze sociali e altri domini
- Architettura di Base: Transformer bidirezionale multistrato (basato sul framework BERT)
- Parametri Chiave:
- 6 blocchi Transformer
- Dimensione dello strato nascosto: 768
- Numero di teste di auto-attenzione: 6
- Numero totale di parametri: circa 103M
- Dimensione del vocabolario: 50.000 (tokenizer WordPiece)
- Hardware: GPU Nvidia Tesla P100
- Passi di Addestramento: 300K step
- Lunghezza della Sequenza: 128
- Dimensione del Batch: 64
- Ottimizzatore: Adam (tasso di apprendimento 2e-5, warm-up per i primi 3000 step)
- Tempo di Addestramento: circa 7 giorni
- Modello CRF: Embedding BodoBERT + strato CRF
- Modello Fine-tuning: Fine-tuning diretto di BodoBERT per l'etichettatura POS
- Modello BiLSTM-CRF: Embedding BodoBERT + BiLSTM + strato CRF
- Metodo Individual: Utilizzo separato di vari modelli linguistici
- Metodo Stacked: Combinazione e impilamento di BodoBERT con altri modelli linguistici
- Adattabilità Linguistica: Primo modello linguistico specializzato progettato per le caratteristiche della lingua Bodo
- Fusione di Modelli Multipli: Confronto e fusione sistematici di molteplici modelli pre-addestrati
- Trasferimento Interlingua: Sfruttamento della conoscenza da modelli Hindi che utilizzano lo stesso sistema di scrittura (Devanagari)
- Strategia di Impilamento: Combinazione innovativa di modelli linguistici specializzati con modelli generici
- Corpus Annotato: Bodo Monolingual Text Corpus (ILCI-II)
- Dimensione dei Dati:
- Set di Addestramento: 24.003 frasi, 192k token
- Set di Validazione: 2.325 frasi, 23k token
- Set di Test: 3.161 frasi, 23k token
- Sistema di Etichette: Tagset BIS, 11 categorie di livello superiore, 34 etichette specifiche
- Formato Dati: Formato CoNLL-2003
- Metrica Principale: F1-score (Micro)
- Metriche Ausiliarie: F1-score (Weighted), Precision, Recall
- Analisi a Livello di Etichetta: Prestazioni dettagliate per ogni etichetta POS
| Modello | Corpus di Addestramento | Volume Dati |
|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | Corpus Bodo | 1,6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1,7B |
| IndicBERT | Scraping | 1,84B |
- CRF vs Fine-tuning vs BiLSTM-CRF
- Metodi di embedding Individual vs Stacked
- Framework: Framework Flair
- Dimensione del Batch: 32
- Strategia di Early Stopping: Arresto quando le prestazioni sul set di validazione non migliorano
- Pianificazione del Tasso di Apprendimento: Learning Rate Annealing
| Metodo di Embedding | Modello di Etichettatura | F1-score(Micro) | F1-score(Weighted) |
|---|
| BodoBERT | CRF | 0,7583 | 0,7454 |
| BodoBERT | BERT Fine-tuned | 0,7754 | 0,7775 |
| BodoBERT | BiLSTM + CRF | 0,7949 | 0,7898 |
| Modello di Embedding | F1 Bodo | F1 Assamese |
|---|
| FastText | 0,7686 | 0,6981 |
| BytePair | 0,7669 | 0,7099 |
| BodoBERT | 0,7949 | 0,7033 |
| FlairEmbeddings | 0,7885 | 0,7076 |
| MuRIL | 0,7708 | 0,7286 |
| XLM-R | 0,7638 | 0,7001 |
| IndicBERT | 0,7235 | 0,7293 |
| Combinazione di Embedding Impilato | F1 Score |
|---|
| BodoBERT + FastText | 0,7928 |
| BodoBERT + BytePair | 0,8041 |
| BodoBERT + mBERT | 0,799 |
| BodoBERT + FlairEmbeddings | 0,801 |
| BodoBERT + MuRIL | 0,785 |
| BodoBERT + XLM-R | 0,8003 |
| BodoBERT + IndicBERT | 0,793 |
Mediante l'aggiunta di 10k frasi annotate automaticamente + corrette manualmente:
- Miglioramento delle Prestazioni: F1 da 0,8041 a 0,8494 (+1-2%)
- Convalida della Scalabilità del Modello
Prestazioni del modello migliore sulle etichette POS principali:
- V_VM (Verbo): F1=0,9150 (massimo)
- RD_PUNC (Punteggiatura): F1=0,9944 (quasi perfetto)
- N_NN (Nome): F1=0,7628 (categoria più grande)
- N_NNP (Nome Proprio): F1=0,6946 (più difficile da riconoscere)
Modelli di errore principali scoperti attraverso la matrice di confusione:
- Confusione Intra-classe: Nome comune (N_NN) con nome proprio (N_NNP), nome di luogo (N_NST)
- Conversione di Parti del Discorso: Difficoltà di etichettatura quando i nomi sono utilizzati come aggettivi
- Limitazioni del Sistema di Scrittura: Bodo manca di identificatori di nomi propri simili alle lettere maiuscole dell'inglese
Confronto dei risultati di etichettatura POS Bodo vs Assamese:
- Massimo Bodo: 0,8041 (BodoBERT+BytePair)
- Massimo Assamese: 0,7293 (IndicBERT)
- Motivi della Differenza: Diversa complessità del tagset (34 etichette Bodo vs 41 etichette Assamese)
- Assamese: Pathak et al. (2022, 2023) - BiLSTM-CRF raggiunge 86,52% F1
- Khasi: Warjri et al. (2021) - 96,98% accuratezza
- Bengali: Alam et al. (2016) - 86,0% accuratezza, Kabir et al. (2016) - 93,33% accuratezza
- Mizo: Pandey et al. (2022) - LSTM raggiunge 81,86% accuratezza
- Originalità: Primo etichettatore POS basato su reti neurali per la lingua Bodo
- Sistematicità: Confronto completo di molteplici architetture e modelli linguistici
- Praticità: Fornisce modelli e strumenti open source
- Efficacia di BodoBERT: Il modello linguistico specializzato mostra le migliori prestazioni nei compiti downstream
- Vantaggio dell'Architettura: L'architettura BiLSTM-CRF supera CRF e Fine-tuning
- Efficacia della Strategia di Impilamento: L'embedding combinato mostra prestazioni migliori rispetto all'embedding singolo
- Stabilimento della Baseline: Stabilisce una baseline importante per la ricerca NLP della lingua Bodo
- Dimensione dei Dati: Il corpus annotato è relativamente piccolo (30k frasi)
- Dati di Addestramento del Modello Linguistico: Il corpus di addestramento di BodoBERT contiene solo 1,6M token
- Livello di Prestazione: Ancora inferiore rispetto alle lingue ad alte risorse (F1=0,8041 vs 90%+)
- Qualità dell'Annotazione: Alcune annotazioni potrebbero richiedere ulteriore correzione
- Espansione del Corpus: Raccogliere più testi e dati annotati della lingua Bodo
- Miglioramento del Modello: Ottimizzare l'architettura di BodoBERT e le strategie di addestramento
- Compiti Downstream: Estendere a altri compiti NLP come NER e analisi sintattica
- Modellazione Multilingue: Esplorare la modellazione congiunta con lingue correlate
- Contributo Pioneristico: Prima costruzione di un modello linguistico e etichettatore POS per la lingua Bodo, colmando un vuoto importante
- Ricerca Sistematica: Confronto completo di molteplici metodi, design sperimentale ragionevole e completo
- Innovazione Tecnica: La strategia di embedding impilato migliora efficacemente le prestazioni
- Valore Pratico: Pubblicazione open source del modello, fornendo strumenti fondamentali alla comunità
- Intuizioni Interlingua: Il confronto con l'Assamese fornisce analisi interlingua preziose
- Limitazioni dei Dati: La dimensione dei dati di addestramento è relativamente piccola, potrebbe influenzare la capacità di generalizzazione del modello
- Limitazioni della Valutazione: Mancanza di confronto con metodi tradizionali (come HMM, metodi basati su regole)
- Profondità dell'Analisi degli Errori: L'analisi linguistica dei casi di fallimento del modello non è sufficientemente approfondita
- Risorse Computazionali: Il costo di addestramento del modello è relativamente alto, potrebbe limitare la riproducibilità
- Valore Accademico: Fornisce un paradigma importante per la ricerca NLP su lingue a basse risorse
- Significato Pratico: Serve direttamente le esigenze effettive della comunità linguistica Bodo
- Contributo Metodologico: La strategia di embedding impilato può essere generalizzata ad altre lingue a basse risorse
- Infrastruttura di Base: Pone le fondamenta per la ricerca NLP successiva della lingua Bodo
- Applicazione Diretta: Elaborazione di testi in lingua Bodo, estrazione di informazioni
- Base di Ricerca: Fase di pre-elaborazione per altri compiti NLP della lingua Bodo
- Trasferimento di Metodi: Compiti di etichettatura POS per lingue a basse risorse simili
- Sistemi Multilingui: Componente di sistemi NLP multilingui del nord-est dell'India
Questo articolo cita lavori correlati ricchi, principalmente includenti:
- Articoli correlati a BERT: Devlin et al. (2018) - Articolo BERT originale
- Etichettatura Sequenziale: Huang et al. (2015) - Architettura BiLSTM-CRF
- Lingue a Basse Risorse: Molteplici ricerche NLP su lingue locali indiane
- Modelli Linguistici: Articoli originali di vari modelli pre-addestrati
Valutazione Complessiva: Questo è un articolo di ricerca NLP di alta qualità per lingue a basse risorse, con importanti contributi nell'innovazione metodologica, nel design sperimentale e nel valore pratico. Sebbene limitato dalla dimensione dei dati, ha aperto una nuova direzione per la ricerca NLP della lingua Bodo, con importante valore accademico e sociale.