Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academic- पेपर ID: 2401.03175
- शीर्षक: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
- लेखक: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
- संस्थान: भाषाई विज्ञान और प्रौद्योगिकी केंद्र, IIT गुवाहाटी
- वर्गीकरण: cs.CL cs.AI cs.LG
- प्रकाशन पत्रिका: Natural Language Engineering (स्वीकृत)
- पेपर लिंक: https://arxiv.org/abs/2401.03175
यह अनुसंधान निम्न-संसाधन भाषा बोडो (बोडो भाषा) पर प्राकृतिक भाषा प्रसंस्करण अनुसंधान करता है। यद्यपि भाषा के भाग (POS) टैगिंग, नामित इकाई पहचान, मशीन अनुवाद आदि NLP कार्य उच्च-संसाधन भाषाओं पर व्यापक रूप से अध्ययन किए गए हैं, बोडो, मिजो, नागामीज़ जैसी निम्न-संसाधन भाषाओं पर अनुसंधान अभी प्रारंभिक चरण में है। यह पेपर पहले BodoBERT भाषा मॉडल प्रस्तावित करता है, जो बोडो भाषा के लिए पहला पूर्व-प्रशिक्षित भाषा मॉडल है। दूसरा, BiLSTM-CRF आर्किटेक्चर और BodoBERT के साथ BytePairEmbeddings के स्टैक्ड एम्बेडिंग के आधार पर, एकीकृत गहन शिक्षण POS टैगिंग मॉडल विकसित किया गया। सर्वश्रेष्ठ मॉडल ने बोडो भाषा POS टैगिंग कार्य पर 0.8041 का F1 स्कोर प्राप्त किया।
- मुख्य समस्या: बोडो भाषा भारत के पूर्वोत्तर क्षेत्र की एक महत्वपूर्ण भाषा है (15 लाख उपयोगकर्ता, भारत की 20वीं सबसे बड़ी भाषा), जिसमें बुनियादी NLP उपकरण और संसाधनों की कमी है
- तकनीकी चुनौतियाँ:
- बोडो भाषा को कवर करने वाले पूर्व-प्रशिक्षित भाषा मॉडल की कमी
- टैग किए गए डेटा की कमी (केवल ~30k वाक्यों का टैग किया गया कॉर्पस)
- जटिल भाषा विशेषताएं (तिब्बती-बर्मन भाषा परिवार, समृद्ध आकृति विज्ञान)
- भाषा स्थिति: बोडो भारत की 22 आधिकारिक भाषाओं में से एक है, बोडोलैंड क्षेत्रीय क्षेत्र की आधिकारिक भाषा
- आवेदन आवश्यकता: 15 लाख उपयोगकर्ताओं को संबंधित NLP उपकरण समर्थन की तत्काल आवश्यकता है
- शैक्षणिक मूल्य: निम्न-संसाधन भाषा NLP अनुसंधान में अंतराल को भरना
- बुनियादी NLP कार्य (शब्द विश्लेषण, निर्भरता वाक्य विश्लेषण, भाषा पहचान आदि) अभी तक शुरू नहीं हुए हैं
- कोई उपलब्ध पूर्व-प्रशिक्षित भाषा मॉडल नहीं
- गहन शिक्षण-आधारित डाउनस्ट्रीम NLP उपकरणों की कमी
- पहला बोडो भाषा मॉडल: BERT आर्किटेक्चर के आधार पर BodoBERT प्रस्तावित किया गया, जो बोडो भाषा के लिए विशेष रूप से प्रशिक्षित पहला पूर्व-प्रशिक्षित भाषा मॉडल है
- बहु-आर्किटेक्चर POS टैगर तुलना: CRF, Fine-tuning, BiLSTM-CRF तीन अनुक्रम टैगिंग आर्किटेक्चर की व्यवस्थित तुलना
- बहु-भाषा मॉडल प्रदर्शन विश्लेषण: FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL आदि कई भाषा मॉडलों का बोडो POS टैगिंग कार्य पर मूल्यांकन
- स्टैक्ड एम्बेडिंग विधि: Individual और Stacked दो एम्बेडिंग विधियां प्रस्तावित की गई हैं, Stacked विधि प्रदर्शन में महत्वपूर्ण सुधार करती है
- ओपन-सोर्स संसाधन: सर्वश्रेष्ठ POS टैगिंग मॉडल और BodoBERT मॉडल सार्वजनिक रूप से जारी किए गए हैं
इनपुट: बोडो भाषा वाक्य अनुक्रम
आउटपुट: प्रत्येक शब्द के लिए संबंधित POS लेबल (BIS टैगसेट के आधार पर 34 लेबल)
बाधा: Devanagari लिपि का उपयोग, भारतीय भाषा मानक (BIS tagset) का पालन
- डेटा स्रोत:
- भारतीय भाषाओं के लिए भाषाई डेटा कंसोर्टियम (LDC-IL)
- Narzary et al. (2022) का कार्य
- कॉर्पस आकार: 1.6M tokens, 191k वाक्य
- डोमेन कवरेज: सौंदर्यशास्त्र, व्यावसायिक, जनमाध्यम, प्रौद्योगिकी, सामाजिक विज्ञान आदि कई डोमेन
- मूल आर्किटेक्चर: बहु-परत द्विदिशात्मक Transformer (BERT फ्रेमवर्क के आधार पर)
- मुख्य पैरामीटर:
- 6 Transformer ब्लॉक
- छिपी परत आयाम: 768
- स्व-ध्यान सिर संख्या: 6
- कुल पैरामीटर: ~103M
- शब्दावली तालिका आकार: 50,000 (WordPiece tokenizer)
- हार्डवेयर: Nvidia Tesla P100 GPU
- प्रशिक्षण चरण: 300K steps
- अनुक्रम लंबाई: 128
- बैच आकार: 64
- अनुकूलक: Adam (सीखने की दर 2e-5, पहले 3000 चरणों में warm-up)
- प्रशिक्षण समय: ~7 दिन
- CRF मॉडल: BodoBERT एम्बेडिंग + CRF परत का उपयोग
- Fine-tuning मॉडल: POS टैगिंग के लिए सीधे BodoBERT को सूक्ष्म-समायोजित करना
- BiLSTM-CRF मॉडल: BodoBERT एम्बेडिंग + BiLSTM + CRF परत
- Individual विधि: विभिन्न भाषा मॉडलों का अलग से उपयोग
- Stacked विधि: BodoBERT को अन्य भाषा मॉडलों के साथ स्टैक करना
- भाषा अनुकूलन: बोडो भाषा की विशेषताओं के लिए डिज़ाइन किया गया पहला विशेष भाषा मॉडल
- बहु-मॉडल संलयन: कई पूर्व-प्रशिक्षित मॉडलों की व्यवस्थित तुलना और संलयन
- क्रॉस-भाषा स्थानांतरण: समान लेखन प्रणाली (Devanagari) वाली Hindi मॉडलों से ज्ञान स्थानांतरण का लाभ उठाना
- स्टैकिंग रणनीति: विशेष भाषा मॉडलों को सामान्य मॉडलों के साथ संयोजित करने का नवीन तरीका
- टैग किया गया कॉर्पस: बोडो मोनोलिंगुअल टेक्स्ट कॉर्पस (ILCI-II)
- डेटा आकार:
- प्रशिक्षण सेट: 24,003 वाक्य, 192k tokens
- सत्यापन सेट: 2,325 वाक्य, 23k tokens
- परीक्षण सेट: 3,161 वाक्य, 23k tokens
- लेबल प्रणाली: BIS टैगसेट, 11 शीर्ष-स्तरीय श्रेणियां, 34 विशिष्ट लेबल
- डेटा प्रारूप: CoNLL-2003 प्रारूप
- मुख्य मेट्रिक: F1-score (Micro)
- सहायक मेट्रिक्स: F1-score (Weighted), Precision, Recall
- लेबल-स्तरीय विश्लेषण: प्रत्येक POS लेबल का विस्तृत प्रदर्शन
| मॉडल | प्रशिक्षण कॉर्पस | डेटा आकार |
|---|
| FastText | Wiki | <29M |
| BytePair | Wiki | 29M |
| BodoBERT | Bodo corpus | 1.6M |
| FlairEmbeddings | Wiki+OPUS | ≈29M |
| MuRIL | CommonCrawl+Wiki | 788M |
| XLM-R | CC-100 | 1.7B |
| IndicBERT | Scraping | 1.84B |
- CRF vs Fine-tuning vs BiLSTM-CRF
- Individual vs Stacked embedding methods
- फ्रेमवर्क: Flair framework
- बैच आकार: 32
- प्रारंभिक रोक रणनीति: सत्यापन सेट प्रदर्शन में सुधार न होने पर रोकना
- सीखने की दर अनुसूची: Learning Rate Annealing
| एम्बेडिंग विधि | टैगिंग मॉडल | F1-score(Micro) | F1-score(Weighted) |
|---|
| BodoBERT | CRF | 0.7583 | 0.7454 |
| BodoBERT | Fine-tuned BERT | 0.7754 | 0.7775 |
| BodoBERT | BiLSTM + CRF | 0.7949 | 0.7898 |
| एम्बेडिंग मॉडल | बोडो F1 | असमिया F1 |
|---|
| FastText | 0.7686 | 0.6981 |
| BytePair | 0.7669 | 0.7099 |
| BodoBERT | 0.7949 | 0.7033 |
| FlairEmbeddings | 0.7885 | 0.7076 |
| MuRIL | 0.7708 | 0.7286 |
| XLM-R | 0.7638 | 0.7001 |
| IndicBERT | 0.7235 | 0.7293 |
| स्टैक्ड एम्बेडिंग संयोजन | F1 स्कोर |
|---|
| BodoBERT + FastText | 0.7928 |
| BodoBERT + BytePair | 0.8041 |
| BodoBERT + mBERT | 0.799 |
| BodoBERT + FlairEmbeddings | 0.801 |
| BodoBERT + MuRIL | 0.785 |
| BodoBERT + XLM-R | 0.8003 |
| BodoBERT + IndicBERT | 0.793 |
10k स्वचालित टैग किए गए + मानव-सुधारे गए वाक्यों को जोड़ने के माध्यम से:
- प्रदर्शन सुधार: F1 0.8041 से 0.8494 तक बढ़ा (+1-2%)
- मॉडल की स्केलेबिलिटी को सत्यापित किया
सर्वश्रेष्ठ मॉडल के मुख्य POS लेबलों पर प्रदर्शन:
- V_VM (क्रिया): F1=0.9150 (सर्वोच्च)
- RD_PUNC (विराम चिह्न): F1=0.9944 (लगभग पूर्ण)
- N_NN (संज्ञा): F1=0.7628 (सबसे बड़ी श्रेणी)
- N_NNP (व्यक्तिनाम): F1=0.6946 (पहचान में अधिक कठिन)
भ्रम मैट्रिक्स के माध्यम से खोजे गए मुख्य त्रुटि पैटर्न:
- वर्ग-अंतर्गत भ्रम: सामान्य संज्ञा (N_NN) और व्यक्तिनाम (N_NNP), स्थान संज्ञा (N_NST) के साथ
- भाषा के भाग रूपांतरण: संज्ञा को विशेषण के रूप में उपयोग करते समय टैगिंग कठिनाई
- लेखन प्रणाली सीमाएं: बोडो में अंग्रेजी की बड़ी अक्षरों जैसी व्यक्तिनाम पहचान की कमी
बोडो बनाम असमिया POS टैगिंग परिणाम तुलना:
- बोडो सर्वोच्च: 0.8041 (BodoBERT+BytePair)
- असमिया सर्वोच्च: 0.7293 (IndicBERT)
- अंतर कारण: लेबल सेट जटिलता में अंतर (बोडो 34 लेबल बनाम असमिया 41 लेबल)
- असमिया: Pathak et al. (2022, 2023) - BiLSTM-CRF 86.52% F1 प्राप्त
- खासी: Warjri et al. (2021) - 96.98% सटीकता
- बंगाली: Alam et al. (2016) - 86.0% सटीकता, Kabir et al. (2016) - 93.33% सटीकता
- मिजो: Pandey et al. (2022) - LSTM 81.86% सटीकता प्राप्त
- पहली बार: बोडो भाषा का पहला तंत्रिका नेटवर्क POS टैगर
- व्यवस्थितता: कई आर्किटेक्चर और भाषा मॉडलों की व्यापक तुलना
- व्यावहारिकता: ओपन-सोर्स मॉडल और उपकरण प्रदान करना
- BodoBERT प्रभावशीलता: विशेष भाषा मॉडल डाउनस्ट्रीम कार्यों में सर्वश्रेष्ठ प्रदर्शन करता है
- आर्किटेक्चर लाभ: BiLSTM-CRF आर्किटेक्चर CRF और Fine-tuning से बेहतर है
- स्टैकिंग रणनीति प्रभावी: संयुक्त एम्बेडिंग एकल एम्बेडिंग से बेहतर प्रदर्शन करता है
- आधारभूत स्थापना: बोडो भाषा NLP अनुसंधान के लिए महत्वपूर्ण आधारभूत स्थापना
- डेटा आकार: टैग किया गया कॉर्पस अपेक्षाकृत छोटा है (30k वाक्य)
- भाषा मॉडल प्रशिक्षण डेटा: BodoBERT प्रशिक्षण कॉर्पस केवल 1.6M tokens है
- प्रदर्शन स्तर: उच्च-संसाधन भाषाओं की तुलना में अभी भी अंतराल है (F1=0.8041 बनाम 90%+)
- टैगिंग गुणवत्ता: कुछ टैगिंग को आगे सुधार की आवश्यकता हो सकती है
- कॉर्पस विस्तार: अधिक बोडो भाषा पाठ और टैग किए गए डेटा एकत्र करना
- मॉडल सुधार: BodoBERT आर्किटेक्चर और प्रशिक्षण रणनीति को अनुकूलित करना
- डाउनस्ट्रीम कार्य: NER, वाक्य विश्लेषण आदि अन्य NLP कार्यों तक विस्तार
- बहु-भाषा मॉडलिंग: संबंधित भाषाओं के साथ संयुक्त मॉडलिंग की खोज
- अग्रणी योगदान: बोडो भाषा के लिए पहली बार भाषा मॉडल और POS टैगर का निर्माण, महत्वपूर्ण अंतराल को भरना
- व्यवस्थित अनुसंधान: कई विधियों की व्यापक तुलना, तर्कसंगत और पूर्ण प्रयोगात्मक डिज़ाइन
- तकनीकी नवाचार: स्टैक्ड एम्बेडिंग रणनीति प्रदर्शन में प्रभावी सुधार करती है
- व्यावहारिक मूल्य: मॉडल को ओपन-सोर्स करना, समुदाय को बुनियादी उपकरण प्रदान करना
- क्रॉस-भाषा अंतर्दृष्टि: असमिया के साथ तुलना के माध्यम से मूल्यवान क्रॉस-भाषा विश्लेषण प्रदान करना
- डेटा सीमाएं: प्रशिक्षण डेटा आकार अपेक्षाकृत छोटा है, मॉडल सामान्यीकरण क्षमता को प्रभावित कर सकता है
- मूल्यांकन सीमाएं: पारंपरिक विधियों (जैसे HMM, नियम-आधारित विधियां) के साथ तुलना की कमी
- त्रुटि विश्लेषण गहराई: मॉडल विफलता मामलों का भाषाई विश्लेषण पर्याप्त गहरा नहीं है
- कम्प्यूटेशनल संसाधन: मॉडल प्रशिक्षण लागत अधिक है, पुनरुत्पादन क्षमता को सीमित कर सकता है
- शैक्षणिक मूल्य: निम्न-संसाधन भाषा NLP अनुसंधान के लिए महत्वपूर्ण प्रतिमान प्रदान करना
- व्यावहारिक महत्व: बोडो भाषा समुदाय की वास्तविक आवश्यकताओं को सीधे सेवा प्रदान करना
- पद्धति योगदान: स्टैक्ड एम्बेडिंग रणनीति अन्य निम्न-संसाधन भाषाओं तक विस्तारित की जा सकती है
- बुनियादी ढांचा: बाद के बोडो भाषा NLP अनुसंधान के लिए आधार स्थापित करना
- सीधा आवेदन: बोडो भाषा पाठ प्रसंस्करण, सूचना निष्कर्षण
- अनुसंधान आधार: बोडो भाषा के अन्य NLP कार्यों के लिए पूर्व-प्रसंस्करण चरण
- विधि स्थानांतरण: समान निम्न-संसाधन भाषाओं की POS टैगिंग कार्यों के लिए
- बहु-भाषा प्रणाली: भारत के पूर्वोत्तर बहु-भाषा NLP प्रणाली के घटक
यह पेपर समृद्ध संबंधित कार्यों का हवाला देता है, मुख्य रूप से:
- BERT संबंधित: Devlin et al. (2018) - मूल BERT पेपर
- अनुक्रम टैगिंग: Huang et al. (2015) - BiLSTM-CRF आर्किटेक्चर
- निम्न-संसाधन भाषा: भारतीय स्थानीय भाषा NLP अनुसंधान के कई आइटम
- भाषा मॉडल: विभिन्न पूर्व-प्रशिक्षित मॉडलों के मूल पेपर
समग्र मूल्यांकन: यह निम्न-संसाधन भाषा NLP अनुसंधान का एक उच्च-गुणवत्ता वाला पेपर है, जो विधि नवाचार, प्रयोगात्मक डिज़ाइन और व्यावहारिक मूल्य के संदर्भ में महत्वपूर्ण योगदान करता है। यद्यपि डेटा आकार से सीमित है, लेकिन यह बोडो भाषा NLP अनुसंधान के लिए एक नई दिशा खोलता है, जिसका महत्वपूर्ण शैक्षणिक और सामाजिक मूल्य है।