2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.

Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.

academic

बोडो भाषा के लिए गहन शिक्षण दृष्टिकोण का उपयोग करते हुए भाषा के भाग टैगर

मूल जानकारी

पेपर ID: 2401.03175
शीर्षक: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
लेखक: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
संस्थान: भाषाई विज्ञान और प्रौद्योगिकी केंद्र, IIT गुवाहाटी
वर्गीकरण: cs.CL cs.AI cs.LG
प्रकाशन पत्रिका: Natural Language Engineering (स्वीकृत)
पेपर लिंक: https://arxiv.org/abs/2401.03175

सारांश

यह अनुसंधान निम्न-संसाधन भाषा बोडो (बोडो भाषा) पर प्राकृतिक भाषा प्रसंस्करण अनुसंधान करता है। यद्यपि भाषा के भाग (POS) टैगिंग, नामित इकाई पहचान, मशीन अनुवाद आदि NLP कार्य उच्च-संसाधन भाषाओं पर व्यापक रूप से अध्ययन किए गए हैं, बोडो, मिजो, नागामीज़ जैसी निम्न-संसाधन भाषाओं पर अनुसंधान अभी प्रारंभिक चरण में है। यह पेपर पहले BodoBERT भाषा मॉडल प्रस्तावित करता है, जो बोडो भाषा के लिए पहला पूर्व-प्रशिक्षित भाषा मॉडल है। दूसरा, BiLSTM-CRF आर्किटेक्चर और BodoBERT के साथ BytePairEmbeddings के स्टैक्ड एम्बेडिंग के आधार पर, एकीकृत गहन शिक्षण POS टैगिंग मॉडल विकसित किया गया। सर्वश्रेष्ठ मॉडल ने बोडो भाषा POS टैगिंग कार्य पर 0.8041 का F1 स्कोर प्राप्त किया।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मुख्य समस्या: बोडो भाषा भारत के पूर्वोत्तर क्षेत्र की एक महत्वपूर्ण भाषा है (15 लाख उपयोगकर्ता, भारत की 20वीं सबसे बड़ी भाषा), जिसमें बुनियादी NLP उपकरण और संसाधनों की कमी है
तकनीकी चुनौतियाँ:
- बोडो भाषा को कवर करने वाले पूर्व-प्रशिक्षित भाषा मॉडल की कमी
- टैग किए गए डेटा की कमी (केवल ~30k वाक्यों का टैग किया गया कॉर्पस)
- जटिल भाषा विशेषताएं (तिब्बती-बर्मन भाषा परिवार, समृद्ध आकृति विज्ञान)

महत्व विश्लेषण

भाषा स्थिति: बोडो भारत की 22 आधिकारिक भाषाओं में से एक है, बोडोलैंड क्षेत्रीय क्षेत्र की आधिकारिक भाषा
आवेदन आवश्यकता: 15 लाख उपयोगकर्ताओं को संबंधित NLP उपकरण समर्थन की तत्काल आवश्यकता है
शैक्षणिक मूल्य: निम्न-संसाधन भाषा NLP अनुसंधान में अंतराल को भरना

मौजूदा सीमाएं

बुनियादी NLP कार्य (शब्द विश्लेषण, निर्भरता वाक्य विश्लेषण, भाषा पहचान आदि) अभी तक शुरू नहीं हुए हैं
कोई उपलब्ध पूर्व-प्रशिक्षित भाषा मॉडल नहीं
गहन शिक्षण-आधारित डाउनस्ट्रीम NLP उपकरणों की कमी

मुख्य योगदान

पहला बोडो भाषा मॉडल: BERT आर्किटेक्चर के आधार पर BodoBERT प्रस्तावित किया गया, जो बोडो भाषा के लिए विशेष रूप से प्रशिक्षित पहला पूर्व-प्रशिक्षित भाषा मॉडल है
बहु-आर्किटेक्चर POS टैगर तुलना: CRF, Fine-tuning, BiLSTM-CRF तीन अनुक्रम टैगिंग आर्किटेक्चर की व्यवस्थित तुलना
बहु-भाषा मॉडल प्रदर्शन विश्लेषण: FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL आदि कई भाषा मॉडलों का बोडो POS टैगिंग कार्य पर मूल्यांकन
स्टैक्ड एम्बेडिंग विधि: Individual और Stacked दो एम्बेडिंग विधियां प्रस्तावित की गई हैं, Stacked विधि प्रदर्शन में महत्वपूर्ण सुधार करती है
ओपन-सोर्स संसाधन: सर्वश्रेष्ठ POS टैगिंग मॉडल और BodoBERT मॉडल सार्वजनिक रूप से जारी किए गए हैं

विधि विवरण

कार्य परिभाषा

इनपुट: बोडो भाषा वाक्य अनुक्रम आउटपुट: प्रत्येक शब्द के लिए संबंधित POS लेबल (BIS टैगसेट के आधार पर 34 लेबल) बाधा: Devanagari लिपि का उपयोग, भारतीय भाषा मानक (BIS tagset) का पालन

BodoBERT भाषा मॉडल

कॉर्पस निर्माण

डेटा स्रोत:
- भारतीय भाषाओं के लिए भाषाई डेटा कंसोर्टियम (LDC-IL)
- Narzary et al. (2022) का कार्य
कॉर्पस आकार: 1.6M tokens, 191k वाक्य
डोमेन कवरेज: सौंदर्यशास्त्र, व्यावसायिक, जनमाध्यम, प्रौद्योगिकी, सामाजिक विज्ञान आदि कई डोमेन

मॉडल आर्किटेक्चर

मूल आर्किटेक्चर: बहु-परत द्विदिशात्मक Transformer (BERT फ्रेमवर्क के आधार पर)
मुख्य पैरामीटर:
- 6 Transformer ब्लॉक
- छिपी परत आयाम: 768
- स्व-ध्यान सिर संख्या: 6
- कुल पैरामीटर: ~103M
- शब्दावली तालिका आकार: 50,000 (WordPiece tokenizer)

प्रशिक्षण सेटिंग्स

हार्डवेयर: Nvidia Tesla P100 GPU
प्रशिक्षण चरण: 300K steps
अनुक्रम लंबाई: 128
बैच आकार: 64
अनुकूलक: Adam (सीखने की दर 2e-5, पहले 3000 चरणों में warm-up)
प्रशिक्षण समय: ~7 दिन

POS टैगिंग मॉडल आर्किटेक्चर

तीन अनुक्रम टैगिंग विधियां

CRF मॉडल: BodoBERT एम्बेडिंग + CRF परत का उपयोग
Fine-tuning मॉडल: POS टैगिंग के लिए सीधे BodoBERT को सूक्ष्म-समायोजित करना
BiLSTM-CRF मॉडल: BodoBERT एम्बेडिंग + BiLSTM + CRF परत

एम्बेडिंग विधियां

Individual विधि: विभिन्न भाषा मॉडलों का अलग से उपयोग
Stacked विधि: BodoBERT को अन्य भाषा मॉडलों के साथ स्टैक करना

तकनीकी नवाचार बिंदु

भाषा अनुकूलन: बोडो भाषा की विशेषताओं के लिए डिज़ाइन किया गया पहला विशेष भाषा मॉडल
बहु-मॉडल संलयन: कई पूर्व-प्रशिक्षित मॉडलों की व्यवस्थित तुलना और संलयन
क्रॉस-भाषा स्थानांतरण: समान लेखन प्रणाली (Devanagari) वाली Hindi मॉडलों से ज्ञान स्थानांतरण का लाभ उठाना
स्टैकिंग रणनीति: विशेष भाषा मॉडलों को सामान्य मॉडलों के साथ संयोजित करने का नवीन तरीका

प्रयोगात्मक सेटअप

डेटासेट

टैग किया गया कॉर्पस: बोडो मोनोलिंगुअल टेक्स्ट कॉर्पस (ILCI-II)
डेटा आकार:
- प्रशिक्षण सेट: 24,003 वाक्य, 192k tokens
- सत्यापन सेट: 2,325 वाक्य, 23k tokens
- परीक्षण सेट: 3,161 वाक्य, 23k tokens
लेबल प्रणाली: BIS टैगसेट, 11 शीर्ष-स्तरीय श्रेणियां, 34 विशिष्ट लेबल
डेटा प्रारूप: CoNLL-2003 प्रारूप

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक: F1-score (Micro)
सहायक मेट्रिक्स: F1-score (Weighted), Precision, Recall
लेबल-स्तरीय विश्लेषण: प्रत्येक POS लेबल का विस्तृत प्रदर्शन

तुलना विधियां

भाषा मॉडल तुलना

मॉडल	प्रशिक्षण कॉर्पस	डेटा आकार
FastText	Wiki	<29M
BytePair	Wiki	29M
BodoBERT	Bodo corpus	1.6M
FlairEmbeddings	Wiki+OPUS	≈29M
MuRIL	CommonCrawl+Wiki	788M
XLM-R	CC-100	1.7B
IndicBERT	Scraping	1.84B

आर्किटेक्चर तुलना

CRF vs Fine-tuning vs BiLSTM-CRF
Individual vs Stacked embedding methods

कार्यान्वयन विवरण

फ्रेमवर्क: Flair framework
बैच आकार: 32
प्रारंभिक रोक रणनीति: सत्यापन सेट प्रदर्शन में सुधार न होने पर रोकना
सीखने की दर अनुसूची: Learning Rate Annealing

प्रयोगात्मक परिणाम

मुख्य परिणाम

आर्किटेक्चर तुलना

एम्बेडिंग विधि	टैगिंग मॉडल	F1-score(Micro)	F1-score(Weighted)
BodoBERT	CRF	0.7583	0.7454
BodoBERT	Fine-tuned BERT	0.7754	0.7775
BodoBERT	BiLSTM + CRF	0.7949	0.7898

Individual विधि भाषा मॉडल तुलना

एम्बेडिंग मॉडल	बोडो F1	असमिया F1
FastText	0.7686	0.6981
BytePair	0.7669	0.7099
BodoBERT	0.7949	0.7033
FlairEmbeddings	0.7885	0.7076
MuRIL	0.7708	0.7286
XLM-R	0.7638	0.7001
IndicBERT	0.7235	0.7293

Stacked विधि परिणाम

स्टैक्ड एम्बेडिंग संयोजन	F1 स्कोर
BodoBERT + FastText	0.7928
BodoBERT + BytePair	0.8041
BodoBERT + mBERT	0.799
BodoBERT + FlairEmbeddings	0.801
BodoBERT + MuRIL	0.785
BodoBERT + XLM-R	0.8003
BodoBERT + IndicBERT	0.793

डेटा संवर्धन प्रयोग

10k स्वचालित टैग किए गए + मानव-सुधारे गए वाक्यों को जोड़ने के माध्यम से:

प्रदर्शन सुधार: F1 0.8041 से 0.8494 तक बढ़ा (+1-2%)
मॉडल की स्केलेबिलिटी को सत्यापित किया

लेबल-स्तरीय विश्लेषण

सर्वश्रेष्ठ मॉडल के मुख्य POS लेबलों पर प्रदर्शन:

V_VM (क्रिया): F1=0.9150 (सर्वोच्च)
RD_PUNC (विराम चिह्न): F1=0.9944 (लगभग पूर्ण)
N_NN (संज्ञा): F1=0.7628 (सबसे बड़ी श्रेणी)
N_NNP (व्यक्तिनाम): F1=0.6946 (पहचान में अधिक कठिन)

त्रुटि विश्लेषण

भ्रम मैट्रिक्स के माध्यम से खोजे गए मुख्य त्रुटि पैटर्न:

वर्ग-अंतर्गत भ्रम: सामान्य संज्ञा (N_NN) और व्यक्तिनाम (N_NNP), स्थान संज्ञा (N_NST) के साथ
भाषा के भाग रूपांतरण: संज्ञा को विशेषण के रूप में उपयोग करते समय टैगिंग कठिनाई
लेखन प्रणाली सीमाएं: बोडो में अंग्रेजी की बड़ी अक्षरों जैसी व्यक्तिनाम पहचान की कमी

क्रॉस-भाषा तुलना

बोडो बनाम असमिया POS टैगिंग परिणाम तुलना:

बोडो सर्वोच्च: 0.8041 (BodoBERT+BytePair)
असमिया सर्वोच्च: 0.7293 (IndicBERT)
अंतर कारण: लेबल सेट जटिलता में अंतर (बोडो 34 लेबल बनाम असमिया 41 लेबल)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

BodoBERT प्रभावशीलता: विशेष भाषा मॉडल डाउनस्ट्रीम कार्यों में सर्वश्रेष्ठ प्रदर्शन करता है
आर्किटेक्चर लाभ: BiLSTM-CRF आर्किटेक्चर CRF और Fine-tuning से बेहतर है
स्टैकिंग रणनीति प्रभावी: संयुक्त एम्बेडिंग एकल एम्बेडिंग से बेहतर प्रदर्शन करता है
आधारभूत स्थापना: बोडो भाषा NLP अनुसंधान के लिए महत्वपूर्ण आधारभूत स्थापना

सीमाएं

डेटा आकार: टैग किया गया कॉर्पस अपेक्षाकृत छोटा है (30k वाक्य)
भाषा मॉडल प्रशिक्षण डेटा: BodoBERT प्रशिक्षण कॉर्पस केवल 1.6M tokens है
प्रदर्शन स्तर: उच्च-संसाधन भाषाओं की तुलना में अभी भी अंतराल है (F1=0.8041 बनाम 90%+)
टैगिंग गुणवत्ता: कुछ टैगिंग को आगे सुधार की आवश्यकता हो सकती है

भविष्य की दिशा

कॉर्पस विस्तार: अधिक बोडो भाषा पाठ और टैग किए गए डेटा एकत्र करना
मॉडल सुधार: BodoBERT आर्किटेक्चर और प्रशिक्षण रणनीति को अनुकूलित करना
डाउनस्ट्रीम कार्य: NER, वाक्य विश्लेषण आदि अन्य NLP कार्यों तक विस्तार
बहु-भाषा मॉडलिंग: संबंधित भाषाओं के साथ संयुक्त मॉडलिंग की खोज

गहन मूल्यांकन

शक्तियां

अग्रणी योगदान: बोडो भाषा के लिए पहली बार भाषा मॉडल और POS टैगर का निर्माण, महत्वपूर्ण अंतराल को भरना
व्यवस्थित अनुसंधान: कई विधियों की व्यापक तुलना, तर्कसंगत और पूर्ण प्रयोगात्मक डिज़ाइन
तकनीकी नवाचार: स्टैक्ड एम्बेडिंग रणनीति प्रदर्शन में प्रभावी सुधार करती है
व्यावहारिक मूल्य: मॉडल को ओपन-सोर्स करना, समुदाय को बुनियादी उपकरण प्रदान करना
क्रॉस-भाषा अंतर्दृष्टि: असमिया के साथ तुलना के माध्यम से मूल्यवान क्रॉस-भाषा विश्लेषण प्रदान करना

कमियां

डेटा सीमाएं: प्रशिक्षण डेटा आकार अपेक्षाकृत छोटा है, मॉडल सामान्यीकरण क्षमता को प्रभावित कर सकता है
मूल्यांकन सीमाएं: पारंपरिक विधियों (जैसे HMM, नियम-आधारित विधियां) के साथ तुलना की कमी
त्रुटि विश्लेषण गहराई: मॉडल विफलता मामलों का भाषाई विश्लेषण पर्याप्त गहरा नहीं है
कम्प्यूटेशनल संसाधन: मॉडल प्रशिक्षण लागत अधिक है, पुनरुत्पादन क्षमता को सीमित कर सकता है

प्रभाव

शैक्षणिक मूल्य: निम्न-संसाधन भाषा NLP अनुसंधान के लिए महत्वपूर्ण प्रतिमान प्रदान करना
व्यावहारिक महत्व: बोडो भाषा समुदाय की वास्तविक आवश्यकताओं को सीधे सेवा प्रदान करना
पद्धति योगदान: स्टैक्ड एम्बेडिंग रणनीति अन्य निम्न-संसाधन भाषाओं तक विस्तारित की जा सकती है
बुनियादी ढांचा: बाद के बोडो भाषा NLP अनुसंधान के लिए आधार स्थापित करना

लागू परिदृश्य

सीधा आवेदन: बोडो भाषा पाठ प्रसंस्करण, सूचना निष्कर्षण
अनुसंधान आधार: बोडो भाषा के अन्य NLP कार्यों के लिए पूर्व-प्रसंस्करण चरण
विधि स्थानांतरण: समान निम्न-संसाधन भाषाओं की POS टैगिंग कार्यों के लिए
बहु-भाषा प्रणाली: भारत के पूर्वोत्तर बहु-भाषा NLP प्रणाली के घटक

संदर्भ

यह पेपर समृद्ध संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

BERT संबंधित: Devlin et al. (2018) - मूल BERT पेपर
अनुक्रम टैगिंग: Huang et al. (2015) - BiLSTM-CRF आर्किटेक्चर
निम्न-संसाधन भाषा: भारतीय स्थानीय भाषा NLP अनुसंधान के कई आइटम
भाषा मॉडल: विभिन्न पूर्व-प्रशिक्षित मॉडलों के मूल पेपर

समग्र मूल्यांकन: यह निम्न-संसाधन भाषा NLP अनुसंधान का एक उच्च-गुणवत्ता वाला पेपर है, जो विधि नवाचार, प्रयोगात्मक डिज़ाइन और व्यावहारिक मूल्य के संदर्भ में महत्वपूर्ण योगदान करता है। यद्यपि डेटा आकार से सीमित है, लेकिन यह बोडो भाषा NLP अनुसंधान के लिए एक नई दिशा खोलता है, जिसका महत्वपूर्ण शैक्षणिक और सामाजिक मूल्य है।