2025-11-18T09:52:19.958339

Part-of-Speech Tagger for Bodo Language using Deep Learning approach

Pathak, Narzary, Nandi et al.
Language Processing systems such as Part-of-speech tagging, Named entity recognition, Machine translation, Speech recognition, and Language modeling (LM) are well-studied in high-resource languages. Nevertheless, research on these systems for several low-resource languages, including Bodo, Mizo, Nagamese, and others, is either yet to commence or is in its nascent stages. Language model plays a vital role in the downstream tasks of modern NLP. Extensive studies are carried out on LMs for high-resource languages. Nevertheless, languages such as Bodo, Rabha, and Mising continue to lack coverage. In this study, we first present BodoBERT, a language model for the Bodo language. To the best of our knowledge, this work is the first such effort to develop a language model for Bodo. Secondly, we present an ensemble DL-based POS tagging model for Bodo. The POS tagging model is based on combinations of BiLSTM with CRF and stacked embedding of BodoBERT with BytePairEmbeddings. We cover several language models in the experiment to see how well they work in POS tagging tasks. The best-performing model achieves an F1 score of 0.8041. A comparative experiment was also conducted on Assamese POS taggers, considering that the language is spoken in the same region as Bodo.
academic

बोडो भाषा के लिए गहन शिक्षण दृष्टिकोण का उपयोग करते हुए भाषा के भाग टैगर

मूल जानकारी

  • पेपर ID: 2401.03175
  • शीर्षक: Part-of-Speech Tagger for Bodo Language using Deep Learning approach
  • लेखक: Dhrubajyoti Pathak, Sanjib Narzary, Sukumar Nandi, Bidisha Som
  • संस्थान: भाषाई विज्ञान और प्रौद्योगिकी केंद्र, IIT गुवाहाटी
  • वर्गीकरण: cs.CL cs.AI cs.LG
  • प्रकाशन पत्रिका: Natural Language Engineering (स्वीकृत)
  • पेपर लिंक: https://arxiv.org/abs/2401.03175

सारांश

यह अनुसंधान निम्न-संसाधन भाषा बोडो (बोडो भाषा) पर प्राकृतिक भाषा प्रसंस्करण अनुसंधान करता है। यद्यपि भाषा के भाग (POS) टैगिंग, नामित इकाई पहचान, मशीन अनुवाद आदि NLP कार्य उच्च-संसाधन भाषाओं पर व्यापक रूप से अध्ययन किए गए हैं, बोडो, मिजो, नागामीज़ जैसी निम्न-संसाधन भाषाओं पर अनुसंधान अभी प्रारंभिक चरण में है। यह पेपर पहले BodoBERT भाषा मॉडल प्रस्तावित करता है, जो बोडो भाषा के लिए पहला पूर्व-प्रशिक्षित भाषा मॉडल है। दूसरा, BiLSTM-CRF आर्किटेक्चर और BodoBERT के साथ BytePairEmbeddings के स्टैक्ड एम्बेडिंग के आधार पर, एकीकृत गहन शिक्षण POS टैगिंग मॉडल विकसित किया गया। सर्वश्रेष्ठ मॉडल ने बोडो भाषा POS टैगिंग कार्य पर 0.8041 का F1 स्कोर प्राप्त किया।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

  1. मुख्य समस्या: बोडो भाषा भारत के पूर्वोत्तर क्षेत्र की एक महत्वपूर्ण भाषा है (15 लाख उपयोगकर्ता, भारत की 20वीं सबसे बड़ी भाषा), जिसमें बुनियादी NLP उपकरण और संसाधनों की कमी है
  2. तकनीकी चुनौतियाँ:
    • बोडो भाषा को कवर करने वाले पूर्व-प्रशिक्षित भाषा मॉडल की कमी
    • टैग किए गए डेटा की कमी (केवल ~30k वाक्यों का टैग किया गया कॉर्पस)
    • जटिल भाषा विशेषताएं (तिब्बती-बर्मन भाषा परिवार, समृद्ध आकृति विज्ञान)

महत्व विश्लेषण

  • भाषा स्थिति: बोडो भारत की 22 आधिकारिक भाषाओं में से एक है, बोडोलैंड क्षेत्रीय क्षेत्र की आधिकारिक भाषा
  • आवेदन आवश्यकता: 15 लाख उपयोगकर्ताओं को संबंधित NLP उपकरण समर्थन की तत्काल आवश्यकता है
  • शैक्षणिक मूल्य: निम्न-संसाधन भाषा NLP अनुसंधान में अंतराल को भरना

मौजूदा सीमाएं

  • बुनियादी NLP कार्य (शब्द विश्लेषण, निर्भरता वाक्य विश्लेषण, भाषा पहचान आदि) अभी तक शुरू नहीं हुए हैं
  • कोई उपलब्ध पूर्व-प्रशिक्षित भाषा मॉडल नहीं
  • गहन शिक्षण-आधारित डाउनस्ट्रीम NLP उपकरणों की कमी

मुख्य योगदान

  1. पहला बोडो भाषा मॉडल: BERT आर्किटेक्चर के आधार पर BodoBERT प्रस्तावित किया गया, जो बोडो भाषा के लिए विशेष रूप से प्रशिक्षित पहला पूर्व-प्रशिक्षित भाषा मॉडल है
  2. बहु-आर्किटेक्चर POS टैगर तुलना: CRF, Fine-tuning, BiLSTM-CRF तीन अनुक्रम टैगिंग आर्किटेक्चर की व्यवस्थित तुलना
  3. बहु-भाषा मॉडल प्रदर्शन विश्लेषण: FastText, BPE, XLM-R, FlairEmbedding, IndicBERT, MuRIL आदि कई भाषा मॉडलों का बोडो POS टैगिंग कार्य पर मूल्यांकन
  4. स्टैक्ड एम्बेडिंग विधि: Individual और Stacked दो एम्बेडिंग विधियां प्रस्तावित की गई हैं, Stacked विधि प्रदर्शन में महत्वपूर्ण सुधार करती है
  5. ओपन-सोर्स संसाधन: सर्वश्रेष्ठ POS टैगिंग मॉडल और BodoBERT मॉडल सार्वजनिक रूप से जारी किए गए हैं

विधि विवरण

कार्य परिभाषा

इनपुट: बोडो भाषा वाक्य अनुक्रम आउटपुट: प्रत्येक शब्द के लिए संबंधित POS लेबल (BIS टैगसेट के आधार पर 34 लेबल) बाधा: Devanagari लिपि का उपयोग, भारतीय भाषा मानक (BIS tagset) का पालन

BodoBERT भाषा मॉडल

कॉर्पस निर्माण

  • डेटा स्रोत:
    • भारतीय भाषाओं के लिए भाषाई डेटा कंसोर्टियम (LDC-IL)
    • Narzary et al. (2022) का कार्य
  • कॉर्पस आकार: 1.6M tokens, 191k वाक्य
  • डोमेन कवरेज: सौंदर्यशास्त्र, व्यावसायिक, जनमाध्यम, प्रौद्योगिकी, सामाजिक विज्ञान आदि कई डोमेन

मॉडल आर्किटेक्चर

  • मूल आर्किटेक्चर: बहु-परत द्विदिशात्मक Transformer (BERT फ्रेमवर्क के आधार पर)
  • मुख्य पैरामीटर:
    • 6 Transformer ब्लॉक
    • छिपी परत आयाम: 768
    • स्व-ध्यान सिर संख्या: 6
    • कुल पैरामीटर: ~103M
    • शब्दावली तालिका आकार: 50,000 (WordPiece tokenizer)

प्रशिक्षण सेटिंग्स

  • हार्डवेयर: Nvidia Tesla P100 GPU
  • प्रशिक्षण चरण: 300K steps
  • अनुक्रम लंबाई: 128
  • बैच आकार: 64
  • अनुकूलक: Adam (सीखने की दर 2e-5, पहले 3000 चरणों में warm-up)
  • प्रशिक्षण समय: ~7 दिन

POS टैगिंग मॉडल आर्किटेक्चर

तीन अनुक्रम टैगिंग विधियां

  1. CRF मॉडल: BodoBERT एम्बेडिंग + CRF परत का उपयोग
  2. Fine-tuning मॉडल: POS टैगिंग के लिए सीधे BodoBERT को सूक्ष्म-समायोजित करना
  3. BiLSTM-CRF मॉडल: BodoBERT एम्बेडिंग + BiLSTM + CRF परत

एम्बेडिंग विधियां

  1. Individual विधि: विभिन्न भाषा मॉडलों का अलग से उपयोग
  2. Stacked विधि: BodoBERT को अन्य भाषा मॉडलों के साथ स्टैक करना

तकनीकी नवाचार बिंदु

  1. भाषा अनुकूलन: बोडो भाषा की विशेषताओं के लिए डिज़ाइन किया गया पहला विशेष भाषा मॉडल
  2. बहु-मॉडल संलयन: कई पूर्व-प्रशिक्षित मॉडलों की व्यवस्थित तुलना और संलयन
  3. क्रॉस-भाषा स्थानांतरण: समान लेखन प्रणाली (Devanagari) वाली Hindi मॉडलों से ज्ञान स्थानांतरण का लाभ उठाना
  4. स्टैकिंग रणनीति: विशेष भाषा मॉडलों को सामान्य मॉडलों के साथ संयोजित करने का नवीन तरीका

प्रयोगात्मक सेटअप

डेटासेट

  • टैग किया गया कॉर्पस: बोडो मोनोलिंगुअल टेक्स्ट कॉर्पस (ILCI-II)
  • डेटा आकार:
    • प्रशिक्षण सेट: 24,003 वाक्य, 192k tokens
    • सत्यापन सेट: 2,325 वाक्य, 23k tokens
    • परीक्षण सेट: 3,161 वाक्य, 23k tokens
  • लेबल प्रणाली: BIS टैगसेट, 11 शीर्ष-स्तरीय श्रेणियां, 34 विशिष्ट लेबल
  • डेटा प्रारूप: CoNLL-2003 प्रारूप

मूल्यांकन मेट्रिक्स

  • मुख्य मेट्रिक: F1-score (Micro)
  • सहायक मेट्रिक्स: F1-score (Weighted), Precision, Recall
  • लेबल-स्तरीय विश्लेषण: प्रत्येक POS लेबल का विस्तृत प्रदर्शन

तुलना विधियां

भाषा मॉडल तुलना

मॉडलप्रशिक्षण कॉर्पसडेटा आकार
FastTextWiki<29M
BytePairWiki29M
BodoBERTBodo corpus1.6M
FlairEmbeddingsWiki+OPUS≈29M
MuRILCommonCrawl+Wiki788M
XLM-RCC-1001.7B
IndicBERTScraping1.84B

आर्किटेक्चर तुलना

  • CRF vs Fine-tuning vs BiLSTM-CRF
  • Individual vs Stacked embedding methods

कार्यान्वयन विवरण

  • फ्रेमवर्क: Flair framework
  • बैच आकार: 32
  • प्रारंभिक रोक रणनीति: सत्यापन सेट प्रदर्शन में सुधार न होने पर रोकना
  • सीखने की दर अनुसूची: Learning Rate Annealing

प्रयोगात्मक परिणाम

मुख्य परिणाम

आर्किटेक्चर तुलना

एम्बेडिंग विधिटैगिंग मॉडलF1-score(Micro)F1-score(Weighted)
BodoBERTCRF0.75830.7454
BodoBERTFine-tuned BERT0.77540.7775
BodoBERTBiLSTM + CRF0.79490.7898

Individual विधि भाषा मॉडल तुलना

एम्बेडिंग मॉडलबोडो F1असमिया F1
FastText0.76860.6981
BytePair0.76690.7099
BodoBERT0.79490.7033
FlairEmbeddings0.78850.7076
MuRIL0.77080.7286
XLM-R0.76380.7001
IndicBERT0.72350.7293

Stacked विधि परिणाम

स्टैक्ड एम्बेडिंग संयोजनF1 स्कोर
BodoBERT + FastText0.7928
BodoBERT + BytePair0.8041
BodoBERT + mBERT0.799
BodoBERT + FlairEmbeddings0.801
BodoBERT + MuRIL0.785
BodoBERT + XLM-R0.8003
BodoBERT + IndicBERT0.793

डेटा संवर्धन प्रयोग

10k स्वचालित टैग किए गए + मानव-सुधारे गए वाक्यों को जोड़ने के माध्यम से:

  • प्रदर्शन सुधार: F1 0.8041 से 0.8494 तक बढ़ा (+1-2%)
  • मॉडल की स्केलेबिलिटी को सत्यापित किया

लेबल-स्तरीय विश्लेषण

सर्वश्रेष्ठ मॉडल के मुख्य POS लेबलों पर प्रदर्शन:

  • V_VM (क्रिया): F1=0.9150 (सर्वोच्च)
  • RD_PUNC (विराम चिह्न): F1=0.9944 (लगभग पूर्ण)
  • N_NN (संज्ञा): F1=0.7628 (सबसे बड़ी श्रेणी)
  • N_NNP (व्यक्तिनाम): F1=0.6946 (पहचान में अधिक कठिन)

त्रुटि विश्लेषण

भ्रम मैट्रिक्स के माध्यम से खोजे गए मुख्य त्रुटि पैटर्न:

  1. वर्ग-अंतर्गत भ्रम: सामान्य संज्ञा (N_NN) और व्यक्तिनाम (N_NNP), स्थान संज्ञा (N_NST) के साथ
  2. भाषा के भाग रूपांतरण: संज्ञा को विशेषण के रूप में उपयोग करते समय टैगिंग कठिनाई
  3. लेखन प्रणाली सीमाएं: बोडो में अंग्रेजी की बड़ी अक्षरों जैसी व्यक्तिनाम पहचान की कमी

क्रॉस-भाषा तुलना

बोडो बनाम असमिया POS टैगिंग परिणाम तुलना:

  • बोडो सर्वोच्च: 0.8041 (BodoBERT+BytePair)
  • असमिया सर्वोच्च: 0.7293 (IndicBERT)
  • अंतर कारण: लेबल सेट जटिलता में अंतर (बोडो 34 लेबल बनाम असमिया 41 लेबल)

संबंधित कार्य

निम्न-संसाधन भाषा POS टैगिंग

  • असमिया: Pathak et al. (2022, 2023) - BiLSTM-CRF 86.52% F1 प्राप्त
  • खासी: Warjri et al. (2021) - 96.98% सटीकता
  • बंगाली: Alam et al. (2016) - 86.0% सटीकता, Kabir et al. (2016) - 93.33% सटीकता
  • मिजो: Pandey et al. (2022) - LSTM 81.86% सटीकता प्राप्त

इस पेपर के लाभ

  1. पहली बार: बोडो भाषा का पहला तंत्रिका नेटवर्क POS टैगर
  2. व्यवस्थितता: कई आर्किटेक्चर और भाषा मॉडलों की व्यापक तुलना
  3. व्यावहारिकता: ओपन-सोर्स मॉडल और उपकरण प्रदान करना

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. BodoBERT प्रभावशीलता: विशेष भाषा मॉडल डाउनस्ट्रीम कार्यों में सर्वश्रेष्ठ प्रदर्शन करता है
  2. आर्किटेक्चर लाभ: BiLSTM-CRF आर्किटेक्चर CRF और Fine-tuning से बेहतर है
  3. स्टैकिंग रणनीति प्रभावी: संयुक्त एम्बेडिंग एकल एम्बेडिंग से बेहतर प्रदर्शन करता है
  4. आधारभूत स्थापना: बोडो भाषा NLP अनुसंधान के लिए महत्वपूर्ण आधारभूत स्थापना

सीमाएं

  1. डेटा आकार: टैग किया गया कॉर्पस अपेक्षाकृत छोटा है (30k वाक्य)
  2. भाषा मॉडल प्रशिक्षण डेटा: BodoBERT प्रशिक्षण कॉर्पस केवल 1.6M tokens है
  3. प्रदर्शन स्तर: उच्च-संसाधन भाषाओं की तुलना में अभी भी अंतराल है (F1=0.8041 बनाम 90%+)
  4. टैगिंग गुणवत्ता: कुछ टैगिंग को आगे सुधार की आवश्यकता हो सकती है

भविष्य की दिशा

  1. कॉर्पस विस्तार: अधिक बोडो भाषा पाठ और टैग किए गए डेटा एकत्र करना
  2. मॉडल सुधार: BodoBERT आर्किटेक्चर और प्रशिक्षण रणनीति को अनुकूलित करना
  3. डाउनस्ट्रीम कार्य: NER, वाक्य विश्लेषण आदि अन्य NLP कार्यों तक विस्तार
  4. बहु-भाषा मॉडलिंग: संबंधित भाषाओं के साथ संयुक्त मॉडलिंग की खोज

गहन मूल्यांकन

शक्तियां

  1. अग्रणी योगदान: बोडो भाषा के लिए पहली बार भाषा मॉडल और POS टैगर का निर्माण, महत्वपूर्ण अंतराल को भरना
  2. व्यवस्थित अनुसंधान: कई विधियों की व्यापक तुलना, तर्कसंगत और पूर्ण प्रयोगात्मक डिज़ाइन
  3. तकनीकी नवाचार: स्टैक्ड एम्बेडिंग रणनीति प्रदर्शन में प्रभावी सुधार करती है
  4. व्यावहारिक मूल्य: मॉडल को ओपन-सोर्स करना, समुदाय को बुनियादी उपकरण प्रदान करना
  5. क्रॉस-भाषा अंतर्दृष्टि: असमिया के साथ तुलना के माध्यम से मूल्यवान क्रॉस-भाषा विश्लेषण प्रदान करना

कमियां

  1. डेटा सीमाएं: प्रशिक्षण डेटा आकार अपेक्षाकृत छोटा है, मॉडल सामान्यीकरण क्षमता को प्रभावित कर सकता है
  2. मूल्यांकन सीमाएं: पारंपरिक विधियों (जैसे HMM, नियम-आधारित विधियां) के साथ तुलना की कमी
  3. त्रुटि विश्लेषण गहराई: मॉडल विफलता मामलों का भाषाई विश्लेषण पर्याप्त गहरा नहीं है
  4. कम्प्यूटेशनल संसाधन: मॉडल प्रशिक्षण लागत अधिक है, पुनरुत्पादन क्षमता को सीमित कर सकता है

प्रभाव

  1. शैक्षणिक मूल्य: निम्न-संसाधन भाषा NLP अनुसंधान के लिए महत्वपूर्ण प्रतिमान प्रदान करना
  2. व्यावहारिक महत्व: बोडो भाषा समुदाय की वास्तविक आवश्यकताओं को सीधे सेवा प्रदान करना
  3. पद्धति योगदान: स्टैक्ड एम्बेडिंग रणनीति अन्य निम्न-संसाधन भाषाओं तक विस्तारित की जा सकती है
  4. बुनियादी ढांचा: बाद के बोडो भाषा NLP अनुसंधान के लिए आधार स्थापित करना

लागू परिदृश्य

  1. सीधा आवेदन: बोडो भाषा पाठ प्रसंस्करण, सूचना निष्कर्षण
  2. अनुसंधान आधार: बोडो भाषा के अन्य NLP कार्यों के लिए पूर्व-प्रसंस्करण चरण
  3. विधि स्थानांतरण: समान निम्न-संसाधन भाषाओं की POS टैगिंग कार्यों के लिए
  4. बहु-भाषा प्रणाली: भारत के पूर्वोत्तर बहु-भाषा NLP प्रणाली के घटक

संदर्भ

यह पेपर समृद्ध संबंधित कार्यों का हवाला देता है, मुख्य रूप से:

  • BERT संबंधित: Devlin et al. (2018) - मूल BERT पेपर
  • अनुक्रम टैगिंग: Huang et al. (2015) - BiLSTM-CRF आर्किटेक्चर
  • निम्न-संसाधन भाषा: भारतीय स्थानीय भाषा NLP अनुसंधान के कई आइटम
  • भाषा मॉडल: विभिन्न पूर्व-प्रशिक्षित मॉडलों के मूल पेपर

समग्र मूल्यांकन: यह निम्न-संसाधन भाषा NLP अनुसंधान का एक उच्च-गुणवत्ता वाला पेपर है, जो विधि नवाचार, प्रयोगात्मक डिज़ाइन और व्यावहारिक मूल्य के संदर्भ में महत्वपूर्ण योगदान करता है। यद्यपि डेटा आकार से सीमित है, लेकिन यह बोडो भाषा NLP अनुसंधान के लिए एक नई दिशा खोलता है, जिसका महत्वपूर्ण शैक्षणिक और सामाजिक मूल्य है।