2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

नागामीज़ भाषा के लिए CRF का उपयोग करके शब्द-भाग टैगिंग

मूल जानकारी

  • पेपर ID: 2509.19343
  • शीर्षक: Part-of-speech tagging for Nagamese Language using CRF
  • लेखक: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • संस्थान: Department of Information Technology, Nagaland University, Kohima Campus, India
  • वर्गीकरण: cs.CL cs.AI
  • प्रकाशन तिथि: 13 अक्टूबर 2025 (arXiv v3)
  • पेपर लिंक: https://arxiv.org/abs/2509.19343

सारांश

यह पेपर नागामीज़ भाषा के लिए शब्द-भाग (POS) टैगिंग कार्य का अध्ययन करता है, जो प्राकृतिक भाषा प्रसंस्करण (NLP) में एक महत्वपूर्ण कार्य है। नागामीज़ भाषा, जिसे नागा पिजिन भी कहा जाता है, असमिया भाषा के शब्दावली आधार पर एक क्रिओल भाषा है, जो मुख्य रूप से भारत के पूर्वोत्तर क्षेत्र में नागा और असमिया लोगों के बीच व्यापार संचार के साधन के रूप में विकसित हुई है। हालांकि अंग्रेजी, हिंदी जैसी संसाधन-समृद्ध भाषाओं के लिए POS टैगिंग पर व्यापक कार्य उपलब्ध है, नागामीज़ भाषा इस क्षेत्र में पूरी तरह से अनुसंधान से वंचित है। लेखकों के ज्ञान के अनुसार, यह नागामीज़ भाषा के लिए POS टैगिंग का पहला प्रयास है। अनुसंधान में 16,112 टोकन वाला एक एनोटेटेड कॉर्पस बनाया गया है और सशर्त यादृच्छिक क्षेत्र (CRF) मशीन लर्निंग तकनीक लागू की गई है, जिससे 85.70% की कुल टैगिंग सटीकता, 86% सटीकता और रिकॉल, तथा 85% F1 स्कोर प्राप्त हुआ है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अनुसंधान नागामीज़ भाषा में POS टैगिंग उपकरणों की कमी की समस्या को हल करता है। शब्द-भाग टैगिंग NLP का एक मौलिक कार्य है, जिसमें वाक्य में प्रत्येक शब्द को उपयुक्त POS लेबल प्रदान करना शामिल है।

महत्व

  1. भाषा संरक्षण: नागामीज़ नागालैंड के सामान्य भाषा के रूप में, जनमाध्यम, समाचार, प्रसारण और सरकारी मीडिया में व्यापक रूप से उपयोग की जाती है
  2. संसाधन की कमी: नागामीज़ एक संसाधन-विरल भाषा है, जिसमें भाषा प्रसंस्करण उपकरण और संसाधनों की कमी है
  3. मौलिक अनुप्रयोग: POS टैगिंग अन्य NLP अनुप्रयोगों (जैसे भावना विश्लेषण, मशीन अनुवाद) के निर्माण का आधार है

मौजूदा सीमाएं

  • मुख्यधारा के NLP उपकरण मुख्य रूप से संसाधन-समृद्ध भाषाओं (जैसे अंग्रेजी, हिंदी) के लिए विकसित किए गए हैं
  • नागामीज़ भाषा के लिए पहले कोई POS टैगिंग कार्य नहीं था
  • मानकीकृत एनोटेटेड कॉर्पस और लेबल सेट की कमी है

मुख्य योगदान

  1. अग्रणी अनुसंधान: नागामीज़ भाषा के लिए POS टैगिंग का पहला अनुसंधान
  2. लेबल सेट डिज़ाइन: Penn Treebank लेबल सेट के आधार पर, नागामीज़ के लिए 15 POS लेबल डिज़ाइन किए गए
  3. कॉर्पस निर्माण: 16,115 टोकन वाला हस्तनिर्मित एनोटेटेड कॉर्पस बनाया गया
  4. आधारभूत मॉडल: CRF तकनीक का उपयोग करके नागामीज़ POS टैगिंग के लिए आधारभूत मॉडल स्थापित किया गया
  5. प्रदर्शन मूल्यांकन: विस्तृत त्रुटि विश्लेषण और प्रदर्शन मूल्यांकन प्रदान किया गया

विधि विवरण

कार्य परिभाषा

नागामीज़ भाषा के वाक्य को देखते हुए, प्रत्येक शब्द को संबंधित POS लेबल प्रदान करना।

इनपुट: नागामीज़ वाक्य में शब्दों का अनुक्रम आउटपुट: संबंधित POS लेबल का अनुक्रम उदाहरण:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(भगवान को जो कुछ उसने देखा उससे प्रसन्न हुआ।)

नागामीज़ भाषा की विशेषताएं

वर्ण समूह

  • स्वर: i, u, e, @, o, a (6)
  • व्यंजन: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (22)

अक्षर पैटर्न

  • एकल अक्षर: (C)(C)V(C)(C), लेकिन V अकेले नहीं हो सकता
  • द्विअक्षर: V(C)(C)(C)V(C) या (C)CV(C)(C)CV(C)(C)
  • त्रिअक्षर: V(C)(C)CV(C)(C)CV(C) या (C)CV(C)(C)V(C)(C)(C)V(C)
  • चतुरक्षर: (C)V(C)CVCV(C)CV(C)
  • पांच अक्षर वाले शब्द नहीं (स्पष्ट यौगिक शब्दों को छोड़कर)

लेबल सेट डिज़ाइन

Penn Treebank के 36 लेबल को नागामीज़ के लिए उपयुक्त 15 लेबल में सरल बनाया गया:

क्रमश्रेणीलेबल
1विशेषणADJ
2क्रिया विशेषणADV
3संयोजनCONJ
4पूरक चिह्नCMP
5निर्धारकDET
6पश्चात्पद/पूर्वपदPP
7विस्मयादिबोधकINTJ
8संज्ञाN
9सर्वनामPN
10परिमाणवाचकQN
11क्रियाV
12विदेशी शब्दFW
13प्रतीकSYM
14अज्ञात शब्दUNK
15संख्यावाचकNUM

मॉडल आर्किटेक्चर

सशर्त यादृच्छिक क्षेत्र (CRF)

रैखिक श्रृंखला CRF मॉडल का उपयोग किया गया, जो अनुक्रम में आसन्न लेबल के संदर्भ जानकारी पर विचार कर सकता है, और अधिकतम एंट्रॉपी मार्कोव मॉडल (MEMM) की लेबल पूर्वाग्रह समस्या को दूर करता है।

विशेषता इंजीनियरिंग

समृद्ध विशेषता सेट डिज़ाइन किया गया:

  • वर्तमान शब्द
  • क्या वाक्य की शुरुआत/अंत का शब्द है
  • शब्द की बड़े/छोटे अक्षर जानकारी
  • उपसर्ग (लंबाई ≤3) और प्रत्यय (लंबाई ≤4)
  • पिछला शब्द और अगला शब्द
  • क्या हाइफन युक्त है
  • क्या संख्या है
  • क्या शब्द में बड़े अक्षर हैं

अनुकूलन सेटिंग्स

  • ग्रेडिएंट डिसेंट: L-BFGS विधि
  • पुनरावृत्ति संख्या: 100
  • नियमितकरण: अति-फिटिंग रोकने के लिए L1 और L2 नियमितकरण

प्रयोगात्मक सेटअप

डेटासेट निर्माण

  1. डेटा स्रोत: स्थानीय समाचार पत्र "Nagamese Khobor" से लेख एकत्र किए गए, जिनमें समसामयिक मुद्दे, खेल आदि विविध सामग्री शामिल है
  2. कॉर्पस आकार: लगभग 26,000 शब्दों का मूल कॉर्पस, 16,115 टोकन (749 वाक्य) हस्तनिर्मित एनोटेशन
  3. एनोटेशन प्रक्रिया: नागामीज़ मातृभाषी द्वारा हस्तनिर्मित एनोटेशन
  4. गुणवत्ता सत्यापन: एक अन्य एनोटेटर द्वारा 1,864 टोकन का एनोटेशन सत्यापन के लिए किया गया, विदेशी शब्दों सहित असहमति दर 6.7% है, विदेशी शब्दों को छोड़कर असहमति दर केवल 1.23% है

डेटा वितरण

लेबल आवृत्ति वितरण डेटा की असंतुलन को दर्शाता है:

  • सर्वोच्च आवृत्ति: FW (विदेशी शब्द) - 3,744 बार
  • दूसरा: PP (पश्चात्पद) - 2,418 बार
  • न्यूनतम आवृत्ति: CMP (पूरक चिह्न) - 35 बार

मूल्यांकन मेट्रिक्स

  • सटीकता (Accuracy): कुल एनोटेशन सही दर
  • परिशुद्धता (Precision): TP/(TP+FP)
  • पुनरावृत्ति (Recall): TP/(TP+FN)
  • F1 स्कोर: 2×(Precision×Recall)/(Precision+Recall)

प्रयोगात्मक विन्यास

  • प्रशिक्षण/परीक्षण विभाजन: 70:30
  • कार्यान्वयन उपकरण: sklearn-crfsuite लाइब्रेरी

प्रयोगात्मक परिणाम

मुख्य परिणाम

मेट्रिकमान
कुल सटीकता85.70%
औसत परिशुद्धता86%
औसत पुनरावृत्ति86%
औसत F1 स्कोर85%

प्रत्येक लेबल का प्रदर्शन विश्लेषण

सर्वश्रेष्ठ प्रदर्शन:

  • SYM (प्रतीक): F1=0.99, परिशुद्धता=0.99, पुनरावृत्ति=0.98
  • NUM (संख्यावाचक): F1=0.95, परिशुद्धता=0.99, पुनरावृत्ति=0.92
  • CONJ (संयोजन): F1=0.91, परिशुद्धता=0.95, पुनरावृत्ति=0.87

कमजोर प्रदर्शन:

  • UNK (अज्ञात शब्द): F1=0.33, परिशुद्धता=0.77, पुनरावृत्ति=0.21
  • N (संज्ञा): F1=0.70, परिशुद्धता=0.70, पुनरावृत्ति=0.69
  • ADV (क्रिया विशेषण): F1=0.71, परिशुद्धता=0.74, पुनरावृत्ति=0.69

त्रुटि विश्लेषण

मुख्य त्रुटि पैटर्न में शामिल हैं:

  1. ADJ को गलत लेबल: PP (15 बार), V (15 बार), N (12 बार), FW (11 बार)
  2. N को गलत लेबल: FW (76 बार), PP (26 बार), V (23 बार)
  3. FW को गलत लेबल: N (81 बार), विदेशी शब्द पहचान की चुनौती दर्शाता है

संक्रमण पैटर्न विश्लेषण

  • सबसे संभावित संक्रमण: UNK → UNK
  • सबसे कम संभावित संक्रमण: PP → NUM

संबंधित कार्य

चूंकि नागामीज़ असमिया भाषा के शब्दावली आधार पर एक क्रिओल भाषा है, पेपर असमिया भाषा के POS टैगिंग के संबंधित कार्य की समीक्षा करता है:

  1. Saharia et al. (2009): HMM का उपयोग, 172 लेबल, 10k शब्द प्रशिक्षण, 87% सटीकता
  2. Phukan et al. (2024): वर्ण-स्तरीय LSTM और Bi-LSTM, 60k शब्द, 93.36% सटीकता
  3. Pathak et al. (2023): BiLSTM-CRF आर्किटेक्चर, 404k टोकन, F1=0.925
  4. Talukdar et al. (2024): RNN और GRU, 30k शब्द, F1=94.56%

ये कार्य इस अनुसंधान के लिए तकनीकी संदर्भ प्रदान करते हैं, लेकिन नागामीज़ एक क्रिओल भाषा के रूप में अद्वितीय भाषाई विशेषताएं रखती है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. नागामीज़ भाषा के लिए POS टैगिंग की पहली आधारभूत प्रणाली सफलतापूर्वक स्थापित की गई
  2. CRF मॉडल ने इस कार्य पर उचित प्रदर्शन (85.70% सटीकता) प्राप्त किया
  3. निर्मित एनोटेटेड कॉर्पस भविष्य के अनुसंधान के लिए आधार तैयार करता है

सीमाएं

  1. लेबल सेट आकार: केवल 15 लेबल का उपयोग, भाषा की जटिलता को पूरी तरह से पकड़ने में विफल हो सकता है
  2. डेटा आकार: 16,115 टोकन अपेक्षाकृत छोटा है, मॉडल की सामान्यीकरण क्षमता को प्रभावित कर सकता है
  3. डेटा असंतुलन: कुछ लेबल (जैसे CMP) के नमूने बहुत कम हैं, मॉडल सीखने को प्रभावित करते हैं
  4. विदेशी शब्द चुनौती: FW लेबल की उच्च आवृत्ति और भ्रम विदेशी शब्द पहचान को मुख्य कठिनाई दर्शाते हैं

भविष्य की दिशाएं

  1. लेबल सेट विस्तार: अधिक सूक्ष्म-दानेदार POS लेबल जोड़ें
  2. डेटा वृद्धि: एनोटेटेड कॉर्पस का आकार बढ़ाएं
  3. अनुप्रयोग विस्तार: POS टैगर को भावना विश्लेषण, मशीन अनुवाद आदि अनुप्रयोगों के लिए उपयोग करें
  4. स्थानांतरण सीखना: असमिया भाषा से स्थानांतरण सीखने की विधि का अन्वेषण करें
  5. गहन शिक्षा: LSTM, BERT आदि आधुनिक गहन शिक्षा विधियों का प्रयास करें

गहन मूल्यांकन

शक्तियां

  1. अग्रणी महत्व: नागामीज़ भाषा के NLP अनुसंधान में रिक्तता को भरता है
  2. भाषाविज्ञान विश्लेषण: नागामीज़ की भाषाई विशेषताओं (ध्वनि प्रणाली, अक्षर संरचना आदि) का विस्तृत विवरण
  3. एनोटेशन गुणवत्ता: दोहरे एनोटेशन सत्यापन के माध्यम से डेटा गुणवत्ता सुनिश्चित की गई
  4. त्रुटि विश्लेषण: विस्तृत भ्रम मैट्रिक्स और त्रुटि पैटर्न विश्लेषण प्रदान किया गया
  5. व्यावहारिक मूल्य: संसाधन-विरल भाषाओं के NLP अनुसंधान के लिए उदाहरण प्रदान करता है

कमियां

  1. विधि सीमा: केवल पारंपरिक CRF विधि का उपयोग, आधुनिक गहन शिक्षा तकनीकों का प्रयास नहीं
  2. तुलना की कमी: अन्य विधियों के साथ तुलनात्मक प्रयोग की कमी
  3. डेटा विषमता: विदेशी शब्दों का अत्यधिक अनुपात (23%) मॉडल की व्यावहारिकता को प्रभावित कर सकता है
  4. विशेषता इंजीनियरिंग: विशेषताएं अपेक्षाकृत सरल हैं, महत्वपूर्ण भाषाई विशेषताओं को छोड़ सकती हैं
  5. मूल्यांकन सीमा: केवल एकल डेटासेट पर मूल्यांकन, क्रॉस-डोमेन सत्यापन की कमी

प्रभाव

  1. शैक्षणिक योगदान: निम्न-संसाधन भाषा NLP अनुसंधान के लिए महत्वपूर्ण संदर्भ प्रदान करता है
  2. सामाजिक मूल्य: नागामीज़ भाषा के डिजिटल संरक्षण और विकास में सहायता करता है
  3. तकनीकी आधार: अधिक जटिल नागामीज़ NLP अनुप्रयोगों के निर्माण के लिए आधार तैयार करता है
  4. पद्धति: संसाधन-विरल भाषाओं के लिए NLP उपकरण निर्माण की संपूर्ण प्रक्रिया प्रदर्शित करता है

लागू परिदृश्य

  1. शैक्षणिक अनुप्रयोग: नागामीज़ भाषा शिक्षण और सीखने में सहायता
  2. मीडिया प्रसंस्करण: नागामीज़ समाचार और सोशल मीडिया सामग्री का स्वचालित प्रसंस्करण
  3. सरकारी सेवाएं: नागालैंड की बहुभाषी सरकारी सेवाओं का समर्थन
  4. अनुसंधान आधार: नागामीज़ भाषा के आगे के NLP अनुसंधान के लिए आधारभूत उपकरण प्रदान करता है

संदर्भ

पेपर निम्नलिखित मुख्य साहित्य का उद्धरण देता है:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - नागामीज़ व्याकरण मानकीकरण अनुसंधान
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - असमिया भाषा POS टैगिंग अग्रदूत कार्य
  3. Pathak et al. (2022, 2023). असमिया भाषा गहन शिक्षा POS टैगिंग विधि
  4. Phukan et al. (2023, 2024). असमिया भाषा LSTM POS टैगिंग अनुसंधान

समग्र मूल्यांकन: यह एक महत्वपूर्ण अग्रणी महत्व वाला पेपर है, हालांकि तकनीकी विधि में अपेक्षाकृत पारंपरिक है, लेकिन नागामीज़ जैसी संसाधन-विरल भाषा के लिए पहली POS टैगिंग प्रणाली स्थापित करता है, जिसका महत्वपूर्ण शैक्षणिक और सामाजिक मूल्य है। अनुसंधान विधि कठोर है, डेटा निर्माण मानकीकृत है, और भविष्य के अनुसंधान के लिए एक ठोस आधार तैयार करता है।