Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic
নাগামিজ ভাষার জন্য CRF ব্যবহার করে পার্ট-অফ-স্পিচ ট্যাগিং
এই গবেষণাপত্রটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) এর একটি গুরুত্বপূর্ণ কাজ হিসেবে নাগামিজ ভাষার পার্ট-অফ-স্পিচ ট্যাগিং কাজটি অধ্যয়ন করেছে। নাগামিজ ভাষা, যা নাগা পিজিন নামেও পরিচিত, একটি ক্রিওল ভাষা যা আসামি ভাষার শব্দভাণ্ডারের উপর ভিত্তি করে তৈরি এবং ভারতের উত্তর-পূর্বাঞ্চলে নাগা এবং আসামিদের মধ্যে বাণিজ্য যোগাযোগের মাধ্যম হিসেবে বিকশিত হয়েছে। যদিও ইংরেজি এবং হিন্দির মতো সম্পদ-সমৃদ্ধ ভাষাগুলিতে পার্ট-অফ-স্পিচ ট্যাগিং সম্পর্কে ব্যাপক কাজ রয়েছে, নাগামিজ ভাষায় এই ক্ষেত্রে কোনো গবেষণা নেই। লেখকদের জ্ঞান অনুযায়ী, এটি নাগামিজ ভাষার জন্য পার্ট-অফ-স্পিচ ট্যাগিং এর প্রথম প্রচেষ্টা। গবেষণাটি ১৬,১১২টি টোকেন সম্বলিত একটি টীকাকৃত কর্পাস তৈরি করেছে এবং শর্তসাপেক্ষ র্যান্ডম ফিল্ড (CRF) মেশিন লার্নিং প্রযুক্তি প্রয়োগ করে ৮৫.৭০% সামগ্রিক ট্যাগিং নির্ভুলতা অর্জন করেছে, যেখানে নির্ভুলতা এবং পুনরুদ্ধার উভয়ই ৮৬% এবং F1 স্কোর ৮৫%।
এই গবেষণাটি নাগামিজ ভাষায় পার্ট-অফ-স্পিচ ট্যাগিং সরঞ্জামের অভাব সমাধান করার লক্ষ্য রাখে। পার্ট-অফ-স্পিচ ট্যাগিং হল NLP এর একটি মৌলিক কাজ যা বাক্যের প্রতিটি শব্দের জন্য উপযুক্ত পার্ট-অফ-স্পিচ লেবেল নির্ধারণ করে।
রৈখিক শৃঙ্খল CRF মডেল ব্যবহার করা হয়েছে, যা ক্রমে সংলগ্ন লেবেলের প্রসঙ্গ বিবেচনা করতে পারে এবং সর্বাধিক এন্ট্রপি মার্কভ মডেল (MEMM) এর লেবেল পক্ষপাত সমস্যা অতিক্রম করে।
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - নাগামিজ ব্যাকরণ মানসম্মতকরণ গবেষণা
Saharia et al. (2009). Part of speech tagger for assamese text. - আসামি ভাষা পার্ট-অফ-স্পিচ ট্যাগিং অগ্রদূত কাজ
Pathak et al. (2022, 2023). আসামি ভাষা গভীর শেখা পার্ট-অফ-স্পিচ ট্যাগিং পদ্ধতি
Phukan et al. (2023, 2024). আসামি ভাষা LSTM পার্ট-অফ-স্পিচ ট্যাগিং গবেষণা
সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ অগ্রগামী তাৎপর্যের গবেষণাপত্র যা, যদিও প্রযুক্তিগত পদ্ধতিতে তুলনামূলকভাবে ঐতিহ্যবাহী, নাগামিজ এই সম্পদ-সীমিত ভাষার জন্য প্রথম পার্ট-অফ-স্পিচ ট্যাগিং সিস্টেম স্থাপন করেছে, যার গুরুত্বপূর্ণ একাডেমিক মূল্য এবং সামাজিক তাৎপর্য রয়েছে। গবেষণা পদ্ধতি কঠোর, ডেটা নির্মাণ নিয়মিত এবং পরবর্তী গবেষণার জন্য দৃঢ় ভিত্তি স্থাপন করেছে।