2025-11-15T08:46:11.807319

Part-of-speech tagging for Nagamese Language using CRF

Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved. Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
academic

নাগামিজ ভাষার জন্য CRF ব্যবহার করে পার্ট-অফ-স্পিচ ট্যাগিং

মৌলিক তথ্য

  • পেপার আইডি: 2509.19343
  • শিরোনাম: Part-of-speech tagging for Nagamese Language using CRF
  • লেখক: Alovi N Shohe, Chonglio Khiamungam, Teisovi Angami
  • প্রতিষ্ঠান: Department of Information Technology, Nagaland University, Kohima Campus, India
  • শ্রেণীবিভাগ: cs.CL cs.AI
  • প্রকাশনার সময়: ২০২৫ সালের ১৩ অক্টোবর (arXiv v3)
  • পেপার লিঙ্ক: https://arxiv.org/abs/2509.19343

সারসংক্ষেপ

এই গবেষণাপত্রটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) এর একটি গুরুত্বপূর্ণ কাজ হিসেবে নাগামিজ ভাষার পার্ট-অফ-স্পিচ ট্যাগিং কাজটি অধ্যয়ন করেছে। নাগামিজ ভাষা, যা নাগা পিজিন নামেও পরিচিত, একটি ক্রিওল ভাষা যা আসামি ভাষার শব্দভাণ্ডারের উপর ভিত্তি করে তৈরি এবং ভারতের উত্তর-পূর্বাঞ্চলে নাগা এবং আসামিদের মধ্যে বাণিজ্য যোগাযোগের মাধ্যম হিসেবে বিকশিত হয়েছে। যদিও ইংরেজি এবং হিন্দির মতো সম্পদ-সমৃদ্ধ ভাষাগুলিতে পার্ট-অফ-স্পিচ ট্যাগিং সম্পর্কে ব্যাপক কাজ রয়েছে, নাগামিজ ভাষায় এই ক্ষেত্রে কোনো গবেষণা নেই। লেখকদের জ্ঞান অনুযায়ী, এটি নাগামিজ ভাষার জন্য পার্ট-অফ-স্পিচ ট্যাগিং এর প্রথম প্রচেষ্টা। গবেষণাটি ১৬,১১২টি টোকেন সম্বলিত একটি টীকাকৃত কর্পাস তৈরি করেছে এবং শর্তসাপেক্ষ র্যান্ডম ফিল্ড (CRF) মেশিন লার্নিং প্রযুক্তি প্রয়োগ করে ৮৫.৭০% সামগ্রিক ট্যাগিং নির্ভুলতা অর্জন করেছে, যেখানে নির্ভুলতা এবং পুনরুদ্ধার উভয়ই ৮৬% এবং F1 স্কোর ৮৫%।

গবেষণা পটভূমি এবং প্রেরণা

সমস্যা সংজ্ঞা

এই গবেষণাটি নাগামিজ ভাষায় পার্ট-অফ-স্পিচ ট্যাগিং সরঞ্জামের অভাব সমাধান করার লক্ষ্য রাখে। পার্ট-অফ-স্পিচ ট্যাগিং হল NLP এর একটি মৌলিক কাজ যা বাক্যের প্রতিটি শব্দের জন্য উপযুক্ত পার্ট-অফ-স্পিচ লেবেল নির্ধারণ করে।

গুরুত্ব

  1. ভাষা সংরক্ষণ: নাগামিজ নাগাল্যান্ডের সাধারণ ভাষা হিসেবে জনপ্রিয় মিডিয়া, সংবাদ, রেডিও এবং সরকারি মিডিয়ায় ব্যাপকভাবে ব্যবহৃত হয়
  2. সম্পদের স্বল্পতা: নাগামিজ একটি সম্পদ-সীমিত ভাষা যার ভাষা প্রক্রিয়াকরণ সরঞ্জাম এবং সম্পদের অভাব রয়েছে
  3. মৌলিক প্রয়োগ: পার্ট-অফ-স্পিচ ট্যাগিং অন্যান্য NLP প্রয়োগ যেমন অনুভূতি বিশ্লেষণ এবং মেশিন অনুবাদ তৈরির ভিত্তি

বিদ্যমান সীমাবদ্ধতা

  • প্রধান NLP সরঞ্জামগুলি প্রধানত ইংরেজি এবং হিন্দির মতো সম্পদ-সমৃদ্ধ ভাষার জন্য বিকশিত
  • নাগামিজ ভাষায় পূর্বে পার্ট-অফ-স্পিচ ট্যাগিং সম্পর্কে কোনো কাজ ছিল না
  • মানসম্মত টীকাকৃত কর্পাস এবং লেবেল সেটের অভাব

মূল অবদান

  1. অগ্রগামী গবেষণা: নাগামিজ ভাষার জন্য প্রথম পার্ট-অফ-স্পিচ ট্যাগিং গবেষণা
  2. লেবেল সেট ডিজাইন: Penn Treebank লেবেল সেটের উপর ভিত্তি করে নাগামিজের জন্য ১৫টি পার্ট-অফ-স্পিচ লেবেল ডিজাইন করা
  3. কর্পাস নির্মাণ: ১৬,১১৫টি টোকেন সম্বলিত হস্তনির্মিত টীকাকৃত কর্পাস তৈরি করা
  4. ভিত্তিরেখা মডেল: CRF প্রযুক্তি ব্যবহার করে নাগামিজ পার্ট-অফ-স্পিচ ট্যাগিং এর জন্য একটি ভিত্তিরেখা মডেল স্থাপন করা
  5. কর্মক্ষমতা মূল্যায়ন: বিস্তারিত ত্রুটি বিশ্লেষণ এবং কর্মক্ষমতা মূল্যায়ন প্রদান করা

পদ্ধতি বিস্তারিত

কাজের সংজ্ঞা

নাগামিজ ভাষার একটি বাক্য দেওয়া হলে, প্রতিটি শব্দের জন্য সংশ্লিষ্ট পার্ট-অফ-স্পিচ লেবেল নির্ধারণ করা।

ইনপুট: নাগামিজ বাক্যে শব্দের ক্রম আউটপুট: সংশ্লিষ্ট পার্ট-অফ-স্পিচ লেবেলের ক্রম উদাহরণ:

Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(God was pleased with what He saw.)

নাগামিজ ভাষার বৈশিষ্ট্য

অক্ষর সেট

  • স্বরবর্ণ: i, u, e, @, o, a (৬টি)
  • ব্যঞ্জনবর্ণ: p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, ṅ, s, š, h, r, I, w, y (২২টি)

সিলেবল প্যাটার্ন

  • এক সিলেবল: (C)(C)V(C)(C), কিন্তু V একা থাকতে পারে না
  • দুই সিলেবল: V(C)(C)(C)V(C) বা (C)CV(C)(C)CV(C)(C)
  • তিন সিলেবল: V(C)(C)CV(C)(C)CV(C) বা (C)CV(C)(C)V(C)(C)(C)V(C)
  • চার সিলেবল: (C)V(C)CVCV(C)CV(C)
  • পাঁচ সিলেবল শব্দ নেই (স্পষ্ট যৌগিক শব্দ ছাড়া)

লেবেল সেট ডিজাইন

Penn Treebank এর ৩৬টি লেবেল থেকে নাগামিজের জন্য উপযুক্ত ১৫টি লেবেলে সরলীকরণ করা হয়েছে:

ক্রমবিভাগলেবেল
1বিশেষণADJ
2ক্রিয়াবিশেষণADV
3সংযোজকCONJ
4পরিপূরক চিহ্নCMP
5নির্ধারকDET
6পরবর্তী অবস্থান/পূর্ববর্তী অবস্থানPP
7আন্তর্জেকশনINTJ
8বিশেষ্যN
9সর্বনামPN
10পরিমাণবাচকQN
11ক্রিয়াV
12বিদেশী শব্দFW
13প্রতীকSYM
14অজানা শব্দUNK
15সংখ্যাNUM

মডেল স্থাপত্য

শর্তসাপেক্ষ র্যান্ডম ফিল্ড (CRF)

রৈখিক শৃঙ্খল CRF মডেল ব্যবহার করা হয়েছে, যা ক্রমে সংলগ্ন লেবেলের প্রসঙ্গ বিবেচনা করতে পারে এবং সর্বাধিক এন্ট্রপি মার্কভ মডেল (MEMM) এর লেবেল পক্ষপাত সমস্যা অতিক্রম করে।

বৈশিষ্ট্য প্রকৌশল

সমৃদ্ধ বৈশিষ্ট্য সেট ডিজাইন করা হয়েছে:

  • বর্তমান শব্দ
  • বাক্যের শুরু/শেষ শব্দ কিনা
  • শব্দের বড় হাতের অক্ষর তথ্য
  • উপসর্গ (দৈর্ঘ্য ≤৩) এবং প্রত্যয় (দৈর্ঘ্য ≤৪)
  • পূর্ববর্তী শব্দ এবং পরবর্তী শব্দ
  • হাইফেন আছে কিনা
  • সংখ্যা কিনা
  • শব্দের মধ্যে বড় হাতের অক্ষর আছে কিনা

অপ্টিমাইজেশন সেটিংস

  • গ্রেডিয়েন্ট ডিসেন্ট: L-BFGS পদ্ধতি
  • পুনরাবৃত্তি সংখ্যা: ১০০ বার
  • নিয়মিতকরণ: অতিফিটিং প্রতিরোধের জন্য L1 এবং L2 নিয়মিতকরণ

পরীক্ষামূলক সেটআপ

ডেটাসেট নির্মাণ

  1. ডেটা উৎস: স্থানীয় সংবাদপত্র "Nagamese Khobor" থেকে নিবন্ধ সংগ্রহ করা হয়েছে, যাতে সংবাদ, ক্রীড়া ইত্যাদি বৈচিত্র্যময় বিষয়বস্তু রয়েছে
  2. কর্পাস আকার: প্রায় ২৬,০০০ শব্দের মূল কর্পাস, ১৬,১১৫টি টোকেন হস্তনির্মিত টীকাকৃত (৭৪৯টি বাক্য)
  3. টীকাকরণ প্রক্রিয়া: নাগামিজ মাতৃভাষী দ্বারা হস্তনির্মিত টীকাকরণ
  4. গুণমান যাচাইকরণ: অন্য একজন টীকাকারক ১,৮৬৪টি টোকেন টীকাকৃত করেছেন যাচাইয়ের জন্য, বিদেশী শব্দ সহ মতবিরোধের হার ৬.৭%, বিদেশী শব্দ বাদ দিয়ে মাত্র ১.২৩%

ডেটা বিতরণ

লেবেল ফ্রিকোয়েন্সি বিতরণ ডেটার অসামঞ্জস্য প্রদর্শন করে:

  • সর্বোচ্চ ফ্রিকোয়েন্সি: FW (বিদেশী শব্দ) - ৩,৭৪৪ বার
  • দ্বিতীয়: PP (পরবর্তী অবস্থান) - ২,৪১৮ বার
  • সর্বনিম্ন: CMP (পরিপূরক চিহ্ন) - ৩৫ বার

মূল্যায়ন মেট্রিক্স

  • নির্ভুলতা (Accuracy): সামগ্রিক ট্যাগিং সঠিকতা
  • নির্ভুলতা (Precision): TP/(TP+FP)
  • পুনরুদ্ধার (Recall): TP/(TP+FN)
  • F1 স্কোর: 2×(Precision×Recall)/(Precision+Recall)

পরীক্ষামূলক কনফিগারেশন

  • প্রশিক্ষণ/পরীক্ষা বিভাজন: ৭০:৩০
  • বাস্তবায়ন সরঞ্জাম: sklearn-crfsuite লাইব্রেরি

পরীক্ষামূলক ফলাফল

প্রধান ফলাফল

মেট্রিকমূল্য
সামগ্রিক নির্ভুলতা৮৫.৭০%
গড় নির্ভুলতা৮৬%
গড় পুনরুদ্ধার৮৬%
গড় F1 স্কোর৮৫%

প্রতিটি লেবেলের কর্মক্ষমতা বিশ্লেষণ

সর্বোত্তম পারফরম্যান্স:

  • SYM (প্রতীক): F1=0.99, নির্ভুলতা=0.99, পুনরুদ্ধার=0.98
  • NUM (সংখ্যা): F1=0.95, নির্ভুলতা=0.99, পুনরুদ্ধার=0.92
  • CONJ (সংযোজক): F1=0.91, নির্ভুলতা=0.95, পুনরুদ্ধার=0.87

দুর্বল পারফরম্যান্স:

  • UNK (অজানা শব্দ): F1=0.33, নির্ভুলতা=0.77, পুনরুদ্ধার=0.21
  • N (বিশেষ্য): F1=0.70, নির্ভুলতা=0.70, পুনরুদ্ধার=0.69
  • ADV (ক্রিয়াবিশেষণ): F1=0.71, নির্ভুলতা=0.74, পুনরুদ্ধার=0.69

ত্রুটি বিশ্লেষণ

প্রধান ত্রুটি প্যাটার্নগুলির মধ্যে রয়েছে:

  1. ADJ ভুলভাবে লেবেল করা হয়েছে: PP (১৫ বার), V (১৫ বার), N (১২ বার), FW (১১ বার)
  2. N ভুলভাবে লেবেল করা হয়েছে: FW (৭৬ বার), PP (২৬ বার), V (২৩ বার)
  3. FW ভুলভাবে লেবেল করা হয়েছে: N (৮১ বার), বিদেশী শব্দ সনাক্তকরণের চ্যালেঞ্জ প্রদর্শন করে

রূপান্তর প্যাটার্ন বিশ্লেষণ

  • সবচেয়ে সম্ভাব্য রূপান্তর: UNK → UNK
  • সবচেয়ে কম সম্ভাব্য রূপান্তর: PP → NUM

সম্পর্কিত কাজ

নাগামিজ আসামি ভাষার শব্দভাণ্ডার-ভিত্তিক ক্রিওল ভাষা হওয়ায়, গবেষণাপত্রটি আসামি ভাষার পার্ট-অফ-স্পিচ ট্যাগিং সম্পর্কিত কাজ পর্যালোচনা করেছে:

  1. Saharia et al. (2009): HMM ব্যবহার করে, ১৭২টি লেবেল, ১০k শব্দ প্রশিক্ষণ, ৮৭% নির্ভুলতা
  2. Phukan et al. (2024): অক্ষর-স্তরের LSTM এবং Bi-LSTM, ৬০k শব্দ, ৯৩.৩৬% নির্ভুলতা
  3. Pathak et al. (2023): BiLSTM-CRF স্থাপত্য, ৪০৪k টোকেন, F1=0.925
  4. Talukdar et al. (2024): RNN এবং GRU, ৩০k শব্দ, F1=94.56%

এই কাজগুলি এই গবেষণার জন্য প্রযুক্তিগত রেফারেন্স প্রদান করেছে, কিন্তু নাগামিজ একটি ক্রিওল ভাষা হিসেবে অনন্য ভাষাগত বৈশিষ্ট্য রয়েছে।

উপসংহার এবং আলোচনা

প্রধান উপসংহার

  1. নাগামিজ ভাষার পার্ট-অফ-স্পিচ ট্যাগিং এর প্রথম ভিত্তিরেখা সিস্টেম সফলভাবে স্থাপন করা হয়েছে
  2. CRF মডেল এই কাজে যুক্তিসঙ্গত কর্মক্ষমতা অর্জন করেছে (৮৫.৭০% নির্ভুলতা)
  3. তৈরি করা টীকাকৃত কর্পাস পরবর্তী গবেষণার জন্য ভিত্তি স্থাপন করেছে

সীমাবদ্ধতা

  1. লেবেল সেট আকার: মাত্র ১৫টি লেবেল ব্যবহার করা হয়েছে, যা ভাষার জটিলতা সম্পূর্ণভাবে ক্যাপচার করতে পারে না
  2. ডেটা আকার: ১৬,১১৫টি টোকেন তুলনামূলকভাবে ছোট, যা মডেলের সাধারণীকরণ ক্ষমতা প্রভাবিত করতে পারে
  3. ডেটা অসামঞ্জস্য: কিছু লেবেল (যেমন CMP) এর নমুনা অত্যন্ত কম, যা মডেল শেখাকে প্রভাবিত করে
  4. বিদেশী শব্দ চ্যালেঞ্জ: FW লেবেলের উচ্চ ফ্রিকোয়েন্সি এবং বিভ্রান্তি নির্দেশ করে যে বিদেশী শব্দ সনাক্তকরণ প্রধান কঠিনতা

ভবিষ্যত দিকনির্দেশনা

  1. লেবেল সেট সম্প্রসারণ: আরও সূক্ষ্ম-দানাদার পার্ট-অফ-স্পিচ লেবেল যোগ করা
  2. ডেটা পরিমাণ বৃদ্ধি: টীকাকৃত কর্পাস আকার সম্প্রসারণ করা
  3. প্রয়োগ সম্প্রসারণ: পার্ট-অফ-স্পিচ ট্যাগার অনুভূতি বিশ্লেষণ, মেশিন অনুবাদ ইত্যাদি প্রয়োগে ব্যবহার করা
  4. স্থানান্তর শেখা: আসামি ভাষা থেকে স্থানান্তর শেখার পদ্ধতি অন্বেষণ করা
  5. গভীর শেখা: LSTM, BERT ইত্যাদি আধুনিক গভীর শেখার পদ্ধতি চেষ্টা করা

গভীর মূল্যায়ন

শক্তি

  1. অগ্রগামী তাৎপর্য: নাগামিজ ভাষা NLP গবেষণার শূন্যতা পূরণ করা
  2. ভাষাগত বিশ্লেষণ: নাগামিজের ভাষাগত বৈশিষ্ট্য (ফোনোলজি, সিলেবল কাঠামো ইত্যাদি) বিস্তারিত বর্ণনা
  3. টীকাকরণ গুণমান: দ্বিগুণ টীকাকরণ যাচাইয়ের মাধ্যমে ডেটা গুণমান নিশ্চিত করা
  4. ত্রুটি বিশ্লেষণ: বিস্তারিত বিভ্রান্তি ম্যাট্রিক্স এবং ত্রুটি প্যাটার্ন বিশ্লেষণ প্রদান করা
  5. ব্যবহারিক মূল্য: সম্পদ-সীমিত ভাষার NLP গবেষণার জন্য উদাহরণ প্রদান করা

অপূর্ণতা

  1. পদ্ধতি সীমাবদ্ধতা: শুধুমাত্র ঐতিহ্যবাহী CRF পদ্ধতি ব্যবহার করা হয়েছে, আধুনিক গভীর শেখার প্রযুক্তি চেষ্টা করা হয়নি
  2. তুলনা অপূর্ণতা: অন্যান্য পদ্ধতির সাথে তুলনামূলক পরীক্ষার অভাব
  3. ডেটা বিকৃতি: বিদেশী শব্দের অত্যধিক অনুপাত (২৩%) মডেলের ব্যবহারিকতা প্রভাবিত করতে পারে
  4. বৈশিষ্ট্য প্রকৌশল: বৈশিষ্ট্য তুলনামূলকভাবে সহজ, গুরুত্বপূর্ণ ভাষাগত বৈশিষ্ট্য মিস করতে পারে
  5. মূল্যায়ন সীমাবদ্ধতা: শুধুমাত্র একক ডেটাসেটে মূল্যায়ন করা হয়েছে, ক্রস-ডোমেইন যাচাইয়ের অভাব

প্রভাব

  1. একাডেমিক অবদান: সম্পদ-সীমিত ভাষা NLP গবেষণার জন্য গুরুত্বপূর্ণ রেফারেন্স প্রদান করা
  2. সামাজিক মূল্য: নাগামিজ ভাষার ডিজিটাল সংরক্ষণ এবং উন্নয়নে সহায়তা করা
  3. প্রযুক্তিগত ভিত্তি: আরও জটিল নাগামিজ NLP প্রয়োগ নির্মাণের জন্য ভিত্তি স্থাপন করা
  4. পদ্ধতিবিদ্যা: সম্পদ-সীমিত ভাষার জন্য NLP সরঞ্জাম নির্মাণের সম্পূর্ণ প্রক্রিয়া প্রদর্শন করা

প্রযোজ্য পরিস্থিতি

  1. শিক্ষামূলক প্রয়োগ: নাগামিজ ভাষা শিক্ষা এবং শেখায় সহায়তা করা
  2. মিডিয়া প্রক্রিয়াকরণ: নাগামিজ সংবাদ এবং সোশ্যাল মিডিয়া বিষয়বস্তু স্বয়ংক্রিয় প্রক্রিয়াকরণ
  3. সরকারি সেবা: নাগাল্যান্ডের বহুভাষিক সরকারি সেবা সমর্থন করা
  4. গবেষণা ভিত্তি: নাগামিজ ভাষার আরও NLP গবেষণার জন্য মৌলিক সরঞ্জাম প্রদান করা

তথ্যসূত্র

গবেষণাপত্রটি নিম্নলিখিত মূল সাহিত্য উদ্ধৃত করেছে:

  1. Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - নাগামিজ ব্যাকরণ মানসম্মতকরণ গবেষণা
  2. Saharia et al. (2009). Part of speech tagger for assamese text. - আসামি ভাষা পার্ট-অফ-স্পিচ ট্যাগিং অগ্রদূত কাজ
  3. Pathak et al. (2022, 2023). আসামি ভাষা গভীর শেখা পার্ট-অফ-স্পিচ ট্যাগিং পদ্ধতি
  4. Phukan et al. (2023, 2024). আসামি ভাষা LSTM পার্ট-অফ-স্পিচ ট্যাগিং গবেষণা

সামগ্রিক মূল্যায়ন: এটি একটি গুরুত্বপূর্ণ অগ্রগামী তাৎপর্যের গবেষণাপত্র যা, যদিও প্রযুক্তিগত পদ্ধতিতে তুলনামূলকভাবে ঐতিহ্যবাহী, নাগামিজ এই সম্পদ-সীমিত ভাষার জন্য প্রথম পার্ট-অফ-স্পিচ ট্যাগিং সিস্টেম স্থাপন করেছে, যার গুরুত্বপূর্ণ একাডেমিক মূল্য এবং সামাজিক তাৎপর্য রয়েছে। গবেষণা পদ্ধতি কঠোর, ডেটা নির্মাণ নিয়মিত এবং পরবর্তী গবেষণার জন্য দৃঢ় ভিত্তি স্থাপন করেছে।