This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
āĻĒā§āĻĒāĻžāϰ āĻāĻāĻĄāĻŋ : 2509.19343āĻļāĻŋāϰā§āύāĻžāĻŽ : Part-of-speech tagging for Nagamese Language using CRFāϞā§āĻāĻ : Alovi N Shohe, Chonglio Khiamungam, Teisovi AngamiāĻĒā§āϰāϤāĻŋāώā§āĻ āĻžāύ : Department of Information Technology, Nagaland University, Kohima Campus, IndiaāĻļā§āϰā§āĻŖā§āĻŦāĻŋāĻāĻžāĻ : cs.CL cs.AIāĻĒā§āϰāĻāĻžāĻļāύāĻžāϰ āϏāĻŽāϝāĻŧ : ⧍ā§Ļ⧍ā§Ģ āϏāĻžāϞā§āϰ ā§§ā§Š āĻ
āĻā§āĻā§āĻŦāϰ (arXiv v3)āĻĒā§āĻĒāĻžāϰ āϞāĻŋāĻā§āĻ : https://arxiv.org/abs/2509.19343 āĻāĻ āĻāĻŦā§āώāĻŖāĻžāĻĒāϤā§āϰāĻāĻŋ āĻĒā§āϰāĻžāĻā§āϤāĻŋāĻ āĻāĻžāώāĻž āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻžāĻāϰāĻŖ (NLP) āĻāϰ āĻāĻāĻāĻŋ āĻā§āϰā§āϤā§āĻŦāĻĒā§āϰā§āĻŖ āĻāĻžāĻ āĻšāĻŋāϏā§āĻŦā§ āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϰ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻāĻžāĻāĻāĻŋ āĻ
āϧā§āϝāϝāĻŧāύ āĻāϰā§āĻā§āĨ¤ āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻž, āϝāĻž āύāĻžāĻāĻž āĻĒāĻŋāĻāĻŋāύ āύāĻžāĻŽā§āĻ āĻĒāϰāĻŋāĻāĻŋāϤ, āĻāĻāĻāĻŋ āĻā§āϰāĻŋāĻāϞ āĻāĻžāώāĻž āϝāĻž āĻāϏāĻžāĻŽāĻŋ āĻāĻžāώāĻžāϰ āĻļāĻŦā§āĻĻāĻāĻžāĻŖā§āĻĄāĻžāϰā§āϰ āĻāĻĒāϰ āĻāĻŋāϤā§āϤāĻŋ āĻāϰ⧠āϤā§āϰāĻŋ āĻāĻŦāĻ āĻāĻžāϰāϤā§āϰ āĻāϤā§āϤāϰ-āĻĒā§āϰā§āĻŦāĻžāĻā§āĻāϞ⧠āύāĻžāĻāĻž āĻāĻŦāĻ āĻāϏāĻžāĻŽāĻŋāĻĻā§āϰ āĻŽāϧā§āϝ⧠āĻŦāĻžāĻŖāĻŋāĻā§āϝ āϝā§āĻāĻžāϝā§āĻā§āϰ āĻŽāĻžāϧā§āϝāĻŽ āĻšāĻŋāϏā§āĻŦā§ āĻŦāĻŋāĻāĻļāĻŋāϤ āĻšāϝāĻŧā§āĻā§āĨ¤ āϝāĻĻāĻŋāĻ āĻāĻāϰā§āĻāĻŋ āĻāĻŦāĻ āĻšāĻŋāύā§āĻĻāĻŋāϰ āĻŽāϤ⧠āϏāĻŽā§āĻĒāĻĻ-āϏāĻŽā§āĻĻā§āϧ āĻāĻžāώāĻžāĻā§āϞāĻŋāϤ⧠āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āϏāĻŽā§āĻĒāϰā§āĻā§ āĻŦā§āϝāĻžāĻĒāĻ āĻāĻžāĻ āϰāϝāĻŧā§āĻā§, āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϝāĻŧ āĻāĻ āĻā§āώā§āϤā§āϰ⧠āĻā§āύ⧠āĻāĻŦā§āώāĻŖāĻž āύā§āĻāĨ¤ āϞā§āĻāĻāĻĻā§āϰ āĻā§āĻāĻžāύ āĻ
āύā§āϝāĻžāϝāĻŧā§, āĻāĻāĻŋ āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϰ āĻāύā§āϝ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻāϰ āĻĒā§āϰāĻĨāĻŽ āĻĒā§āϰāĻā§āώā§āĻāĻžāĨ¤ āĻāĻŦā§āώāĻŖāĻžāĻāĻŋ ā§§ā§Ŧ,⧧⧧⧍āĻāĻŋ āĻā§āĻā§āύ āϏāĻŽā§āĻŦāϞāĻŋāϤ āĻāĻāĻāĻŋ āĻā§āĻāĻžāĻā§āϤ āĻāϰā§āĻĒāĻžāϏ āϤā§āϰāĻŋ āĻāϰā§āĻā§ āĻāĻŦāĻ āĻļāϰā§āϤāϏāĻžāĻĒā§āĻā§āώ āϰā§āϝāĻžāύā§āĻĄāĻŽ āĻĢāĻŋāϞā§āĻĄ (CRF) āĻŽā§āĻļāĻŋāύ āϞāĻžāϰā§āύāĻŋāĻ āĻĒā§āϰāϝā§āĻā§āϤāĻŋ āĻĒā§āϰāϝāĻŧā§āĻ āĻāĻ°ā§ ā§Žā§Ģ.ā§ā§Ļ% āϏāĻžāĻŽāĻā§āϰāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āύāĻŋāϰā§āĻā§āϞāϤāĻž āĻ
āϰā§āĻāύ āĻāϰā§āĻā§, āϝā§āĻāĻžāύ⧠āύāĻŋāϰā§āĻā§āϞāϤāĻž āĻāĻŦāĻ āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ āĻāĻāϝāĻŧāĻ ā§Žā§Ŧ% āĻāĻŦāĻ F1 āϏā§āĻā§āϰ ā§Žā§Ģ%āĨ¤
āĻāĻ āĻāĻŦā§āώāĻŖāĻžāĻāĻŋ āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϝāĻŧ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āϏāϰāĻā§āĻāĻžāĻŽā§āϰ āĻ
āĻāĻžāĻŦ āϏāĻŽāĻžāϧāĻžāύ āĻāϰāĻžāϰ āϞāĻā§āώā§āϝ āϰāĻžāĻā§āĨ¤ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻšāϞ NLP āĻāϰ āĻāĻāĻāĻŋ āĻŽā§āϞāĻŋāĻ āĻāĻžāĻ āϝāĻž āĻŦāĻžāĻā§āϝā§āϰ āĻĒā§āϰāϤāĻŋāĻāĻŋ āĻļāĻŦā§āĻĻā§āϰ āĻāύā§āϝ āĻāĻĒāϝā§āĻā§āϤ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āϞā§āĻŦā§āϞ āύāĻŋāϰā§āϧāĻžāϰāĻŖ āĻāϰā§āĨ¤
āĻāĻžāώāĻž āϏāĻāϰāĻā§āώāĻŖ : āύāĻžāĻāĻžāĻŽāĻŋāĻ āύāĻžāĻāĻžāϞā§āϝāĻžāύā§āĻĄā§āϰ āϏāĻžāϧāĻžāϰāĻŖ āĻāĻžāώāĻž āĻšāĻŋāϏā§āĻŦā§ āĻāύāĻĒā§āϰāĻŋāϝāĻŧ āĻŽāĻŋāĻĄāĻŋāϝāĻŧāĻž, āϏāĻāĻŦāĻžāĻĻ, āϰā§āĻĄāĻŋāĻ āĻāĻŦāĻ āϏāϰāĻāĻžāϰāĻŋ āĻŽāĻŋāĻĄāĻŋāϝāĻŧāĻžāϝāĻŧ āĻŦā§āϝāĻžāĻĒāĻāĻāĻžāĻŦā§ āĻŦā§āϝāĻŦāĻšā§āϤ āĻšāϝāĻŧāϏāĻŽā§āĻĒāĻĻā§āϰ āϏā§āĻŦāϞā§āĻĒāϤāĻž : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻāĻāĻŋ āϏāĻŽā§āĻĒāĻĻ-āϏā§āĻŽāĻŋāϤ āĻāĻžāώāĻž āϝāĻžāϰ āĻāĻžāώāĻž āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻžāĻāϰāĻŖ āϏāϰāĻā§āĻāĻžāĻŽ āĻāĻŦāĻ āϏāĻŽā§āĻĒāĻĻā§āϰ āĻ
āĻāĻžāĻŦ āϰāϝāĻŧā§āĻā§āĻŽā§āϞāĻŋāĻ āĻĒā§āϰāϝāĻŧā§āĻ : āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻ
āύā§āϝāĻžāύā§āϝ NLP āĻĒā§āϰāϝāĻŧā§āĻ āϝā§āĻŽāύ āĻ
āύā§āĻā§āϤāĻŋ āĻŦāĻŋāĻļā§āϞā§āώāĻŖ āĻāĻŦāĻ āĻŽā§āĻļāĻŋāύ āĻ
āύā§āĻŦāĻžāĻĻ āϤā§āϰāĻŋāϰ āĻāĻŋāϤā§āϤāĻŋāĻĒā§āϰāϧāĻžāύ NLP āϏāϰāĻā§āĻāĻžāĻŽāĻā§āϞāĻŋ āĻĒā§āϰāϧāĻžāύāϤ āĻāĻāϰā§āĻāĻŋ āĻāĻŦāĻ āĻšāĻŋāύā§āĻĻāĻŋāϰ āĻŽāϤ⧠āϏāĻŽā§āĻĒāĻĻ-āϏāĻŽā§āĻĻā§āϧ āĻāĻžāώāĻžāϰ āĻāύā§āϝ āĻŦāĻŋāĻāĻļāĻŋāϤ āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϝāĻŧ āĻĒā§āϰā§āĻŦā§ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āϏāĻŽā§āĻĒāϰā§āĻā§ āĻā§āύ⧠āĻāĻžāĻ āĻāĻŋāϞ āύāĻž āĻŽāĻžāύāϏāĻŽā§āĻŽāϤ āĻā§āĻāĻžāĻā§āϤ āĻāϰā§āĻĒāĻžāϏ āĻāĻŦāĻ āϞā§āĻŦā§āϞ āϏā§āĻā§āϰ āĻ
āĻāĻžāĻŦ āĻ
āĻā§āϰāĻāĻžāĻŽā§ āĻāĻŦā§āώāĻŖāĻž : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϰ āĻāύā§āϝ āĻĒā§āϰāĻĨāĻŽ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻāĻŦā§āώāĻŖāĻžāϞā§āĻŦā§āϞ āϏā§āĻ āĻĄāĻŋāĻāĻžāĻāύ : Penn Treebank āϞā§āĻŦā§āϞ āϏā§āĻā§āϰ āĻāĻĒāϰ āĻāĻŋāϤā§āϤāĻŋ āĻāϰ⧠āύāĻžāĻāĻžāĻŽāĻŋāĻā§āϰ āĻāύā§āϝ ā§§ā§ĢāĻāĻŋ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āϞā§āĻŦā§āϞ āĻĄāĻŋāĻāĻžāĻāύ āĻāϰāĻžāĻāϰā§āĻĒāĻžāϏ āύāĻŋāϰā§āĻŽāĻžāĻŖ : ā§§ā§Ŧ,ā§§ā§§ā§ĢāĻāĻŋ āĻā§āĻā§āύ āϏāĻŽā§āĻŦāϞāĻŋāϤ āĻšāϏā§āϤāύāĻŋāϰā§āĻŽāĻŋāϤ āĻā§āĻāĻžāĻā§āϤ āĻāϰā§āĻĒāĻžāϏ āϤā§āϰāĻŋ āĻāϰāĻžāĻāĻŋāϤā§āϤāĻŋāϰā§āĻāĻž āĻŽāĻĄā§āϞ : CRF āĻĒā§āϰāϝā§āĻā§āϤāĻŋ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰ⧠āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻāϰ āĻāύā§āϝ āĻāĻāĻāĻŋ āĻāĻŋāϤā§āϤāĻŋāϰā§āĻāĻž āĻŽāĻĄā§āϞ āϏā§āĻĨāĻžāĻĒāύ āĻāϰāĻžāĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ : āĻŦāĻŋāϏā§āϤāĻžāϰāĻŋāϤ āϤā§āϰā§āĻāĻŋ āĻŦāĻŋāĻļā§āϞā§āώāĻŖ āĻāĻŦāĻ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ āĻĒā§āϰāĻĻāĻžāύ āĻāϰāĻžāύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϰ āĻāĻāĻāĻŋ āĻŦāĻžāĻā§āϝ āĻĻā§āĻāϝāĻŧāĻž āĻšāϞā§, āĻĒā§āϰāϤāĻŋāĻāĻŋ āĻļāĻŦā§āĻĻā§āϰ āĻāύā§āϝ āϏāĻāĻļā§āϞāĻŋāώā§āĻ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āϞā§āĻŦā§āϞ āύāĻŋāϰā§āϧāĻžāϰāĻŖ āĻāϰāĻžāĨ¤
āĻāύāĻĒā§āĻ : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻŦāĻžāĻā§āϝ⧠āĻļāĻŦā§āĻĻā§āϰ āĻā§āϰāĻŽ
āĻāĻāĻāĻĒā§āĻ : āϏāĻāĻļā§āϞāĻŋāώā§āĻ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āϞā§āĻŦā§āϞā§āϰ āĻā§āϰāĻŽ
āĻāĻĻāĻžāĻšāϰāĻŖ :
Itu/ADJECTIVE dikhikena/VERB Isor/NOUN khusi/ADJECTIVE lagise/VERB ./SYM
(God was pleased with what He saw.)
āϏā§āĻŦāϰāĻŦāϰā§āĻŖ : i, u, e, @, o, a (ā§ŦāĻāĻŋ)āĻŦā§āϝāĻā§āĻāύāĻŦāϰā§āĻŖ : p, t, c, k, b, d, j, g, ph, th, ch, kh, m, n, áš
, s, ÅĄ, h, r, I, w, y (⧍⧍āĻāĻŋ)āĻāĻ āϏāĻŋāϞā§āĻŦāϞ : (C)(C)V(C)(C), āĻāĻŋāύā§āϤ⧠V āĻāĻāĻž āĻĨāĻžāĻāϤ⧠āĻĒāĻžāϰ⧠āύāĻžāĻĻā§āĻ āϏāĻŋāϞā§āĻŦāϞ : V(C)(C)(C)V(C) āĻŦāĻž (C)CV(C)(C)CV(C)(C)āϤāĻŋāύ āϏāĻŋāϞā§āĻŦāϞ : V(C)(C)CV(C)(C)CV(C) āĻŦāĻž (C)CV(C)(C)V(C)(C)(C)V(C)āĻāĻžāϰ āϏāĻŋāϞā§āĻŦāϞ : (C)V(C)CVCV(C)CV(C)āĻĒāĻžāĻāĻ āϏāĻŋāϞā§āĻŦāϞ āĻļāĻŦā§āĻĻ āύā§āĻ (āϏā§āĻĒāώā§āĻ āϝā§āĻāĻŋāĻ āĻļāĻŦā§āĻĻ āĻāĻžāĻĄāĻŧāĻž) Penn Treebank āĻāϰ ā§Šā§ŦāĻāĻŋ āϞā§āĻŦā§āϞ āĻĨā§āĻā§ āύāĻžāĻāĻžāĻŽāĻŋāĻā§āϰ āĻāύā§āϝ āĻāĻĒāϝā§āĻā§āϤ ā§§ā§ĢāĻāĻŋ āϞā§āĻŦā§āϞ⧠āϏāϰāϞā§āĻāϰāĻŖ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§:
āĻā§āϰāĻŽ āĻŦāĻŋāĻāĻžāĻ āϞā§āĻŦā§āϞ 1 āĻŦāĻŋāĻļā§āώāĻŖ ADJ 2 āĻā§āϰāĻŋāϝāĻŧāĻžāĻŦāĻŋāĻļā§āώāĻŖ ADV 3 āϏāĻāϝā§āĻāĻ CONJ 4 āĻĒāϰāĻŋāĻĒā§āϰāĻ āĻāĻŋāĻšā§āύ CMP 5 āύāĻŋāϰā§āϧāĻžāϰāĻ DET 6 āĻĒāϰāĻŦāϰā§āϤ⧠āĻ
āĻŦāϏā§āĻĨāĻžāύ/āĻĒā§āϰā§āĻŦāĻŦāϰā§āϤ⧠āĻ
āĻŦāϏā§āĻĨāĻžāύ PP 7 āĻāύā§āϤāϰā§āĻā§āĻāĻļāύ INTJ 8 āĻŦāĻŋāĻļā§āώā§āϝ N 9 āϏāϰā§āĻŦāύāĻžāĻŽ PN 10 āĻĒāϰāĻŋāĻŽāĻžāĻŖāĻŦāĻžāĻāĻ QN 11 āĻā§āϰāĻŋāϝāĻŧāĻž V 12 āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻ FW 13 āĻĒā§āϰāϤā§āĻ SYM 14 āĻ
āĻāĻžāύāĻž āĻļāĻŦā§āĻĻ UNK 15 āϏāĻāĻā§āϝāĻž NUM
āϰā§āĻāĻŋāĻ āĻļā§āĻā§āĻāϞ CRF āĻŽāĻĄā§āϞ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§, āϝāĻž āĻā§āϰāĻŽā§ āϏāĻāϞāĻā§āύ āϞā§āĻŦā§āϞā§āϰ āĻĒā§āϰāϏāĻā§āĻ āĻŦāĻŋāĻŦā§āĻāύāĻž āĻāϰāϤ⧠āĻĒāĻžāϰ⧠āĻāĻŦāĻ āϏāϰā§āĻŦāĻžāϧāĻŋāĻ āĻāύā§āĻā§āϰāĻĒāĻŋ āĻŽāĻžāϰā§āĻāĻ āĻŽāĻĄā§āϞ (MEMM) āĻāϰ āϞā§āĻŦā§āϞ āĻĒāĻā§āώāĻĒāĻžāϤ āϏāĻŽāϏā§āϝāĻž āĻ
āϤāĻŋāĻā§āϰāĻŽ āĻāϰā§āĨ¤
āϏāĻŽā§āĻĻā§āϧ āĻŦā§āĻļāĻŋāώā§āĻā§āϝ āϏā§āĻ āĻĄāĻŋāĻāĻžāĻāύ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§:
āĻŦāϰā§āϤāĻŽāĻžāύ āĻļāĻŦā§āĻĻ āĻŦāĻžāĻā§āϝā§āϰ āĻļā§āϰā§/āĻļā§āώ āĻļāĻŦā§āĻĻ āĻāĻŋāύāĻž āĻļāĻŦā§āĻĻā§āϰ āĻŦāĻĄāĻŧ āĻšāĻžāϤā§āϰ āĻ
āĻā§āώāϰ āϤāĻĨā§āϝ āĻāĻĒāϏāϰā§āĻ (āĻĻā§āϰā§āĻā§āϝ â¤ā§Š) āĻāĻŦāĻ āĻĒā§āϰāϤā§āϝāϝāĻŧ (āĻĻā§āϰā§āĻā§āϝ â¤ā§Ē) āĻĒā§āϰā§āĻŦāĻŦāϰā§āϤ⧠āĻļāĻŦā§āĻĻ āĻāĻŦāĻ āĻĒāϰāĻŦāϰā§āϤ⧠āĻļāĻŦā§āĻĻ āĻšāĻžāĻāĻĢā§āύ āĻāĻā§ āĻāĻŋāύāĻž āϏāĻāĻā§āϝāĻž āĻāĻŋāύāĻž āĻļāĻŦā§āĻĻā§āϰ āĻŽāϧā§āϝ⧠āĻŦāĻĄāĻŧ āĻšāĻžāϤā§āϰ āĻ
āĻā§āώāϰ āĻāĻā§ āĻāĻŋāύāĻž āĻā§āϰā§āĻĄāĻŋāϝāĻŧā§āύā§āĻ āĻĄāĻŋāϏā§āύā§āĻ: L-BFGS āĻĒāĻĻā§āϧāϤāĻŋ āĻĒā§āύāϰāĻžāĻŦā§āϤā§āϤāĻŋ āϏāĻāĻā§āϝāĻž: ā§§ā§Ļā§Ļ āĻŦāĻžāϰ āύāĻŋāϝāĻŧāĻŽāĻŋāϤāĻāϰāĻŖ: āĻ
āϤāĻŋāĻĢāĻŋāĻāĻŋāĻ āĻĒā§āϰāϤāĻŋāϰā§āϧā§āϰ āĻāύā§āϝ L1 āĻāĻŦāĻ L2 āύāĻŋāϝāĻŧāĻŽāĻŋāϤāĻāϰāĻŖ āĻĄā§āĻāĻž āĻā§āϏ : āϏā§āĻĨāĻžāύā§āϝāĻŧ āϏāĻāĻŦāĻžāĻĻāĻĒāϤā§āϰ "Nagamese Khobor" āĻĨā§āĻā§ āύāĻŋāĻŦāύā§āϧ āϏāĻāĻā§āϰāĻš āĻāϰāĻž āĻšāϝāĻŧā§āĻā§, āϝāĻžāϤ⧠āϏāĻāĻŦāĻžāĻĻ, āĻā§āϰā§āĻĄāĻŧāĻž āĻāϤā§āϝāĻžāĻĻāĻŋ āĻŦā§āĻāĻŋāϤā§āϰā§āϝāĻŽāϝāĻŧ āĻŦāĻŋāώāϝāĻŧāĻŦāϏā§āϤ⧠āϰāϝāĻŧā§āĻā§āĻāϰā§āĻĒāĻžāϏ āĻāĻāĻžāϰ : āĻĒā§āϰāĻžāϝāĻŧ ⧍ā§Ŧ,ā§Ļā§Ļā§Ļ āĻļāĻŦā§āĻĻā§āϰ āĻŽā§āϞ āĻāϰā§āĻĒāĻžāϏ, ā§§ā§Ŧ,ā§§ā§§ā§ĢāĻāĻŋ āĻā§āĻā§āύ āĻšāϏā§āϤāύāĻŋāϰā§āĻŽāĻŋāϤ āĻā§āĻāĻžāĻā§āϤ (ā§ā§Ē⧝āĻāĻŋ āĻŦāĻžāĻā§āϝ)āĻā§āĻāĻžāĻāϰāĻŖ āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻž : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻŽāĻžāϤā§āĻāĻžāώ⧠āĻĻā§āĻŦāĻžāϰāĻž āĻšāϏā§āϤāύāĻŋāϰā§āĻŽāĻŋāϤ āĻā§āĻāĻžāĻāϰāĻŖāĻā§āĻŖāĻŽāĻžāύ āϝāĻžāĻāĻžāĻāĻāϰāĻŖ : āĻ
āύā§āϝ āĻāĻāĻāύ āĻā§āĻāĻžāĻāĻžāϰāĻ ā§§,ā§Žā§Ŧā§ĒāĻāĻŋ āĻā§āĻā§āύ āĻā§āĻāĻžāĻā§āϤ āĻāϰā§āĻā§āύ āϝāĻžāĻāĻžāĻāϝāĻŧā§āϰ āĻāύā§āϝ, āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻ āϏāĻš āĻŽāϤāĻŦāĻŋāϰā§āϧā§āϰ āĻšāĻžāϰ ā§Ŧ.ā§%, āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻ āĻŦāĻžāĻĻ āĻĻāĻŋāϝāĻŧā§ āĻŽāĻžāϤā§āϰ ā§§.ā§¨ā§Š%āϞā§āĻŦā§āϞ āĻĢā§āϰāĻŋāĻā§āϝāĻŧā§āύā§āϏāĻŋ āĻŦāĻŋāϤāϰāĻŖ āĻĄā§āĻāĻžāϰ āĻ
āϏāĻžāĻŽāĻā§āĻāϏā§āϝ āĻĒā§āϰāĻĻāϰā§āĻļāύ āĻāϰā§:
āϏāϰā§āĻŦā§āĻā§āĻ āĻĢā§āϰāĻŋāĻā§āϝāĻŧā§āύā§āϏāĻŋ: FW (āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻ) - ā§Š,ā§ā§Ēā§Ē āĻŦāĻžāϰ āĻĻā§āĻŦāĻŋāϤā§āϝāĻŧ: PP (āĻĒāϰāĻŦāϰā§āϤ⧠āĻ
āĻŦāϏā§āĻĨāĻžāύ) - ⧍,ā§Ēā§§ā§Ž āĻŦāĻžāϰ āϏāϰā§āĻŦāύāĻŋāĻŽā§āύ: CMP (āĻĒāϰāĻŋāĻĒā§āϰāĻ āĻāĻŋāĻšā§āύ) - ā§Šā§Ģ āĻŦāĻžāϰ āύāĻŋāϰā§āĻā§āϞāϤāĻž (Accuracy) : āϏāĻžāĻŽāĻā§āϰāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āϏāĻ āĻŋāĻāϤāĻžāύāĻŋāϰā§āĻā§āϞāϤāĻž (Precision) : TP/(TP+FP)āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ (Recall) : TP/(TP+FN)F1 āϏā§āĻā§āϰ : 2Ã(PrecisionÃRecall)/(Precision+Recall)āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ/āĻĒāϰā§āĻā§āώāĻž āĻŦāĻŋāĻāĻžāĻāύ: ā§ā§Ļ:ā§Šā§Ļ āĻŦāĻžāϏā§āϤāĻŦāĻžāϝāĻŧāύ āϏāϰāĻā§āĻāĻžāĻŽ: sklearn-crfsuite āϞāĻžāĻāĻŦā§āϰā§āϰāĻŋ āĻŽā§āĻā§āϰāĻŋāĻ āĻŽā§āϞā§āϝ āϏāĻžāĻŽāĻā§āϰāĻŋāĻ āύāĻŋāϰā§āĻā§āϞāϤāĻž ā§Žā§Ģ.ā§ā§Ļ% āĻāĻĄāĻŧ āύāĻŋāϰā§āĻā§āϞāϤāĻž ā§Žā§Ŧ% āĻāĻĄāĻŧ āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ ā§Žā§Ŧ% āĻāĻĄāĻŧ F1 āϏā§āĻā§āϰ ā§Žā§Ģ%
āϏāϰā§āĻŦā§āϤā§āϤāĻŽ āĻĒāĻžāϰāĻĢāϰāĻŽā§āϝāĻžāύā§āϏ :
SYM (āĻĒā§āϰāϤā§āĻ): F1=0.99, āύāĻŋāϰā§āĻā§āϞāϤāĻž=0.99, āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ=0.98 NUM (āϏāĻāĻā§āϝāĻž): F1=0.95, āύāĻŋāϰā§āĻā§āϞāϤāĻž=0.99, āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ=0.92 CONJ (āϏāĻāϝā§āĻāĻ): F1=0.91, āύāĻŋāϰā§āĻā§āϞāϤāĻž=0.95, āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ=0.87 āĻĻā§āϰā§āĻŦāϞ āĻĒāĻžāϰāĻĢāϰāĻŽā§āϝāĻžāύā§āϏ :
UNK (āĻ
āĻāĻžāύāĻž āĻļāĻŦā§āĻĻ): F1=0.33, āύāĻŋāϰā§āĻā§āϞāϤāĻž=0.77, āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ=0.21 N (āĻŦāĻŋāĻļā§āώā§āϝ): F1=0.70, āύāĻŋāϰā§āĻā§āϞāϤāĻž=0.70, āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ=0.69 ADV (āĻā§āϰāĻŋāϝāĻŧāĻžāĻŦāĻŋāĻļā§āώāĻŖ): F1=0.71, āύāĻŋāϰā§āĻā§āϞāϤāĻž=0.74, āĻĒā§āύāϰā§āĻĻā§āϧāĻžāϰ=0.69 āĻĒā§āϰāϧāĻžāύ āϤā§āϰā§āĻāĻŋ āĻĒā§āϝāĻžāĻāĻžāϰā§āύāĻā§āϞāĻŋāϰ āĻŽāϧā§āϝ⧠āϰāϝāĻŧā§āĻā§:
ADJ āĻā§āϞāĻāĻžāĻŦā§ āϞā§āĻŦā§āϞ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§ : PP (ā§§ā§Ģ āĻŦāĻžāϰ), V (ā§§ā§Ģ āĻŦāĻžāϰ), N (⧧⧍ āĻŦāĻžāϰ), FW (ā§§ā§§ āĻŦāĻžāϰ)N āĻā§āϞāĻāĻžāĻŦā§ āϞā§āĻŦā§āϞ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§ : FW (ā§ā§Ŧ āĻŦāĻžāϰ), PP (⧍ā§Ŧ āĻŦāĻžāϰ), V (ā§¨ā§Š āĻŦāĻžāϰ)FW āĻā§āϞāĻāĻžāĻŦā§ āϞā§āĻŦā§āϞ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§ : N (ā§Žā§§ āĻŦāĻžāϰ), āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻ āϏāύāĻžāĻā§āϤāĻāϰāĻŖā§āϰ āĻā§āϝāĻžāϞā§āĻā§āĻ āĻĒā§āϰāĻĻāϰā§āĻļāύ āĻāϰā§āϏāĻŦāĻā§āϝāĻŧā§ āϏāĻŽā§āĻāĻžāĻŦā§āϝ āϰā§āĻĒāĻžāύā§āϤāϰ : UNK â UNKāϏāĻŦāĻā§āϝāĻŧā§ āĻāĻŽ āϏāĻŽā§āĻāĻžāĻŦā§āϝ āϰā§āĻĒāĻžāύā§āϤāϰ : PP â NUMāύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāϏāĻžāĻŽāĻŋ āĻāĻžāώāĻžāϰ āĻļāĻŦā§āĻĻāĻāĻžāĻŖā§āĻĄāĻžāϰ-āĻāĻŋāϤā§āϤāĻŋāĻ āĻā§āϰāĻŋāĻāϞ āĻāĻžāώāĻž āĻšāĻāϝāĻŧāĻžāϝāĻŧ, āĻāĻŦā§āώāĻŖāĻžāĻĒāϤā§āϰāĻāĻŋ āĻāϏāĻžāĻŽāĻŋ āĻāĻžāώāĻžāϰ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āϏāĻŽā§āĻĒāϰā§āĻāĻŋāϤ āĻāĻžāĻ āĻĒāϰā§āϝāĻžāϞā§āĻāύāĻž āĻāϰā§āĻā§:
Saharia et al. (2009) : HMM āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰā§, ā§§ā§ā§¨āĻāĻŋ āϞā§āĻŦā§āϞ, ā§§ā§Ļk āĻļāĻŦā§āĻĻ āĻĒā§āϰāĻļāĻŋāĻā§āώāĻŖ, ā§Žā§% āύāĻŋāϰā§āĻā§āϞāϤāĻžPhukan et al. (2024) : āĻ
āĻā§āώāϰ-āϏā§āϤāϰā§āϰ LSTM āĻāĻŦāĻ Bi-LSTM, ā§Ŧā§Ļk āĻļāĻŦā§āĻĻ, ā§¯ā§Š.ā§Šā§Ŧ% āύāĻŋāϰā§āĻā§āϞāϤāĻžPathak et al. (2023) : BiLSTM-CRF āϏā§āĻĨāĻžāĻĒāϤā§āϝ, ā§Ēā§Ļā§Ēk āĻā§āĻā§āύ, F1=0.925Talukdar et al. (2024) : RNN āĻāĻŦāĻ GRU, ā§Šā§Ļk āĻļāĻŦā§āĻĻ, F1=94.56%āĻāĻ āĻāĻžāĻāĻā§āϞāĻŋ āĻāĻ āĻāĻŦā§āώāĻŖāĻžāϰ āĻāύā§āϝ āĻĒā§āϰāϝā§āĻā§āϤāĻŋāĻāϤ āϰā§āĻĢāĻžāϰā§āύā§āϏ āĻĒā§āϰāĻĻāĻžāύ āĻāϰā§āĻā§, āĻāĻŋāύā§āϤ⧠āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻāĻāĻŋ āĻā§āϰāĻŋāĻāϞ āĻāĻžāώāĻž āĻšāĻŋāϏā§āĻŦā§ āĻ
āύāύā§āϝ āĻāĻžāώāĻžāĻāϤ āĻŦā§āĻļāĻŋāώā§āĻā§āϝ āϰāϝāĻŧā§āĻā§āĨ¤
āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϰ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻāϰ āĻĒā§āϰāĻĨāĻŽ āĻāĻŋāϤā§āϤāĻŋāϰā§āĻāĻž āϏāĻŋāϏā§āĻā§āĻŽ āϏāĻĢāϞāĻāĻžāĻŦā§ āϏā§āĻĨāĻžāĻĒāύ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§ CRF āĻŽāĻĄā§āϞ āĻāĻ āĻāĻžāĻā§ āϝā§āĻā§āϤāĻŋāϏāĻā§āĻāϤ āĻāϰā§āĻŽāĻā§āώāĻŽāϤāĻž āĻ
āϰā§āĻāύ āĻāϰā§āĻā§ (ā§Žā§Ģ.ā§ā§Ļ% āύāĻŋāϰā§āĻā§āϞāϤāĻž) āϤā§āϰāĻŋ āĻāϰāĻž āĻā§āĻāĻžāĻā§āϤ āĻāϰā§āĻĒāĻžāϏ āĻĒāϰāĻŦāϰā§āϤ⧠āĻāĻŦā§āώāĻŖāĻžāϰ āĻāύā§āϝ āĻāĻŋāϤā§āϤāĻŋ āϏā§āĻĨāĻžāĻĒāύ āĻāϰā§āĻā§ āϞā§āĻŦā§āϞ āϏā§āĻ āĻāĻāĻžāϰ : āĻŽāĻžāϤā§āϰ ā§§ā§ĢāĻāĻŋ āϞā§āĻŦā§āϞ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§, āϝāĻž āĻāĻžāώāĻžāϰ āĻāĻāĻŋāϞāϤāĻž āϏāĻŽā§āĻĒā§āϰā§āĻŖāĻāĻžāĻŦā§ āĻā§āϝāĻžāĻĒāĻāĻžāϰ āĻāϰāϤ⧠āĻĒāĻžāϰ⧠āύāĻžāĻĄā§āĻāĻž āĻāĻāĻžāϰ : ā§§ā§Ŧ,ā§§ā§§ā§ĢāĻāĻŋ āĻā§āĻā§āύ āϤā§āϞāύāĻžāĻŽā§āϞāĻāĻāĻžāĻŦā§ āĻā§āĻ, āϝāĻž āĻŽāĻĄā§āϞā§āϰ āϏāĻžāϧāĻžāϰāĻŖā§āĻāϰāĻŖ āĻā§āώāĻŽāϤāĻž āĻĒā§āϰāĻāĻžāĻŦāĻŋāϤ āĻāϰāϤ⧠āĻĒāĻžāϰā§āĻĄā§āĻāĻž āĻ
āϏāĻžāĻŽāĻā§āĻāϏā§āϝ : āĻāĻŋāĻā§ āϞā§āĻŦā§āϞ (āϝā§āĻŽāύ CMP) āĻāϰ āύāĻŽā§āύāĻž āĻ
āϤā§āϝāύā§āϤ āĻāĻŽ, āϝāĻž āĻŽāĻĄā§āϞ āĻļā§āĻāĻžāĻā§ āĻĒā§āϰāĻāĻžāĻŦāĻŋāϤ āĻāϰā§āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻ āĻā§āϝāĻžāϞā§āĻā§āĻ : FW āϞā§āĻŦā§āϞā§āϰ āĻāĻā§āĻ āĻĢā§āϰāĻŋāĻā§āϝāĻŧā§āύā§āϏāĻŋ āĻāĻŦāĻ āĻŦāĻŋāĻā§āϰāĻžāύā§āϤāĻŋ āύāĻŋāϰā§āĻĻā§āĻļ āĻāϰ⧠āϝ⧠āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻ āϏāύāĻžāĻā§āϤāĻāϰāĻŖ āĻĒā§āϰāϧāĻžāύ āĻāĻ āĻŋāύāϤāĻžāϞā§āĻŦā§āϞ āϏā§āĻ āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ : āĻāϰāĻ āϏā§āĻā§āώā§āĻŽ-āĻĻāĻžāύāĻžāĻĻāĻžāϰ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āϞā§āĻŦā§āϞ āϝā§āĻ āĻāϰāĻžāĻĄā§āĻāĻž āĻĒāϰāĻŋāĻŽāĻžāĻŖ āĻŦā§āĻĻā§āϧāĻŋ : āĻā§āĻāĻžāĻā§āϤ āĻāϰā§āĻĒāĻžāϏ āĻāĻāĻžāϰ āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ āĻāϰāĻžāĻĒā§āϰāϝāĻŧā§āĻ āϏāĻŽā§āĻĒā§āϰāϏāĻžāϰāĻŖ : āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻžāϰ āĻ
āύā§āĻā§āϤāĻŋ āĻŦāĻŋāĻļā§āϞā§āώāĻŖ, āĻŽā§āĻļāĻŋāύ āĻ
āύā§āĻŦāĻžāĻĻ āĻāϤā§āϝāĻžāĻĻāĻŋ āĻĒā§āϰāϝāĻŧā§āĻā§ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰāĻžāϏā§āĻĨāĻžāύāĻžāύā§āϤāϰ āĻļā§āĻāĻž : āĻāϏāĻžāĻŽāĻŋ āĻāĻžāώāĻž āĻĨā§āĻā§ āϏā§āĻĨāĻžāύāĻžāύā§āϤāϰ āĻļā§āĻāĻžāϰ āĻĒāĻĻā§āϧāϤāĻŋ āĻ
āύā§āĻŦā§āώāĻŖ āĻāϰāĻžāĻāĻā§āϰ āĻļā§āĻāĻž : LSTM, BERT āĻāϤā§āϝāĻžāĻĻāĻŋ āĻāϧā§āύāĻŋāĻ āĻāĻā§āϰ āĻļā§āĻāĻžāϰ āĻĒāĻĻā§āϧāϤāĻŋ āĻā§āώā§āĻāĻž āĻāϰāĻžāĻ
āĻā§āϰāĻāĻžāĻŽā§ āϤāĻžā§āĻĒāϰā§āϝ : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻž NLP āĻāĻŦā§āώāĻŖāĻžāϰ āĻļā§āύā§āϝāϤāĻž āĻĒā§āϰāĻŖ āĻāϰāĻžāĻāĻžāώāĻžāĻāϤ āĻŦāĻŋāĻļā§āϞā§āώāĻŖ : āύāĻžāĻāĻžāĻŽāĻŋāĻā§āϰ āĻāĻžāώāĻžāĻāϤ āĻŦā§āĻļāĻŋāώā§āĻā§āϝ (āĻĢā§āύā§āϞāĻāĻŋ, āϏāĻŋāϞā§āĻŦāϞ āĻāĻžāĻ āĻžāĻŽā§ āĻāϤā§āϝāĻžāĻĻāĻŋ) āĻŦāĻŋāϏā§āϤāĻžāϰāĻŋāϤ āĻŦāϰā§āĻŖāύāĻžāĻā§āĻāĻžāĻāϰāĻŖ āĻā§āĻŖāĻŽāĻžāύ : āĻĻā§āĻŦāĻŋāĻā§āĻŖ āĻā§āĻāĻžāĻāϰāĻŖ āϝāĻžāĻāĻžāĻāϝāĻŧā§āϰ āĻŽāĻžāϧā§āϝāĻŽā§ āĻĄā§āĻāĻž āĻā§āĻŖāĻŽāĻžāύ āύāĻŋāĻļā§āĻāĻŋāϤ āĻāϰāĻžāϤā§āϰā§āĻāĻŋ āĻŦāĻŋāĻļā§āϞā§āώāĻŖ : āĻŦāĻŋāϏā§āϤāĻžāϰāĻŋāϤ āĻŦāĻŋāĻā§āϰāĻžāύā§āϤāĻŋ āĻŽā§āϝāĻžāĻā§āϰāĻŋāĻā§āϏ āĻāĻŦāĻ āϤā§āϰā§āĻāĻŋ āĻĒā§āϝāĻžāĻāĻžāϰā§āύ āĻŦāĻŋāĻļā§āϞā§āώāĻŖ āĻĒā§āϰāĻĻāĻžāύ āĻāϰāĻžāĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻ āĻŽā§āϞā§āϝ : āϏāĻŽā§āĻĒāĻĻ-āϏā§āĻŽāĻŋāϤ āĻāĻžāώāĻžāϰ NLP āĻāĻŦā§āώāĻŖāĻžāϰ āĻāύā§āϝ āĻāĻĻāĻžāĻšāϰāĻŖ āĻĒā§āϰāĻĻāĻžāύ āĻāϰāĻžāĻĒāĻĻā§āϧāϤāĻŋ āϏā§āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž : āĻļā§āϧā§āĻŽāĻžāϤā§āϰ āĻāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§ CRF āĻĒāĻĻā§āϧāϤāĻŋ āĻŦā§āϝāĻŦāĻšāĻžāϰ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§, āĻāϧā§āύāĻŋāĻ āĻāĻā§āϰ āĻļā§āĻāĻžāϰ āĻĒā§āϰāϝā§āĻā§āϤāĻŋ āĻā§āώā§āĻāĻž āĻāϰāĻž āĻšāϝāĻŧāύāĻŋāϤā§āϞāύāĻž āĻ
āĻĒā§āϰā§āĻŖāϤāĻž : āĻ
āύā§āϝāĻžāύā§āϝ āĻĒāĻĻā§āϧāϤāĻŋāϰ āϏāĻžāĻĨā§ āϤā§āϞāύāĻžāĻŽā§āϞāĻ āĻĒāϰā§āĻā§āώāĻžāϰ āĻ
āĻāĻžāĻŦāĻĄā§āĻāĻž āĻŦāĻŋāĻā§āϤāĻŋ : āĻŦāĻŋāĻĻā§āĻļā§ āĻļāĻŦā§āĻĻā§āϰ āĻ
āϤā§āϝāϧāĻŋāĻ āĻ
āύā§āĻĒāĻžāϤ (ā§¨ā§Š%) āĻŽāĻĄā§āϞā§āϰ āĻŦā§āϝāĻŦāĻšāĻžāϰāĻŋāĻāϤāĻž āĻĒā§āϰāĻāĻžāĻŦāĻŋāϤ āĻāϰāϤ⧠āĻĒāĻžāϰā§āĻŦā§āĻļāĻŋāώā§āĻā§āϝ āĻĒā§āϰāĻā§āĻļāϞ : āĻŦā§āĻļāĻŋāώā§āĻā§āϝ āϤā§āϞāύāĻžāĻŽā§āϞāĻāĻāĻžāĻŦā§ āϏāĻšāĻ, āĻā§āϰā§āϤā§āĻŦāĻĒā§āϰā§āĻŖ āĻāĻžāώāĻžāĻāϤ āĻŦā§āĻļāĻŋāώā§āĻā§āϝ āĻŽāĻŋāϏ āĻāϰāϤ⧠āĻĒāĻžāϰā§āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ āϏā§āĻŽāĻžāĻŦāĻĻā§āϧāϤāĻž : āĻļā§āϧā§āĻŽāĻžāϤā§āϰ āĻāĻāĻ āĻĄā§āĻāĻžāϏā§āĻā§ āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ āĻāϰāĻž āĻšāϝāĻŧā§āĻā§, āĻā§āϰāϏ-āĻĄā§āĻŽā§āĻāύ āϝāĻžāĻāĻžāĻāϝāĻŧā§āϰ āĻ
āĻāĻžāĻŦāĻāĻāĻžāĻĄā§āĻŽāĻŋāĻ āĻ
āĻŦāĻĻāĻžāύ : āϏāĻŽā§āĻĒāĻĻ-āϏā§āĻŽāĻŋāϤ āĻāĻžāώāĻž NLP āĻāĻŦā§āώāĻŖāĻžāϰ āĻāύā§āϝ āĻā§āϰā§āϤā§āĻŦāĻĒā§āϰā§āĻŖ āϰā§āĻĢāĻžāϰā§āύā§āϏ āĻĒā§āϰāĻĻāĻžāύ āĻāϰāĻžāϏāĻžāĻŽāĻžāĻāĻŋāĻ āĻŽā§āϞā§āϝ : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϰ āĻĄāĻŋāĻāĻŋāĻāĻžāϞ āϏāĻāϰāĻā§āώāĻŖ āĻāĻŦāĻ āĻāύā§āύāϝāĻŧāύ⧠āϏāĻšāĻžāϝāĻŧāϤāĻž āĻāϰāĻžāĻĒā§āϰāϝā§āĻā§āϤāĻŋāĻāϤ āĻāĻŋāϤā§āϤāĻŋ : āĻāϰāĻ āĻāĻāĻŋāϞ āύāĻžāĻāĻžāĻŽāĻŋāĻ NLP āĻĒā§āϰāϝāĻŧā§āĻ āύāĻŋāϰā§āĻŽāĻžāĻŖā§āϰ āĻāύā§āϝ āĻāĻŋāϤā§āϤāĻŋ āϏā§āĻĨāĻžāĻĒāύ āĻāϰāĻžāĻĒāĻĻā§āϧāϤāĻŋāĻŦāĻŋāĻĻā§āϝāĻž : āϏāĻŽā§āĻĒāĻĻ-āϏā§āĻŽāĻŋāϤ āĻāĻžāώāĻžāϰ āĻāύā§āϝ NLP āϏāϰāĻā§āĻāĻžāĻŽ āύāĻŋāϰā§āĻŽāĻžāĻŖā§āϰ āϏāĻŽā§āĻĒā§āϰā§āĻŖ āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻž āĻĒā§āϰāĻĻāϰā§āĻļāύ āĻāϰāĻžāĻļāĻŋāĻā§āώāĻžāĻŽā§āϞāĻ āĻĒā§āϰāϝāĻŧā§āĻ : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻž āĻļāĻŋāĻā§āώāĻž āĻāĻŦāĻ āĻļā§āĻāĻžāϝāĻŧ āϏāĻšāĻžāϝāĻŧāϤāĻž āĻāϰāĻžāĻŽāĻŋāĻĄāĻŋāϝāĻŧāĻž āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻžāĻāϰāĻŖ : āύāĻžāĻāĻžāĻŽāĻŋāĻ āϏāĻāĻŦāĻžāĻĻ āĻāĻŦāĻ āϏā§āĻļā§āϝāĻžāϞ āĻŽāĻŋāĻĄāĻŋāϝāĻŧāĻž āĻŦāĻŋāώāϝāĻŧāĻŦāϏā§āϤ⧠āϏā§āĻŦāϝāĻŧāĻāĻā§āϰāĻŋāϝāĻŧ āĻĒā§āϰāĻā§āϰāĻŋāϝāĻŧāĻžāĻāϰāĻŖāϏāϰāĻāĻžāϰāĻŋ āϏā§āĻŦāĻž : āύāĻžāĻāĻžāϞā§āϝāĻžāύā§āĻĄā§āϰ āĻŦāĻšā§āĻāĻžāώāĻŋāĻ āϏāϰāĻāĻžāϰāĻŋ āϏā§āĻŦāĻž āϏāĻŽāϰā§āĻĨāύ āĻāϰāĻžāĻāĻŦā§āώāĻŖāĻž āĻāĻŋāϤā§āϤāĻŋ : āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻžāώāĻžāϰ āĻāϰāĻ NLP āĻāĻŦā§āώāĻŖāĻžāϰ āĻāύā§āϝ āĻŽā§āϞāĻŋāĻ āϏāϰāĻā§āĻāĻžāĻŽ āĻĒā§āϰāĻĻāĻžāύ āĻāϰāĻžāĻāĻŦā§āώāĻŖāĻžāĻĒāϤā§āϰāĻāĻŋ āύāĻŋāĻŽā§āύāϞāĻŋāĻāĻŋāϤ āĻŽā§āϞ āϏāĻžāĻšāĻŋāϤā§āϝ āĻāĻĻā§āϧā§āϤ āĻāϰā§āĻā§:
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻŦā§āϝāĻžāĻāϰāĻŖ āĻŽāĻžāύāϏāĻŽā§āĻŽāϤāĻāϰāĻŖ āĻāĻŦā§āώāĻŖāĻž Saharia et al. (2009). Part of speech tagger for assamese text. - āĻāϏāĻžāĻŽāĻŋ āĻāĻžāώāĻž āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻ
āĻā§āϰāĻĻā§āϤ āĻāĻžāĻ Pathak et al. (2022, 2023). āĻāϏāĻžāĻŽāĻŋ āĻāĻžāώāĻž āĻāĻā§āϰ āĻļā§āĻāĻž āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻĒāĻĻā§āϧāϤāĻŋ Phukan et al. (2023, 2024). āĻāϏāĻžāĻŽāĻŋ āĻāĻžāώāĻž LSTM āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āĻāĻŦā§āώāĻŖāĻž āϏāĻžāĻŽāĻā§āϰāĻŋāĻ āĻŽā§āϞā§āϝāĻžāϝāĻŧāύ : āĻāĻāĻŋ āĻāĻāĻāĻŋ āĻā§āϰā§āϤā§āĻŦāĻĒā§āϰā§āĻŖ āĻ
āĻā§āϰāĻāĻžāĻŽā§ āϤāĻžā§āĻĒāϰā§āϝā§āϰ āĻāĻŦā§āώāĻŖāĻžāĻĒāϤā§āϰ āϝāĻž, āϝāĻĻāĻŋāĻ āĻĒā§āϰāϝā§āĻā§āϤāĻŋāĻāϤ āĻĒāĻĻā§āϧāϤāĻŋāϤ⧠āϤā§āϞāύāĻžāĻŽā§āϞāĻāĻāĻžāĻŦā§ āĻāϤāĻŋāĻšā§āϝāĻŦāĻžāĻšā§, āύāĻžāĻāĻžāĻŽāĻŋāĻ āĻāĻ āϏāĻŽā§āĻĒāĻĻ-āϏā§āĻŽāĻŋāϤ āĻāĻžāώāĻžāϰ āĻāύā§āϝ āĻĒā§āϰāĻĨāĻŽ āĻĒāĻžāϰā§āĻ-āĻ
āĻĢ-āϏā§āĻĒāĻŋāĻ āĻā§āϝāĻžāĻāĻŋāĻ āϏāĻŋāϏā§āĻā§āĻŽ āϏā§āĻĨāĻžāĻĒāύ āĻāϰā§āĻā§, āϝāĻžāϰ āĻā§āϰā§āϤā§āĻŦāĻĒā§āϰā§āĻŖ āĻāĻāĻžāĻĄā§āĻŽāĻŋāĻ āĻŽā§āϞā§āϝ āĻāĻŦāĻ āϏāĻžāĻŽāĻžāĻāĻŋāĻ āϤāĻžā§āĻĒāϰā§āϝ āϰāϝāĻŧā§āĻā§āĨ¤ āĻāĻŦā§āώāĻŖāĻž āĻĒāĻĻā§āϧāϤāĻŋ āĻāĻ ā§āϰ, āĻĄā§āĻāĻž āύāĻŋāϰā§āĻŽāĻžāĻŖ āύāĻŋāϝāĻŧāĻŽāĻŋāϤ āĻāĻŦāĻ āĻĒāϰāĻŦāϰā§āϤ⧠āĻāĻŦā§āώāĻŖāĻžāϰ āĻāύā§āϝ āĻĻā§āĻĸāĻŧ āĻāĻŋāϤā§āϤāĻŋ āϏā§āĻĨāĻžāĻĒāύ āĻāϰā§āĻā§āĨ¤