Part-of-speech tagging for Nagamese Language using CRF
Shohe, Khiamungam, Angami
This paper investigates part-of-speech tagging, an important task in Natural Language Processing (NLP) for the Nagamese language. The Nagamese language, a.k.a. Naga Pidgin, is an Assamese-lexified Creole language developed primarily as a means of communication in trade between the Nagas and people from Assam in northeast India. A substantial amount of work in part-of-speech-tagging has been done for resource-rich languages like English, Hindi, etc. However, no work has been done in the Nagamese language. To the best of our knowledge, this is the first attempt at part-of-speech tagging for the Nagamese Language. The aim of this work is to identify the part-of-speech for a given sentence in the Nagamese language. An annotated corpus of 16,112 tokens is created and applied machine learning technique known as Conditional Random Fields (CRF). Using CRF, an overall tagging accuracy of 85.70%; precision, recall of 86%, and f1-score of 85% is achieved.
Keywords. Nagamese, NLP, part-of-speech, machine learning, CRF.
본 논문은 자연언어처리(NLP)의 중요한 과제인 나가메세 언어의 품사 태깅 작업을 연구하였다. 나가메세 언어는 나가 피진(Naga Pidgin)이라고도 불리며, 아삼어 어휘를 기반으로 한 크리올 언어로서 인도 북동부의 나가인과 아삼인 간의 무역 통신 수단으로 발전하였다. 영어, 힌디어 등 자원이 풍부한 언어의 품사 태깅에 관한 많은 연구가 있지만, 나가메세 언어는 이 분야에서 관련 연구가 없었다. 저자들의 지식으로는 이것이 나가메세 언어에 대한 품사 태깅의 첫 시도이다. 본 연구는 16,112개의 토큰을 포함하는 주석 말뭉치를 구축하였고, 조건부 확률장(CRF) 기계학습 기술을 적용하여 85.70%의 전체 태깅 정확도, 정밀도 및 재현율 86%, F1 점수 85%를 달성하였다.
Sreedhar, M. V. (1985). Standardized grammar of naga pidgin. - 나가메세 문법 표준화 연구
Saharia et al. (2009). Part of speech tagger for assamese text. - 아삼어 품사 태깅 선구적 연구
Pathak et al. (2022, 2023). 아삼어 심층 학습 품사 태깅 방법
Phukan et al. (2023, 2024). 아삼어 LSTM 품사 태깅 연구
종합 평가: 본 논문은 기술 방법론상 상대적으로 전통적이지만, 저자원 언어인 나가메세에 대한 첫 품사 태깅 시스템을 구축하여 중요한 개척적 의의를 가진다. 학술적 가치와 사회적 의의가 크며, 연구 방법이 엄밀하고 데이터 구축이 규범적이어서 후속 연구의 견고한 기초를 마련하였다.